Google Lumiere – Text-zu-Video-KI mit vielen Funktionen

Nicht nur wurde von OpenAI letztens die Video-KI „Sora“ vorgestellt, auch Google hat eine Video-KI herausgebracht: Lumiere. Mit Google Lumiere können Text-Prompts in Videos umgewandelt, aber auch zahlreiche andere Funktionen genutzt werden. So lassen sich beispielsweise Bilder mithilfe von Textbefehlen in die erwünschte Animation umwandeln. Zudem können einzelne Bildbereiche markiert und animiert werden, etwa der Rauch einer Lokomotive. Die stilisierte Video- und Animationserzeugung kann den Grafikstil eines Bildes übernehmen und auf Prompts basierte Bewegtbilder in jenem Stil erstellen. Zuletzt können Inhalte in bestehenden Videos verändert werden – Gesichert, Kleidung, Oberflächen und Strukturen.

Mac-Tipp: Große Dateien finden und löschen mit Daisy Disk (Werbung)

Kapitel in diesem Beitrag:

1 Google Lumiere – KI-Modell mit „Space-Time U-Net“-Architektur
2 Neue Videos aus Text-Befehlen erstellen
3 Stil und Strukturen eines Videos ändern
4 Videos aus Bildern erzeugen lassen
5 Einzelne Bildausschnitte animieren
6 Video erweitern oder fehlende Bereiche ersetzen
7 Videobearbeitung mit Einsetzen neuer Objekte oder Strukturen
8 Stilisierte Erzeugung von Bild- und Video-Inhalten
9 Kreative Chancen und Deepfake-Risiken der generativen KI
10 Ähnliche Beiträge

Google Lumiere – KI-Modell mit „Space-Time U-Net“-Architektur

Ich werde nicht einmal ansatzweise so tun, als ob ich verstehen würde, wie so komplexe künstliche Intelligenzen funktionieren. Sowohl auf der Vorstellungsseite von Google (auf GitHub) als auch in dem dazugehörigen Forschungs-Paper (bei arxiv.org) ist allerdings von einer „Space-Time U-Net“-Architektur, kurz STUNet, die Rede. Wollt ihr mehr wissen, könnt ihr besagte Quellen aufsuchen.

Lumiere fußt dabei auf einem Diffusion-Modell, welches für das räumliche und zeitliche Down- und Up-Sampling verwendet wird, das letztendlich niedrig aufgelöste Videos inklusive aller Einzelbilder erstellt. Damit soll sich die Google-KI von Modellen abheben, die zwei auseinanderliegende Keyframes erstellen und dann die Lücke dazwischen zu füllen versuchen – sowie ggf. daran scheitern, auf diesem Weg ein realistisch wirkendes Video auszugeben.

Neue Videos aus Text-Befehlen erstellen

Google Lumiere kann verschiedene Aufgaben erfüllen. Die beeindruckendste ist dabei wahrscheinlich die Erzeugung von Videos aus einfachen Text-Befehlen, sogenannten Prompts. Schon durch kurze Beschreibungen der benötigten Szene kann diese erzeugt werden. Die Ergebnisse können aber stark variieren, je nach Textbefehl.

Stil und Strukturen eines Videos ändern

Bereits vorhandene Videos, etwa selber aufgenommene, können zudem stark verändert werden. So können die Bildinhalte (Menschen, Tiere, Objekte, etc.) aus Holzblöcken oder Lego-Steinen aufgebaut, per Origami aus Papier gefaltet oder aus Blumen zusammengesteckt dargestellt werden. Die Ausgangsbewegungen werden dabei weitestgehend übernommen.

Videos aus Bildern erzeugen lassen

Gibt man der Lumiere-KI ein einzelnes Bild und beschreibt die gewünschte Szene noch mit einem kurzen Prompt, dann kann sie ein Video daraus erstellen. Egal ob ein Auto an einem Strand entlang fährt, eine Giraffe Gras frisst oder ein Segelboot auf einem See unterwegs ist – in den Beispielen für das Funktionieren der KI kann so einiges durchstöbert werden. Die Ergebnisse sind dabei nicht wirklich perfekt und (noch) als KI-Produkt erkennbar.

Einzelne Bildausschnitte animieren

Wenn das Feuer auf dem Foto eines Lagerfeuers flackern soll, kann Google Lumiere auch dies realisieren. Zudem können die Bewegungen eines Schmetterlings simuliert werden – nur mithilfe eines Fotos des Tiers. Wie eingangs schon erwähnt, so klappt das außerdem mit dem Rauch einer Lokomotive. Und das Wasser eines Sees wird ebenfalls bei der Lumiere-Vorstellung gezeigt; nach der KI-Bearbeitung wirft es Wellen.

Video erweitern oder fehlende Bereiche ersetzen

Steht bei der Aufnahme eines Videos ein störendes Objekt im Vordergrund oder wurde der Bildausschnitt falsch gewählt, dann soll das mit Google Lumiere kein Problem mehr sein. Denn dank der Analyse des vorhandenen Videomaterials können fehlende Bildinhalte berechnet und zum bestehenden Video passend ergänzt werden – also sogenanntes Inpainting.

Videobearbeitung mit Einsetzen neuer Objekte oder Strukturen

Weiterhin wird gezeigt, wie bereits vorhandene Videodateien mit Lumiere bearbeitet werden können. So wurde etwa das Kleid einer Frau markiert und dann per Prompt neu definiert. Aus einem grün-weißen Kleid mit Ärmeln wurde mal ein goldenes, mal ein schwarzes, mal ein weiß-rot gestreiftes Kleid – inklusive Entfernung der Ärmel. In anderen Beispielen wurden Vögel mit Krone, Sonnenbrille, Schal, Bademantel und dergleichen ausgestattet.

Stilisierte Erzeugung von Bild- und Video-Inhalten

Wie ebenfalls schon erwähnt, so können Bilder genutzt werden, um einen bestimmten Stil für die zu erzeugenden Bilder oder Videos vorzugeben. Von monochromen Pixelgrafiken über bunte Sticker hin zu golden glänzenden 3D-Modellen ist dabei vieles möglich. Mit Google Lumiere könnten also im Grunde verschiedene Kunststile, Film- oder Videospiel-Designs sowie mehr für eigene Ideen übernommen werden.

Kreative Chancen und Deepfake-Risiken der generativen KI

Wie jede generative KI, egal ob Text-, Bild-, Audio- oder eben Video-Erstellung, so bietet Google Lumiere neben kreativen Chancen auch gesellschaftliche, politische und wirtschaftliche Risiken. Das Risiko, dass die einzelnen Werkzeuge für die Streuung von Fehlinformationen und / oder für kriminelle Zwecke missbraucht werden, ist nicht nur theoretisch. Es zeigt sich bereits seit Jahren in verschiedensten Deepfake-Beispielen.

Abschließend heißt es in der oben verlinkten Lumiere-Vorstellung deshalb auch: „… wir sind der Ansicht, dass es von entscheidender Bedeutung ist, Instrumente zur Erkennung von Vorurteilen sowie böswilligen Anwendungszwecken zu entwickeln und anzuwenden, um eine sichere und faire Verwendung zu gewährleisten.“ Die Ansicht allein wird aber nichts nützen. Es wird sich zeigen müssen, ob Google Lumiere, OpenAI Sora und Co. sichere Werkzeuge sein werden.