OpenAI Sora – Text-zu-Video-KI mit (fast) realistischen Ergebnissen

OpenAI will sich weiterhin als Platzhirsch auf dem Markt der generativen KI-Modelle behaupten. Neben dem Chatbot ChatGPT und der Bilderstellung DALL-E wurde deshalb nun ein Werkzeug zur Erzeugung von Videomaterial vorgestellt: Sora. Die Sora genannte KI von OpenAI erstellt hochauflösende und detailreiche Videos aus einfachen Textbefehlen, Bildern oder anderen Videos. Personen, Gebäude, Tiere, Pflanzen, bestimmte Szenen, Stile, Kamera-Arten, Epochen und dergleichen können dabei umgesetzt werden. Die bisherigen Ergebnisse aus der Entwicklung von OpenAI Sora sind beeindruckend, haben aber noch ausreichend Makel, um als KI-Material enttarnt zu werden. Noch…

Diese Frau existiert nicht. In einem eindrucksvollen Video zeigt OpenAI, was die neue Video-KI namens Sora kann. Neben realistisch wirkenden Menschen generiert das KI-Modell auch detailreiche Umgebungen inkl. Lichtreflexionen, Bewegungsunschärfe, etc.
Diese Frau existiert nicht. In einem eindrucksvollen Video zeigt OpenAI, was die neue Video-KI namens Sora kann. Neben realistisch wirkenden Menschen generiert das KI-Modell auch detailreiche Umgebungen inkl. Lichtreflexionen, Bewegungsunschärfe, etc.

OpenAI Sora erstellt bis zu 1 Minute inhaltlich konstante Videos

Von zwei Piratenschiffen, die in einer Tasse Kaffee kämpfen, über einen jungen Mann, der auf einer Wolke sitzend ein Buch liest, hin zu einer Parade zur Feier des Chinesischen Neujahrs ist alles und viel mehr möglich. Auf dieser Seite zeigt OpenAI, welche realistischen und fantastischen Szenen bereits mit der Sora-KI für Text-zu-Video-Aufgaben realisierbar sind.

Dabei geht es nicht nur um einzelne Fokusinhalte oder Protagonist/innen, die detailreich gerendert werden. Das gesamte Video inkl. Hintergründen und Nebencharakteren wird meist räumlich korrekt, mit komplexen Lichteffekten, physikalisch sinnvoller Ausstattung und dergleichen berechnet. Auf den ersten flüchtigen Blick wirkt das meiste Material echt.

OpenAI Sora kann auch eine Galerie mit ausgestellten Kunstwerken verschiedener Stile kreieren. Der Prompt dafür ist denkbar kurz und simpel.
OpenAI Sora kann auch eine Galerie mit ausgestellten Kunstwerken verschiedener Stile kreieren. Der Prompt dafür ist denkbar kurz und simpel.

Sora steht noch am Anfang und ist nur begrenzt zugänglich

Aktuell steht die Sora-KI nur dem „Red Team“ von OpenAI sowie professionellen Kreativen aus den Bereichen Film und Design zur Verfügung. Das sogenannte Red Team besteht dabei aus Leuten, die neue OpenAI-Technologien bezüglich ihrer Gefahren und Risiken testen. Gerade Video-KIs stecken ja voll davon, da mit ihnen theoretisch umfangreiche Deepfakes von Promis, Politiker/innen und auch Privatpersonen angefertigt werden können.

Während das Red Team also solche potenziellen Gefahren ausmachen soll, werden die professionellen User aus dem Kreativbereich einbezogen, um Feedback für die Verbesserung von Sora einzuholen. Es soll geschaut werden, welche Features für Kino, YouTube und Co. sinnvoll wären. Ein öffentlicher Zugang ist sicherlich geplant, dann hoffentlich aber mit Sicherheitsmechanismen gegen Missbrauch des Tools.

Dieser Mann existiert nicht. Der Detailreichtum der Sora-KI von OpenAI zeigt sich in verschiedensten Elementen: Haut, Haare, Lichteffekte, Stoffe und Oberflächen, etc.
Dieser Mann existiert nicht. Der Detailreichtum der Sora-KI von OpenAI zeigt sich in verschiedensten Elementen: Haut, Haare, Lichteffekte, Stoffe und Oberflächen, etc.

OpenAI macht auf die Schwächen der Video-KI aufmerksam

Neben wirklich eindrucksvollen und teils sehr realistisch wirkenden KI-Videos zeigt OpenAI auf der oben verlinkten Seite auch ein paar Ausreißer aus den bisherigen Versuchsläufen. So sollte Sora zum Beispiel eine Person auf einem Laufband animieren. Das hat zwar in der Theorie geklappt, nur läuft der Mann in die falsche Richtung.

Ein anderes Beispiel zeigt Wolfswelpen, die auf einem Feldweg tollen. Das Problem: es erscheinen aus dem Bündel immer mehr der Tierchen, scheinbar aus dem Nichts. Auch in weiteren Beispielen erscheinen Objekte scheinbar aus dem Nirgendwo bzw. hinter anderen Objekten, die sie nicht wirklich hätten verdecken können. Auch Hände sind immer noch ein Problem, inklusive natürlicher Handbewegungen.

Wird das Laufband rückwärts betrieben oder was ist in diesem Sora-Video los?
Wird das Laufband rückwärts betrieben oder was ist in diesem Sora-Video los?

Mehr oder weniger nützliche Sicherheitsmechanismen angekündigt

Eine Video-KI, die (nahezu) realistische Szenen von bis zu 1 Minute Länge produzieren kann, bietet Chancen, aber natürlich auch Gefahren. OpenAI hat deshalb verschiedene Sicherheitsmechanismen angekündigt, die dem Missbrauch des Tools vorbeugen sollen. So sollen etwa Prompt-Filter implementiert werden, die verhindern sollen, dass bestimmte Eingaben in Videoform umgesetzt werden.

Speziell sollen extreme Gewalt, sexuelle Inhalte, hassvolle Darstellungen, Promi-Ähnlichkeiten oder die Nutzung von Franchise-Material (Charaktere aus Cartoons, Filmen, Serien, Videospielen, etc.) unterbunden werden. In die ausgegebenen Videodateien sollen wie bei Bildern von DALL-E zudem C2PA-Metadaten eingearbeitet werden. Aber diese lassen sich zugegebenermaßen leicht entfernen. Es bleibt abzuwarten, wie sicher die erste öffentliche Sora-Version sein wird.

Ein Closeup der Frau aus dem ganz oben gezeigten Videobeispiel von OpenAI Sora. Auf den ersten und auch zweiten Blick ist die KI-Herkunft der Szene nicht zu erkennen.
Ein Closeup der Frau aus dem ganz oben gezeigten Videobeispiel von OpenAI Sora. Auf den ersten und auch zweiten Blick ist die KI-Herkunft der Szene nicht zu erkennen.

Die Technik dahinter: Sora ist ein „Diffusion“-Modell

Wie auch bei entsprechenden Bild-KIs können Video-KIs als Diffusion-Modelle arbeiten. Das heißt, dass sie als ersten Schritt ein statisches Rauschen erzeugen und dann in zahlreichen Schritten das Rauschen so entfernen, dass letztendlich das beschriebene Bild bzw. Video entsteht. Anders als bei Bildern muss bei Videos zusätzlich eine Kohärenz erarbeitet werden, da Inhalte sich nicht plötzlich komplett verändern oder unrealistisch verformen sollten.

Außerdem müssen aus dem Blickfeld der virtuellen Kamera geratene Objekte und Charaktere bei Wiedereintritt in das Geschehen gleich aussehen. Auch dafür wurden im Sora-Modell Techniken implementiert. Letztendlich kann Sora aber auch als multimodales KI-Modell angesehen werden, denn es kann neben Texteingaben weiterhin Bilder und Videos als Ausgangsmaterial nutzen.

Auf den ersten Blick eindrucksvoll. Doch der Schatten des Hundes stimmt nicht. Auch missachtet Sora hier, dass der Fensterladen so vom Haus absteht, dass der Hund gar nicht davor entlang gehen kann. Die KI-Herkunft des Clips ist also erkennbar, wenn man weiß, wonach man schauen muss.
Auf den ersten Blick eindrucksvoll. Doch der Schatten des Hundes stimmt nicht. Auch missachtet Sora hier, dass der Fensterladen so vom Haus absteht, dass der Hund gar nicht davor entlang gehen kann. Die KI-Herkunft des Clips ist also erkennbar, wenn man weiß, wonach man schauen muss.

Sora kann Videos verlängern und Ausbessern sowie Bilder animieren

Neben Textbefehlen zum Kreieren von komplett neuen Videoinhalten kündigt OpenAI die Sora-KI zudem als Werkzeug zum Erweitern und Reparieren von vorhandenen Videos an. Weiterhin soll es mit der Video-KI möglich sein, eine Bilddatei auszuwählen und sie bei Beibehaltung der gezeigten Details und Werte zu animieren. Dabei kommt natürlich wieder Text zum Einsatz, um zu beschreiben, was in der animierten Version des Bildes passieren soll.

Auch bei der Verlängerung von Videos oder dem Einsetzen von neuen Inhalten bzw. dem Entfernen von unerwünschten Inhalten aus Videodateien kann man als User per Texteingabe kommunizieren, was letztendlich zu sehen sein soll. So kann ein Videoclip am Anfang und / oder Ende erweitert werden, um einen besseren Einstieg oder ein spannenderes Ende zu bieten. Personen könnten zudem entfernt oder hinzugefügt werden.

Eindrucksvoll: Während die Gebäude, an denen der Zug vorbeifährt, von Bewegungsunschärfe gezeichnet sind, bleibt die Reflexion im Fenster davor scharf. Auch wird die Person, aus deren Blickwinkel das Video erstellt ist, sichtbar, wenn der Zug eine Brücke / einen Tunnel passiert. Der Prompt wird erschreckend gut umgesetzt.
Eindrucksvoll: Während die Gebäude, an denen der Zug vorbeifährt, von Bewegungsunschärfe gezeichnet sind, bleibt die Reflexion im Fenster davor scharf. Auch wird die Person, aus deren Blickwinkel das Video erstellt ist, sichtbar, wenn der Zug eine Brücke / einen Tunnel passiert. Der Prompt wird erschreckend gut umgesetzt.

OpenAI und die AGI – Sora soll ein Schritt zur „Alles-KI“ sein

Ein großer Teil der Sora-Ankündigung besteht aus der Beschreibung der kreativen Möglichkeiten, die sich durch die multimodale Video-KI ergeben. Dennoch schließt der lange Beitrag mit den vielen Video-Beispielen, Beschreibungen der zugrunde liegenden Technik und anderen Details mit diesem Satz (frei übersetzt): „Sora dient als Grundlage für Modelle, welche die reale Welt verstehen und simulieren können – eine Fähigkeit, von der wir glauben, dass sie ein wichtiger Meilenstein auf dem Weg zur AGI sein wird.

Bei der AGI handelt es sich um die „Artificial General Intelligence“, welche in der Theorie jede intellektuelle Aufgabe verstehen und lösen können soll. Dieses noch theoretische Konstrukt wäre ein hochautonomes System, dessen genaue Form noch nicht einheitlich definiert ist. Die AGI ist wie jede KI mit Chancen und Risiken verbunden. Mehr Details zum Thema sowie Links zu passender Fachliteratur gibt es bei Wikipedia.

Hat dir der Artikel gefallen und helfen dir die Anleitungen im Blog? Dann würde ich mich freuen, wenn du das Blog über eine Steady-Mitgliedschaft unterstützen würdest.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Im Sir Apfelot Blog findest du Ratgeber, Anleitungen und Testberichte zu Apple Produkten wie iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini und Mac Studio.

Specials