OpenAI Sora – sztuczna inteligencja przekształcająca tekst na wideo z (prawie) realistycznymi wynikami

OpenAI chce nadal ugruntowywać swoją pozycję lidera na rynku generatywnych modeli sztucznej inteligencji. Oprócz chatbota ChatGPT i kreatora obrazu DALL-E, zaprezentowano teraz narzędzie do generowania materiału wideo: Sora. Sztuczna inteligencja OpenAI, zwana Sora, tworzy szczegółowe filmy o wysokiej rozdzielczości na podstawie prostych poleceń tekstowych, obrazów i innych filmów. Można zastosować ludzi, budynki, zwierzęta, rośliny, określone sceny, style, typy kamer, epoki i tym podobne. Dotychczasowe wyniki rozwoju OpenAI Sora są imponujące, ale wciąż mają wystarczająco dużo wad, aby można je było ujawnić jako materiał AI. Nadal…

Ta kobieta nie istnieje. W imponującym filmie OpenAI pokazuje, co potrafi nowa sztuczna inteligencja wideo o nazwie Sora. Oprócz realistycznie wyglądających ludzi model AI generuje również szczegółowe środowiska, w tym odbicia światła, rozmycie ruchu itp.
Ta kobieta nie istnieje. W imponującym filmie OpenAI pokazuje, co potrafi nowa sztuczna inteligencja wideo o nazwie Sora. Oprócz realistycznie wyglądających ludzi model AI generuje również szczegółowe środowiska, w tym odbicia światła, rozmycie ruchu itp.

OpenAI Sora tworzy filmy zawierające do 1 minuty spójnej treści

Od dwóch pirackich statków walczących przy filiżance kawy, przez młodego mężczyznę czytającego książkę siedzącego na chmurze, po paradę z okazji Chińskiego Nowego Roku – wszystko i wiele więcej jest możliwe. Na tej stronie OpenAI pokazuje, które realistyczne i fantastyczne sceny można już zrealizować za pomocą Sora AI w przypadku zadań zamiany tekstu na wideo.

Nie chodzi tylko o poszczególne treści czy bohaterów, którzy są przedstawieni z dużą szczegółowością. Cały film, łącznie z tłem i postaciami drugoplanowymi, jest zazwyczaj poprawny przestrzennie, ze złożonymi efektami świetlnymi, fizycznie dostępnym sprzętem i tym podobnymi. Na pierwszy rzut oka większość materiału wydaje się prawdziwa.

OpenAI Sora może także stworzyć galerię z wystawionymi dziełami sztuki w różnych stylach. Podpowiedź jest bardzo krótka i prosta.
OpenAI Sora może także stworzyć galerię z wystawionymi dziełami sztuki w różnych stylach. Podpowiedź jest bardzo krótka i prosta.

Sora jest wciąż na wczesnym etapie i ma ograniczony dostęp

Sora AI jest obecnie dostępna tylko dla „Red Team” OpenAI i profesjonalnych twórców z dziedzin filmu i designu. Tzw. Red Team to ludzie, którzy testują nowe technologie OpenAI pod kątem związanych z nimi zagrożeń i zagrożeń. W szczególności AI wideo jest tego pełne, ponieważ teoretycznie można je wykorzystać do tworzenia rozległych deepfake’ów przedstawiających celebrytów, polityków, a nawet osoby prywatne.

Podczas gdy Zespół Czerwony ma za zadanie identyfikować takie potencjalne zagrożenia, profesjonalni użytkownicy z obszaru kreatywnego są zaangażowani w zbieranie informacji zwrotnych w celu ulepszenia Sory. Celem jest sprawdzenie, które funkcje byłyby przydatne w kinie, YouTube i tym podobnych. Publiczny dostęp jest z pewnością planowany, ale miejmy nadzieję, że będzie wyposażony w mechanizmy zabezpieczające przed niewłaściwym wykorzystaniem narzędzia.

Ten człowiek nie istnieje. Bogactwo szczegółów Sora AI OpenAI znajduje odzwierciedlenie w szerokiej gamie elementów: skórze, włosach, efektach świetlnych, tkaninach i powierzchniach itp.
Ten człowiek nie istnieje. Bogactwo szczegółów Sora AI OpenAI znajduje odzwierciedlenie w szerokiej gamie elementów: skórze, włosach, efektach świetlnych, tkaninach i powierzchniach itp.

OpenAI zwraca uwagę na słabości wideo AI

Oprócz naprawdę imponujących i czasami bardzo realistycznie wyglądających filmów o sztucznej inteligencji, OpenAI pokazuje także kilka wartości odstających z poprzednich testów na stronie, do której link znajduje się powyżej. Przykładowo Sora miała animować osobę na bieżni. To zadziałało w teorii, ale mężczyzna poszedł w złym kierunku.

Inny przykład pokazuje szczenięta wilków bawiące się na polnej drodze. Problem: z stada pojawia się coraz więcej małych zwierząt, pozornie znikąd. W innych przykładach obiekty pojawiają się pozornie znikąd lub za innymi obiektami, których w rzeczywistości nie można było ukryć. Ręce nadal stanowią problem, łącznie z naturalnymi ruchami dłoni.

Czy bieżnia jedzie do tyłu, czy co się dzieje na filmie Sory?
Czy bieżnia jedzie do tyłu, czy co się dzieje na filmie Sory?

Ogłoszono mniej lub bardziej przydatne mechanizmy bezpieczeństwa

Sztuczna inteligencja wideo, która może tworzyć (prawie) realistyczne sceny o długości do 1 minuty, oferuje możliwości, ale oczywiście także zagrożenia. Dlatego OpenAI ogłosiło różne mechanizmy bezpieczeństwa, które mają zapobiec niewłaściwemu wykorzystaniu narzędzia. Na przykład należy wdrożyć filtry podpowiedzi, aby zapobiec konwertowaniu niektórych danych wejściowych do postaci wideo.

W szczególności należy zapobiegać skrajnej przemocy, treściom o charakterze seksualnym, przedstawianiu nienawiści, podobiznach gwiazd lub wykorzystywaniu materiałów franczyzowych (postacie z kreskówek, filmów, seriali, gier wideo itp.). Podobnie jak w przypadku obrazów z DALL-E, metadane C2PA również powinny zostać włączone do wyjściowych plików wideo. Ale trzeba przyznać, że łatwo je usunąć. Czas pokaże, jak bezpieczna będzie pierwsza publiczna wersja Sory.

Zbliżenie kobiety z przykładowego wideo OpenAI Sora pokazane na górze. Na pierwszy i drugi rzut oka nie można rozpoznać pochodzenia sceny AI.
Zbliżenie kobiety z przykładowego wideo OpenAI Sora pokazane na górze. Na pierwszy i drugi rzut oka nie można rozpoznać pochodzenia sceny AI.

Technologia, która się za tym kryje: Sora to model „dyfuzyjny”.

Podobnie jak w przypadku odpowiednich AI obrazu, AI wideo mogą działać jako modele dyfuzyjne. Oznacza to, że w pierwszej kolejności wytwarzają szum statyczny, a następnie w wielu etapach usuwają ten szum, by ostatecznie powstał opisywany obraz lub film. W przeciwieństwie do obrazów, w przypadku filmów należy również zadbać o spójność, ponieważ treść nie powinna nagle całkowicie się zmienić ani nierealistycznie zdeformować.

Ponadto obiekty i postacie utracone z pola widzenia wirtualnej kamery muszą wyglądać tak samo, gdy ponownie wejdą do akcji. Techniki służące do tego zostały również wdrożone w modelu Sora. Docelowo Sora może być również postrzegana jako multimodalny model sztucznej inteligencji, ponieważ oprócz wprowadzania tekstu może również wykorzystywać obrazy i filmy jako materiał źródłowy.

Robi wrażenie na pierwszy rzut oka. Ale cień psa się myli. Sora ignoruje także fakt, że okiennica jest tak daleko od domu, że pies nie może przed nią przejść. Pochodzenie AI klipu jest zatem rozpoznawalne, jeśli wiesz, czego szukać.
Robi wrażenie na pierwszy rzut oka. Ale cień psa się myli. Sora ignoruje także fakt, że okiennica jest tak daleko od domu, że pies nie może przed nią przejść. Pochodzenie AI klipu jest zatem rozpoznawalne, jeśli wiesz, czego szukać.

Sora może rozszerzać i poprawiać filmy, a także animować obrazy

Oprócz poleceń tekstowych do tworzenia zupełnie nowej treści wideo, OpenAI ogłasza także Sora AI jako narzędzie do rozwijania i naprawiania istniejących filmów. Co więcej, dzięki wideo AI powinno być możliwe wybranie pliku obrazu i animacja go, zachowując wyświetlane szczegóły i wartości. Oczywiście tekst jest ponownie używany do opisania tego, co powinno się wydarzyć w animowanej wersji obrazu.

Nawet podczas rozszerzania filmów, dodawania nowych treści lub usuwania niechcianych treści z plików wideo użytkownik może za pomocą tekstu przekazać to, co ostatecznie powinien zobaczyć. Umożliwia to rozwinięcie klipu wideo na początku i/lub na końcu, aby zapewnić lepsze wprowadzenie lub bardziej ekscytujące zakończenie. Można także usuwać lub dodawać osoby.

Robi wrażenie: podczas gdy budynki, przez które przejeżdża pociąg, są oznaczone rozmyciem ruchu, odbicie w oknie z przodu pozostaje ostre. Osoba, z której perspektywy powstaje film, staje się widoczna także wtedy, gdy pociąg przejeżdża przez most/tunel. Podpowiedź została zaimplementowana szokująco dobrze.
Robi wrażenie: podczas gdy budynki, przez które przejeżdża pociąg, są oznaczone rozmyciem ruchu, odbicie w oknie z przodu pozostaje ostre. Osoba, z której perspektywy powstaje film, staje się widoczna także wtedy, gdy pociąg przejeżdża przez most/tunel. Podpowiedź została zaimplementowana szokująco dobrze.

OpenAI i AGI – Sora ma być krokiem w stronę „wszystkiego AI”.

Duża część zapowiedzi Sory polega na opisaniu możliwości twórczych, jakie stwarza multimodalna sztuczna inteligencja wideo. Niemniej jednak długi artykuł z wieloma przykładami filmów, opisami technologii i innymi szczegółami kończy się następującym zdaniem (w luźnym tłumaczeniu): „Sora stanowi podstawę modeli, które potrafią zrozumieć i symulować rzeczywisty świat. Naszym zdaniem będzie to ważny kamień milowy na drodze do AGI."

AGI to „sztuczna inteligencja ogólna”, która teoretycznie powinna być w stanie zrozumieć i rozwiązać każde zadanie intelektualne. Ten wciąż teoretyczny konstrukt byłby wysoce autonomicznym systemem, którego dokładna forma nie została jeszcze jednolicie zdefiniowana. Podobnie jak cała sztuczna inteligencja, AGI wiąże się z możliwościami i zagrożeniami. Można tam znaleźć więcej szczegółów na ten temat, a także linki do odpowiedniej literatury specjalistycznej w Wikipedii.

Podobał Ci się artykuł i czy instrukcje na blogu Ci pomogły? Wtedy byłbym szczęśliwy, gdybyś bloga poprzez stałe członkostwo będzie wspierać.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone * oznakowane

Na blogu Sir Apfelot znajdziesz porady, instrukcje i recenzje produktów Apple, takich jak iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini i Mac Studio.

Promocje