Google Lumiere – sztuczna inteligencja przekształcająca tekst na wideo z różnymi funkcjami

Nie tylko OpenAI było ostatnio zaprezentowano wideo AI „Sora”., Google udostępniło także wideo AI: Lumiere. Dzięki Google Lumiere podpowiedzi tekstowe można konwertować na filmy, ale można także korzystać z wielu innych funkcji. Na przykład obrazy można przekształcić w żądaną animację za pomocą poleceń tekstowych. Można także zaznaczać i animować poszczególne obszary obrazu, np. dym z lokomotywy. Tworzenie stylizowanych filmów i animacji może przyjąć styl graficzny obrazu i tworzyć ruchome obrazy w tym stylu. Wreszcie można zmieniać treść istniejących filmów – zabezpieczenia, ubrania, powierzchnie i konstrukcje.

Google Lumiere – model AI z architekturą „Space-Time U-Net”.

Nawet nie będę udawać, że rozumiem, jak działają tak złożone sztuczne inteligencje. Zarówno na stronie prezentacji Google (na GitHubie), jak również w powiązanej pracy badawczej (na arxiv.org), mówi się jednak o architekturze „przestrzenno-czasowej U-Net”, w skrócie STUNet. Jeśli chcesz dowiedzieć się więcej, możesz odwiedzić wspomniane źródła.

Lumiere opiera się na modelu dyfuzji, który jest używany do przestrzennego i czasowego próbkowania w dół i w górę, co ostatecznie tworzy filmy o niskiej rozdzielczości, zawierające wszystkie pojedyncze obrazy. Ma to na celu odróżnienie Google AI od modeli, które tworzą dwie oddzielne klatki kluczowe, a następnie próbują wypełnić lukę między nimi – i prawdopodobnie nie dają w ten sposób realistycznie wyglądającego wideo.

Twórz nowe filmy za pomocą poleceń tekstowych

Google Lumiere może wykonywać różne zadania. Największe wrażenie robi chyba tworzenie filmów z prostych poleceń tekstowych, tzw. podpowiedzi. Można to utworzyć za pomocą krótkich opisów wymaganej sceny. Jednak wyniki mogą się znacznie różnić w zależności od polecenia tekstowego.

Zmień styl i strukturę wideo

Istniejące filmy, takie jak te, które sam nagrałeś, również można w dużym stopniu modyfikować. Treść obrazu (ludzie, zwierzęta, przedmioty itp.) można zbudować z drewnianych klocków lub klocków Lego, złożyć z papieru za pomocą origami lub ułożyć z kwiatów. Początkowe ruchy są w dużej mierze przyjęte.

Twórz filmy z obrazów

Jeśli dasz Lumiere AI pojedynczy obraz i opiszesz żądaną scenę za pomocą krótkiego podpowiedzi, może ona utworzyć z niego wideo. Niezależnie od tego, czy jest to samochód jadący po plaży, żyrafa jedząca trawę, czy żaglówka pływająca po jeziorze, istnieje wiele przykładów działania sztucznej inteligencji. Wyniki nie są naprawdę doskonałe i (nadal) rozpoznawalne jako produkt AI.

Animuj poszczególne sekcje obrazu

Jeśli chcesz, aby ogień migotał na zdjęciu ogniska, Google Lumiere również może to zapewnić. Ponadto można symulować ruchy motyla – wystarczy użyć zdjęcia zwierzęcia. Jak już wspomniano na początku, działa to również z dymem lokomotywy. W spektaklu Lumiere ukazana jest także woda jeziora; po przetworzeniu AI tworzy fale.

Rozwiń wideo lub zastąp brakujące obszary

Jeśli podczas nagrywania filmu na pierwszym planie pojawi się przeszkadzający obiekt lub sekcja obrazu została nieprawidłowo wybrana, w przypadku Google Lumiere nie powinno to już stanowić problemu. Dzięki analizie istniejącego materiału wideo można wyliczyć brakujące treści obrazu i uzupełnić je o dopasowanie do istniejącego materiału wideo – tzw. inpainting.

Edycja wideo z wstawianiem nowych obiektów lub struktur

Pokazuje także, jak można edytować istniejące pliki wideo za pomocą Lumiere. Na przykład ubiór kobiety został oznakowany, a następnie szybko zdefiniowany na nowo. Zielono-białą suknię z rękawami czasami przerabiano na suknię złotą, czasem na czarną, czasem na biało-czerwoną w paski – łącznie z usunięciem rękawów. W innych przykładach ptaki wyposażano w korony, okulary przeciwsłoneczne, szaliki, szlafroki i tym podobne.

Stylizowana kreacja treści wizerunkowych i wideo

Jak już wspomniano, obrazy można wykorzystać do określenia określonego stylu tworzonych obrazów lub filmów. Możliwych jest wiele, od monochromatycznej grafiki pikselowej, przez kolorowe naklejki, aż po błyszczące, złote modele 3D. Dzięki Google Lumiere możesz zasadniczo adaptować do własnych pomysłów różne style artystyczne, projekty filmów lub gier wideo i nie tylko.

Kreatywne możliwości i ryzyko deepfake’u związane z generatywną sztuczną inteligencją

Jak każda generatywna sztuczna inteligencja, niezależnie od tego, czy tworzy tekst, obrazy, audio czy wideo, Google Lumiere oferuje nie tylko możliwości twórcze, ale także ryzyko społeczne, polityczne i gospodarcze. Ryzyko, że poszczególne narzędzia zostaną wykorzystane do rozpowszechniania dezinformacji lub do celów przestępczych, nie jest wyłącznie teoretyczne. Było to widoczne od lat w różnych przykładach deepfake’ów.

Wreszcie w prezentacji Lumiere, do której link znajduje się powyżej, również czytamy: „…uważamy, że opracowanie i używanie narzędzi do wykrywania stronniczości i złośliwych zastosowań jest niezwykle istotne, aby zapewnić bezpieczne i uczciwe wykorzystanie”. Jednak sam pogląd nie będzie przydatny. Czas pokaże, czy Google Lumiere, OpenAI Sora itp. będą bezpiecznymi narzędziami.

Podobał Ci się artykuł i czy instrukcje na blogu Ci pomogły? Wtedy byłbym szczęśliwy, gdybyś bloga poprzez stałe członkostwo będzie wspierać.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone * oznakowane

Na blogu Sir Apfelot znajdziesz porady, instrukcje i recenzje produktów Apple, takich jak iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini i Mac Studio.

Promocje