OpenAI Sora – AI da testo a video con risultati (quasi) realistici

OpenAI vuole continuare ad affermarsi come leader nel mercato dei modelli di intelligenza artificiale generativa. Oltre al chatbot ChatGPT e alla creazione di immagini DALL-E, è stato ora presentato uno strumento per la generazione di materiale video: Sora. L'intelligenza artificiale di OpenAI, chiamata Sora, crea video dettagliati e ad alta risoluzione da semplici comandi di testo, immagini o altri video. È possibile implementare persone, edifici, animali, piante, determinate scene, stili, tipi di telecamere, epoche e simili. I risultati finora ottenuti dallo sviluppo di OpenAI Sora sono impressionanti, ma presentano ancora abbastanza difetti da essere rivelati come materiale AI. Ancora…

Questa donna non esiste. In un video impressionante, OpenAI mostra cosa può fare la nuova AI video chiamata Sora. Oltre a persone dall'aspetto realistico, il modello AI genera anche ambienti dettagliati tra cui riflessi di luce, motion blur, ecc.
Questa donna non esiste. In un video impressionante, OpenAI mostra cosa può fare la nuova AI video chiamata Sora. Oltre a persone dall'aspetto realistico, il modello AI genera anche ambienti dettagliati tra cui riflessi di luce, motion blur, ecc.

OpenAI Sora crea video con un massimo di 1 minuto di contenuti coerenti

Da due navi pirata che combattono davanti a una tazza di caffè, a un giovane che legge un libro seduto su una nuvola, a una parata che celebra il Capodanno cinese, tutto e molto di più è possibile. In questa pagina OpenAI mostra quali scene realistiche e fantastiche possono già essere realizzate con Sora AI per attività di conversione testo-video.

Non si tratta solo di singoli contenuti focali o di protagonisti resi in grande dettaglio. L'intero video, compresi gli sfondi e i personaggi secondari, è solitamente spazialmente corretto, con effetti di luce complessi, attrezzature fisicamente sensibili e simili. A prima vista, la maggior parte del materiale sembra reale.

OpenAI Sora può anche creare una galleria con opere esposte di stili diversi. La richiesta è molto breve e semplice.
OpenAI Sora può anche creare una galleria con opere esposte di stili diversi. La richiesta è molto breve e semplice.

Sora è ancora nelle sue fasi iniziali e ha un accesso limitato

L'intelligenza artificiale di Sora è attualmente disponibile solo per il "Red Team" di OpenAI e per i creativi professionisti dei settori del cinema e del design. Il cosiddetto Red Team è composto da persone che testano le nuove tecnologie OpenAI tenendo conto dei loro pericoli e rischi. Soprattutto le IA video sono piene di questo, poiché teoricamente possono essere utilizzate per creare estesi deepfake di celebrità, politici e persino privati.

Mentre il Red Team dovrebbe identificare tali potenziali minacce, gli utenti professionali dell'area creativa sono coinvolti per ottenere feedback per migliorare Sora. L'obiettivo è vedere quali funzionalità sarebbero utili per il cinema, YouTube e simili. L’accesso pubblico è certamente pianificato, ma si spera con meccanismi di sicurezza contro l’uso improprio dello strumento.

Quest'uomo non esiste. La ricchezza di dettagli di Sora AI di OpenAI si riflette in un'ampia varietà di elementi: pelle, capelli, effetti di luce, tessuti e superfici, ecc.
Quest'uomo non esiste. La ricchezza di dettagli di Sora AI di OpenAI si riflette in un'ampia varietà di elementi: pelle, capelli, effetti di luce, tessuti e superfici, ecc.

OpenAI attira l'attenzione sui punti deboli dell'intelligenza artificiale video

Oltre a video AI davvero impressionanti e talvolta molto realistici, OpenAI mostra anche alcuni valori anomali dei test precedenti sulla pagina collegata sopra. Ad esempio, Sora avrebbe dovuto animare una persona su un tapis roulant. In teoria funzionava, ma l'uomo è andato nella direzione sbagliata.

Un altro esempio mostra i cuccioli di lupo che si divertono su una strada sterrata. Il problema: sempre più animaletti escono dal gruppo, apparentemente dal nulla. In altri esempi, gli oggetti appaiono apparentemente dal nulla o dietro altri oggetti che non avrebbero potuto realmente nascondere. Le mani sono ancora un problema, compresi i movimenti naturali delle mani.

Il tapis roulant sta correndo all'indietro o cosa sta succedendo nel video di Sora?
Il tapis roulant sta correndo all'indietro o cosa sta succedendo nel video di Sora?

Annunciati meccanismi di sicurezza più o meno utili

Un'intelligenza artificiale video in grado di produrre scene (quasi) realistiche fino a 1 minuto di durata offre opportunità, ma ovviamente anche pericoli. OpenAI ha quindi annunciato diversi meccanismi di sicurezza per impedire un uso improprio dello strumento. Ad esempio, dovrebbero essere implementati filtri di richiesta per impedire che determinati input vengano convertiti in formato video.

In particolare, dovrebbero essere vietati la violenza estrema, i contenuti sessuali, le rappresentazioni che incitano all'odio, le sembianze di celebrità o l'uso di materiale in franchising (personaggi di cartoni animati, film, serie, videogiochi, ecc.). Come per le immagini da DALL-E, anche i metadati C2PA dovrebbero essere incorporati nei file video di output. Ma questi sono certamente facili da rimuovere. Resta da vedere quanto sarà sicura la prima versione pubblica di Sora.

Un primo piano della donna dell'esempio video di OpenAI Sora mostrato in alto. A prima e seconda occhiata non è possibile riconoscere l'origine AI della scena.
Un primo piano della donna dell'esempio video di OpenAI Sora mostrato in alto. A prima e seconda occhiata non è possibile riconoscere l'origine AI della scena.

La tecnologia alla base: Sora è un modello “diffusion”.

Come con le corrispondenti AI delle immagini, le AI dei video possono funzionare come modelli di diffusione. Ciò significa che come primo passo creano rumore statico e poi rimuovono il rumore in numerosi passaggi in modo che alla fine venga creata l'immagine o il video descritto. A differenza delle immagini, anche per i video occorre sviluppare coerenza, poiché i contenuti non devono cambiare completamente o deformarsi in modo irrealistico all’improvviso.

Inoltre, gli oggetti e i personaggi che si perdono dal campo visivo della telecamera virtuale devono avere lo stesso aspetto quando rientrano nell'azione. Tecniche per questo sono state implementate anche nel modello Sora. In definitiva, Sora può anche essere visto come un modello AI multimodale perché, oltre all’input di testo, può anche utilizzare immagini e video come materiale sorgente.

Impressionante a prima vista. Ma l'ombra del cane è sbagliata. Sora ignora anche il fatto che la serranda è così lontana dalla casa che il cane non può passarci davanti. L'origine AI della clip è quindi riconoscibile se sai cosa cercare.
Impressionante a prima vista. Ma l'ombra del cane è sbagliata. Sora ignora anche il fatto che la serranda è così lontana dalla casa che il cane non può passarci davanti. L'origine AI della clip è quindi riconoscibile se sai cosa cercare.

Sora può estendere e ritoccare video e animare immagini

Oltre ai comandi di testo per creare contenuti video completamente nuovi, OpenAI annuncia anche Sora AI come strumento per espandere e riparare video esistenti. Inoltre, con l'AI video dovrebbe essere possibile selezionare un file immagine e animarlo mantenendo i dettagli e i valori mostrati. Naturalmente, il testo viene utilizzato nuovamente per descrivere cosa dovrebbe accadere nella versione animata dell'immagine.

Anche quando si estendono video o si aggiungono nuovi contenuti o si rimuovono contenuti indesiderati dai file video, l'utente può comunicare tramite input di testo ciò che alla fine dovrebbe essere visto. Ciò consente di espandere un video clip all'inizio e/o alla fine per fornire un'introduzione migliore o un finale più emozionante. Le persone potrebbero anche essere rimosse o aggiunte.

Impressionante: mentre gli edifici davanti ai quali passa il treno sono contrassegnati dal motion blur, il riflesso nella finestra di fronte rimane nitido. La persona dalla cui prospettiva è stato creato il video diventa visibile anche quando il treno attraversa un ponte/tunnel. Il prompt è implementato sorprendentemente bene.
Impressionante: mentre gli edifici davanti ai quali passa il treno sono contrassegnati dal motion blur, il riflesso nella finestra di fronte rimane nitido. La persona dalla cui prospettiva è stato creato il video diventa visibile anche quando il treno attraversa un ponte/tunnel. Il prompt è implementato sorprendentemente bene.

OpenAI e AGI – Sora vuole essere un passo verso “tutto AI”.

Gran parte dell'annuncio di Sora consiste nel descrivere le possibilità creative presentate dall'intelligenza artificiale video multimodale. Tuttavia, il lungo articolo con tanti esempi video, descrizioni della tecnologia sottostante e altri dettagli si conclude con questa frase (tradotta vagamente): “Sora funge da base per modelli in grado di comprendere e simulare il mondo reale, una capacità che riteniamo costituirà una pietra miliare importante nel percorso verso l'AGI."

L’AGI è l’“Intelligenza Artificiale Generale”, che in teoria dovrebbe essere in grado di comprendere e risolvere qualsiasi compito intellettuale. Questo costrutto, ancora teorico, sarebbe un sistema altamente autonomo, la cui forma esatta non è stata ancora definita in modo uniforme. Come tutta l’intelligenza artificiale, l’AGI è associata a opportunità e rischi. Sono disponibili ulteriori dettagli sull'argomento e collegamenti alla letteratura specialistica pertinente su Wikipedia.

Ti è piaciuto l'articolo e le istruzioni sul blog ti hanno aiutato? Allora sarei felice se tu il blog tramite un'iscrizione stabile sosterrebbe.

Scrivi un commento

Il tuo indirizzo e-mail non verrà pubblicato. I campi obbligatori sono contrassegnati con * segnato

Nel blog di Sir Apfelot troverai consigli, istruzioni e recensioni sui prodotti Apple come iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini e Mac Studio.

Speciali