OpenAI Sora – IA texte-vidéo avec des résultats (presque) réalistes

OpenAI veut continuer à s'affirmer comme le leader du marché des modèles d'IA générative. En plus du chatbot ChatGPT et du créateur d'images DALL-E, un outil de génération de matériel vidéo a désormais été présenté : Sora. L'IA d'OpenAI, appelée Sora, crée des vidéos haute résolution et détaillées à partir de simples commandes de texte, d'images ou d'autres vidéos. Des personnes, des bâtiments, des animaux, des plantes, certaines scènes, styles, types de caméras, époques, etc. peuvent être mis en œuvre. Les résultats obtenus jusqu’à présent dans le développement d’OpenAI Sora sont impressionnants, mais comportent encore suffisamment de défauts pour être révélés comme matériel d’IA. Toujours…

Cette femme n'existe pas. Dans une vidéo impressionnante, OpenAI montre ce que la nouvelle IA vidéo appelée Sora peut faire. En plus de personnes d'apparence réaliste, le modèle d'IA génère également des environnements détaillés comprenant des reflets de lumière, un flou de mouvement, etc.
Cette femme n'existe pas. Dans une vidéo impressionnante, OpenAI montre ce que la nouvelle IA vidéo appelée Sora peut faire. En plus de personnes d'apparence réaliste, le modèle d'IA génère également des environnements détaillés comprenant des reflets de lumière, un flou de mouvement, etc.

OpenAI Sora crée des vidéos avec jusqu'à 1 minute de contenu cohérent

De deux bateaux pirates se battant autour d'une tasse de café, à un jeune homme lisant un livre assis sur un nuage, en passant par un défilé célébrant le Nouvel An chinois, tout est possible et bien plus encore. Sur cette page OpenAI montre quelles scènes réalistes et fantastiques peuvent déjà être réalisées avec Sora AI pour les tâches de conversion texte-vidéo.

Il ne s’agit pas seulement d’un contenu focal individuel ou de protagonistes rendus avec beaucoup de détails. La vidéo entière, y compris les arrière-plans et les personnages secondaires, est généralement spatialement correcte, avec des effets d'éclairage complexes, un équipement physiquement sensible, etc. À première vue, la plupart des documents semblent réels.

OpenAI Sora peut également créer une galerie avec des œuvres d'art exposées de différents styles. L'invite pour cela est très courte et simple.
OpenAI Sora peut également créer une galerie avec des œuvres d'art exposées de différents styles. L'invite pour cela est très courte et simple.

Sora en est encore à ses débuts et a un accès limité

L'IA Sora n'est actuellement disponible que pour la « Red Team » OpenAI et les créatifs professionnels des domaines du cinéma et du design. La Red Team est composée de personnes qui testent les nouvelles technologies OpenAI en ce qui concerne leurs dangers et leurs risques. Les IA vidéo en sont particulièrement riches, car elles peuvent théoriquement être utilisées pour créer de vastes contrefaçons de célébrités, de politiciens et même de particuliers.

Alors que l'équipe rouge est censée identifier ces menaces potentielles, les utilisateurs professionnels du domaine créatif sont impliqués pour obtenir des commentaires afin d'améliorer Sora. L’objectif est de voir quelles fonctionnalités seraient utiles pour le cinéma, YouTube, etc. L'accès du public est certes prévu, mais espérons-le avec des mécanismes de sécurité contre toute utilisation abusive de l'outil.

Cet homme n'existe pas. La richesse des détails de Sora AI d'OpenAI se reflète dans une grande variété d'éléments : peau, cheveux, effets de lumière, tissus et surfaces, etc.
Cet homme n'existe pas. La richesse des détails de Sora AI d'OpenAI se reflète dans une grande variété d'éléments : peau, cheveux, effets de lumière, tissus et surfaces, etc.

OpenAI attire l'attention sur les faiblesses de l'IA vidéo

En plus de vidéos d'IA vraiment impressionnantes et parfois très réalistes, OpenAI montre également quelques valeurs aberrantes des tests précédents sur la page liée ci-dessus. Par exemple, Sora était censé animer une personne sur un tapis roulant. Cela a fonctionné en théorie, mais l’homme est allé dans la mauvaise direction.

Un autre exemple montre des louveteaux gambadant sur un chemin de terre. Le problème : de plus en plus de petits animaux surgissent du groupe, apparemment sortis de nulle part. Dans d’autres exemples, des objets semblent sortir de nulle part ou derrière d’autres objets qu’ils n’auraient pas vraiment pu cacher. Les mains restent un problème, y compris leurs mouvements naturels.

Le tapis roulant fonctionne-t-il à l'envers ou que se passe-t-il dans cette vidéo de Sora ?
Le tapis roulant fonctionne-t-il à l'envers ou que se passe-t-il dans cette vidéo de Sora ?

Des mécanismes de sécurité plus ou moins utiles annoncés

Une IA vidéo capable de produire des scènes (presque) réalistes d’une durée maximale d’une minute offre des opportunités, mais bien sûr aussi des dangers. OpenAI a donc annoncé divers mécanismes de sécurité pour éviter toute utilisation abusive de l'outil. Par exemple, des filtres d'invite doivent être implémentés pour empêcher certaines entrées d'être converties sous forme vidéo.

Il convient notamment d'éviter les violences extrêmes, les contenus à caractère sexuel, les représentations haineuses, les ressemblances avec des célébrités ou l'utilisation de matériel de franchise (personnages de dessins animés, de films, de séries, de jeux vidéo, etc.). Comme pour les images DALL-E, les métadonnées C2PA doivent également être incorporées dans les fichiers vidéo de sortie. Mais ceux-ci sont certes faciles à supprimer. Reste à voir dans quelle mesure la première version publique de Sora sera sûre.

Un gros plan de la femme de l'exemple vidéo OpenAI Sora présenté en haut. Au premier et au deuxième coup d'œil, l'origine IA de la scène ne peut pas être reconnue.
Un gros plan de la femme de l'exemple vidéo OpenAI Sora présenté en haut. Au premier et au deuxième coup d'œil, l'origine IA de la scène ne peut pas être reconnue.

La technologie derrière : Sora est un modèle de « diffusion »

Comme pour les IA d’images correspondantes, les IA vidéo peuvent fonctionner comme des modèles de diffusion. Cela signifie que dans un premier temps, ils créent un bruit statique, puis le suppriment en plusieurs étapes afin que l'image ou la vidéo décrite soit finalement créée. Contrairement aux images, la cohérence doit également être développée pour les vidéos, car le contenu ne doit pas soudainement changer complètement ou se déformer de manière irréaliste.

De plus, les objets et les personnages qui ont disparu du champ de vision de la caméra virtuelle doivent avoir le même aspect lorsqu'ils réintègrent l'action. Des techniques pour cela ont également été implémentées dans le modèle Sora. En fin de compte, Sora peut également être considéré comme un modèle d’IA multimodal car, en plus de la saisie de texte, il peut également utiliser des images et des vidéos comme source.

Impressionnant à première vue. Mais l'ombre du chien est fausse. Sora ignore également le fait que le volet est si éloigné de la maison que le chien ne peut pas marcher devant. L’origine IA du clip est donc reconnaissable si l’on sait quoi chercher.
Impressionnant à première vue. Mais l'ombre du chien est fausse. Sora ignore également le fait que le volet est si éloigné de la maison que le chien ne peut pas marcher devant. L’origine IA du clip est donc reconnaissable si l’on sait quoi chercher.

Sora peut étendre et retoucher des vidéos ainsi qu'animer des images

En plus des commandes de texte permettant de créer un tout nouveau contenu vidéo, OpenAI annonce également Sora AI comme outil permettant d'étendre et de réparer des vidéos existantes. De plus, avec l'IA vidéo, il devrait être possible de sélectionner un fichier image et de l'animer tout en conservant les détails et les valeurs affichées. Bien entendu, le texte est à nouveau utilisé pour décrire ce qui devrait se passer dans la version animée de l’image.

Même lors de l'extension de vidéos, de l'ajout de nouveau contenu ou de la suppression de contenu indésirable de fichiers vidéo, l'utilisateur peut communiquer via la saisie de texte ce qui devrait finalement être vu. Cela permet de développer un clip vidéo au début et/ou à la fin pour fournir une meilleure introduction ou une fin plus excitante. Des personnes pourraient également être supprimées ou ajoutées.

Impressionnant : alors que les bâtiments traversés par le train sont marqués par un flou de mouvement, le reflet dans la fenêtre devant reste net. La personne du point de vue duquel la vidéo est créée devient également visible lorsque le train passe un pont/un tunnel. L’invite est étonnamment bien mise en œuvre.
Impressionnant : alors que les bâtiments traversés par le train sont marqués par un flou de mouvement, le reflet dans la fenêtre devant reste net. La personne du point de vue duquel la vidéo est créée devient également visible lorsque le train passe un pont/un tunnel. L’invite est étonnamment bien mise en œuvre.

OpenAI et AGI – Sora se veut une étape vers « tout ce qui concerne l’IA ».

Une grande partie de l'annonce de Sora consiste à décrire les possibilités créatives présentées par l'IA vidéo multimodale. Néanmoins, le long article avec les nombreux exemples vidéo, les descriptions de la technologie sous-jacente et d’autres détails se termine par cette phrase (traduite vaguement) : «Sora sert de base à des modèles capables de comprendre et de simuler le monde réel - une capacité qui, selon nous, constituera une étape importante sur la voie de l'AGI."

L’AGI est « l’Intelligence Générale Artificielle », qui devrait en théorie être capable de comprendre et de résoudre n’importe quelle tâche intellectuelle. Cette construction encore théorique serait un système hautement autonome, dont la forme exacte n’a pas encore été uniformément définie. Comme toute IA, l’AGI est associée à des opportunités et à des risques. Vous trouverez plus de détails sur le sujet ainsi que des liens vers la littérature spécialisée pertinente. sur Wikipédia.

Mes trucs & astuces sur la technologie & Apple

Avez-vous aimé l'article et les instructions sur le blog vous ont-elles aidé? Alors je serais heureux si vous le blog via une adhésion stable soutiendrait.

Ecrire un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec un * marqué

Dans le blog Sir Apfelot, vous trouverez des conseils, des instructions et des critiques sur les produits Apple tels que l'iPhone, l'iPad, l'Apple Watch, les AirPods, l'iMac, le Mac Pro, le Mac Mini et le Mac Studio.

Liquidation