OpenAI veut continuer à s'affirmer comme le leader du marché des modèles d'IA générative. En plus du chatbot ChatGPT et du créateur d'images DALL-E, un outil de génération de matériel vidéo a désormais été présenté : Sora. L'IA d'OpenAI, appelée Sora, crée des vidéos haute résolution et détaillées à partir de simples commandes de texte, d'images ou d'autres vidéos. Des personnes, des bâtiments, des animaux, des plantes, certaines scènes, styles, types de caméras, époques, etc. peuvent être mis en œuvre. Les résultats obtenus jusqu’à présent dans le développement d’OpenAI Sora sont impressionnants, mais comportent encore suffisamment de défauts pour être révélés comme matériel d’IA. Toujours…
Chapitres dans cet article :
- 1 OpenAI Sora crée des vidéos avec jusqu'à 1 minute de contenu cohérent
- 2Sora en est encore à ses débuts et a un accès limité
- 3 OpenAI attire l'attention sur les faiblesses de l'IA vidéo
- 4 Mécanismes de sécurité plus ou moins utiles annoncés
- 5 La technologie derrière : Sora est un modèle de « diffusion »
- 6 Sora peut étendre et retoucher des vidéos ainsi qu'animer des images
- 7 OpenAI et AGI – Sora est censé être une étape vers « tout ce qui concerne l’IA ».
- 8 Mes trucs & astuces sur la technologie & Apple
- 9 messages similaires
OpenAI Sora crée des vidéos avec jusqu'à 1 minute de contenu cohérent
De deux bateaux pirates se battant autour d'une tasse de café, à un jeune homme lisant un livre assis sur un nuage, en passant par un défilé célébrant le Nouvel An chinois, tout est possible et bien plus encore. Sur cette page OpenAI montre quelles scènes réalistes et fantastiques peuvent déjà être réalisées avec Sora AI pour les tâches de conversion texte-vidéo.
Il ne s’agit pas seulement d’un contenu focal individuel ou de protagonistes rendus avec beaucoup de détails. La vidéo entière, y compris les arrière-plans et les personnages secondaires, est généralement spatialement correcte, avec des effets d'éclairage complexes, un équipement physiquement sensible, etc. À première vue, la plupart des documents semblent réels.
Sora en est encore à ses débuts et a un accès limité
L'IA Sora n'est actuellement disponible que pour la « Red Team » OpenAI et les créatifs professionnels des domaines du cinéma et du design. La Red Team est composée de personnes qui testent les nouvelles technologies OpenAI en ce qui concerne leurs dangers et leurs risques. Les IA vidéo en sont particulièrement riches, car elles peuvent théoriquement être utilisées pour créer de vastes contrefaçons de célébrités, de politiciens et même de particuliers.
Alors que l'équipe rouge est censée identifier ces menaces potentielles, les utilisateurs professionnels du domaine créatif sont impliqués pour obtenir des commentaires afin d'améliorer Sora. L’objectif est de voir quelles fonctionnalités seraient utiles pour le cinéma, YouTube, etc. L'accès du public est certes prévu, mais espérons-le avec des mécanismes de sécurité contre toute utilisation abusive de l'outil.
OpenAI attire l'attention sur les faiblesses de l'IA vidéo
En plus de vidéos d'IA vraiment impressionnantes et parfois très réalistes, OpenAI montre également quelques valeurs aberrantes des tests précédents sur la page liée ci-dessus. Par exemple, Sora était censé animer une personne sur un tapis roulant. Cela a fonctionné en théorie, mais l’homme est allé dans la mauvaise direction.
Un autre exemple montre des louveteaux gambadant sur un chemin de terre. Le problème : de plus en plus de petits animaux surgissent du groupe, apparemment sortis de nulle part. Dans d’autres exemples, des objets semblent sortir de nulle part ou derrière d’autres objets qu’ils n’auraient pas vraiment pu cacher. Les mains restent un problème, y compris leurs mouvements naturels.
Des mécanismes de sécurité plus ou moins utiles annoncés
Une IA vidéo capable de produire des scènes (presque) réalistes d’une durée maximale d’une minute offre des opportunités, mais bien sûr aussi des dangers. OpenAI a donc annoncé divers mécanismes de sécurité pour éviter toute utilisation abusive de l'outil. Par exemple, des filtres d'invite doivent être implémentés pour empêcher certaines entrées d'être converties sous forme vidéo.
Il convient notamment d'éviter les violences extrêmes, les contenus à caractère sexuel, les représentations haineuses, les ressemblances avec des célébrités ou l'utilisation de matériel de franchise (personnages de dessins animés, de films, de séries, de jeux vidéo, etc.). Comme pour les images DALL-E, les métadonnées C2PA doivent également être incorporées dans les fichiers vidéo de sortie. Mais ceux-ci sont certes faciles à supprimer. Reste à voir dans quelle mesure la première version publique de Sora sera sûre.
La technologie derrière : Sora est un modèle de « diffusion »
Comme pour les IA d’images correspondantes, les IA vidéo peuvent fonctionner comme des modèles de diffusion. Cela signifie que dans un premier temps, ils créent un bruit statique, puis le suppriment en plusieurs étapes afin que l'image ou la vidéo décrite soit finalement créée. Contrairement aux images, la cohérence doit également être développée pour les vidéos, car le contenu ne doit pas soudainement changer complètement ou se déformer de manière irréaliste.
De plus, les objets et les personnages qui ont disparu du champ de vision de la caméra virtuelle doivent avoir le même aspect lorsqu'ils réintègrent l'action. Des techniques pour cela ont également été implémentées dans le modèle Sora. En fin de compte, Sora peut également être considéré comme un modèle d’IA multimodal car, en plus de la saisie de texte, il peut également utiliser des images et des vidéos comme source.
Sora peut étendre et retoucher des vidéos ainsi qu'animer des images
En plus des commandes de texte permettant de créer un tout nouveau contenu vidéo, OpenAI annonce également Sora AI comme outil permettant d'étendre et de réparer des vidéos existantes. De plus, avec l'IA vidéo, il devrait être possible de sélectionner un fichier image et de l'animer tout en conservant les détails et les valeurs affichées. Bien entendu, le texte est à nouveau utilisé pour décrire ce qui devrait se passer dans la version animée de l’image.
Même lors de l'extension de vidéos, de l'ajout de nouveau contenu ou de la suppression de contenu indésirable de fichiers vidéo, l'utilisateur peut communiquer via la saisie de texte ce qui devrait finalement être vu. Cela permet de développer un clip vidéo au début et/ou à la fin pour fournir une meilleure introduction ou une fin plus excitante. Des personnes pourraient également être supprimées ou ajoutées.
OpenAI et AGI – Sora se veut une étape vers « tout ce qui concerne l’IA ».
Une grande partie de l'annonce de Sora consiste à décrire les possibilités créatives présentées par l'IA vidéo multimodale. Néanmoins, le long article avec les nombreux exemples vidéo, les descriptions de la technologie sous-jacente et d’autres détails se termine par cette phrase (traduite vaguement) : «Sora sert de base à des modèles capables de comprendre et de simuler le monde réel - une capacité qui, selon nous, constituera une étape importante sur la voie de l'AGI."
L’AGI est « l’Intelligence Générale Artificielle », qui devrait en théorie être capable de comprendre et de résoudre n’importe quelle tâche intellectuelle. Cette construction encore théorique serait un système hautement autonome, dont la forme exacte n’a pas encore été uniformément définie. Comme toute IA, l’AGI est associée à des opportunités et à des risques. Vous trouverez plus de détails sur le sujet ainsi que des liens vers la littérature spécialisée pertinente. sur Wikipédia.
Mes trucs & astuces sur la technologie & Apple
Les articles similaires
Après avoir obtenu son diplôme d'études secondaires, Johannes a effectué un apprentissage en tant qu'assistant commercial spécialisé dans les langues étrangères. Après cela, cependant, il a décidé de faire de la recherche et de l'écriture, à partir desquelles il est devenu indépendant. Il travaille entre autres pour Sir Apfelot depuis plusieurs années maintenant. Ses articles incluent des lancements de produits, des actualités, des tutoriels, des jeux vidéo, des consoles et plus encore. Il suit Apple Keynotes en direct via le flux.