OpenAI Sora: IA de texto a vídeo con resultados (casi) realistas

OpenAI quiere seguir impulsándose como líder en el mercado de modelos de IA generativa. Además del chatbot ChatGPT y la creación de imágenes DALL-E, ahora se presenta una herramienta para generar material de vídeo: Sora. La IA de OpenAI, llamada Sora, crea videos detallados y de alta resolución a partir de simples comandos de texto, imágenes u otros videos. Se pueden implementar personas, edificios, animales, plantas, determinadas escenas, estilos, tipos de cámaras, épocas y similares. Los resultados hasta ahora del desarrollo de OpenAI Sora son impresionantes, pero todavía tienen suficientes defectos como para revelarse como material de IA. Aún…

Esta mujer no existe. En un vídeo impresionante, OpenAI muestra lo que puede hacer la nueva IA de vídeo llamada Sora. Además de personas de aspecto realista, el modelo de IA también genera entornos detallados que incluyen reflejos de luz, desenfoque de movimiento, etc.
Esta mujer no existe. En un vídeo impresionante, OpenAI muestra lo que puede hacer la nueva IA de vídeo llamada Sora. Además de personas de aspecto realista, el modelo de IA también genera entornos detallados que incluyen reflejos de luz, desenfoque de movimiento, etc.

OpenAI Sora crea videos con hasta 1 minuto de contenido consistente

Desde dos barcos piratas peleando en una taza de café, pasando por un joven leyendo un libro sentado en una nube, hasta un desfile para celebrar el Año Nuevo chino, todo y mucho más es posible. En esta pagina OpenAI muestra qué escenas realistas y fantásticas ya se pueden realizar con Sora AI para tareas de conversión de texto a vídeo.

No se trata sólo de contenido focal individual o protagonistas representados con gran detalle. Todo el vídeo, incluidos los fondos y los personajes secundarios, suele ser espacialmente correcto, con efectos de iluminación complejos, equipos físicamente sensibles y similares. A primera vista, la mayor parte del material parece real.

OpenAI Sora también puede crear una galería con obras de arte expuestas de diferentes estilos. El mensaje para esto es muy breve y simple.
OpenAI Sora también puede crear una galería con obras de arte expuestas de diferentes estilos. El mensaje para esto es muy breve y simple.

Sora aún se encuentra en sus primeras etapas y tiene acceso limitado.

Actualmente, Sora AI solo está disponible para el “Equipo Rojo” de OpenAI y para creativos profesionales de los campos del cine y el diseño. El llamado Equipo Rojo está formado por personas que prueban nuevas tecnologías OpenAI en relación con sus peligros y riesgos. Las IA de vídeo en particular están llenas de esto, ya que, en teoría, pueden usarse para crear grandes falsificaciones de celebridades, políticos e incluso particulares.

Si bien se supone que el Equipo Rojo debe identificar tales amenazas potenciales, los usuarios profesionales del área creativa participan para obtener comentarios para mejorar Sora. El objetivo es ver qué funciones serían útiles para el cine, YouTube y similares. Ciertamente está previsto el acceso público, pero ojalá con mecanismos de seguridad contra el mal uso de la herramienta.

Este hombre no existe. La riqueza de detalles de Sora AI de OpenAI se refleja en una amplia variedad de elementos: piel, cabello, efectos de iluminación, tejidos y superficies, etc.
Este hombre no existe. La riqueza de detalles de Sora AI de OpenAI se refleja en una amplia variedad de elementos: piel, cabello, efectos de iluminación, tejidos y superficies, etc.

OpenAI llama la atención sobre las debilidades de la IA de vídeo

Además de videos de IA realmente impresionantes y, a veces, de aspecto muy realista, OpenAI también muestra algunos valores atípicos de pruebas anteriores en la página vinculada anteriormente. Por ejemplo, se suponía que Sora animaría a una persona en una cinta de correr. Eso funcionó en teoría, pero el hombre tomó la dirección equivocada.

Otro ejemplo muestra cachorros de lobo retozando en un camino de tierra. El problema: cada vez aparecen más animalitos del grupo, aparentemente de la nada. En otros ejemplos, los objetos aparecen aparentemente de la nada o detrás de otros objetos que en realidad no podrían haber escondido. Las manos siguen siendo un problema, incluidos los movimientos naturales de las mismas.

¿La caminadora está corriendo hacia atrás o qué está pasando en ese video de Sora?
¿La caminadora está corriendo hacia atrás o qué está pasando en ese video de Sora?

Se anuncian mecanismos de seguridad más o menos útiles

Una IA de vídeo que pueda producir escenas (casi) realistas de hasta 1 minuto de duración ofrece oportunidades, pero por supuesto también peligros. Por ello, OpenAI ha anunciado varios mecanismos de seguridad para evitar un uso indebido de la herramienta. Por ejemplo, se deben implementar filtros de mensajes para evitar que ciertas entradas se conviertan en formato de video.

En particular, se debe evitar la violencia extrema, el contenido sexual, las representaciones de odio, la imagen de celebridades o el uso de material de franquicia (personajes de dibujos animados, películas, series, videojuegos, etc.). Al igual que con las imágenes de DALL-E, los metadatos C2PA también deben incorporarse en los archivos de vídeo de salida. Pero es cierto que estos son fáciles de eliminar. Queda por ver qué tan segura será la primera versión pública de Sora.

Un primer plano de la mujer del ejemplo de vídeo de OpenAI Sora que se muestra en la parte superior. A primera y segunda mirada, no se puede reconocer el origen AI de la escena.
Un primer plano de la mujer del ejemplo de vídeo de OpenAI Sora que se muestra en la parte superior. A primera y segunda mirada, no se puede reconocer el origen AI de la escena.

La tecnología detrás: Sora es un modelo de “difusión”

Al igual que con las IA de imágenes correspondientes, las IA de vídeo pueden funcionar como modelos de difusión. Esto significa que, como primer paso, crean ruido estático y luego eliminan el ruido en numerosos pasos para que finalmente se cree la imagen o el vídeo descrito. A diferencia de las imágenes, en los vídeos también hay que desarrollar la coherencia, ya que el contenido no debe cambiar por completo de repente ni deformarse de forma poco realista.

Además, los objetos y personajes que se pierden del campo de visión de la cámara virtual deben tener el mismo aspecto cuando vuelvan a entrar en acción. También se han implementado técnicas para esto en el modelo Sora. En última instancia, Sora también puede verse como un modelo de IA multimodal porque, además de la entrada de texto, también puede utilizar imágenes y vídeos como material fuente.

Impresionante a primera vista. Pero la sombra del perro está equivocada. Sora también ignora el hecho de que la persiana está tan lejos de la casa que el perro no puede caminar delante de ella. Por lo tanto, el origen AI del clip es reconocible si sabes qué buscar.
Impresionante a primera vista. Pero la sombra del perro está equivocada. Sora también ignora el hecho de que la persiana está tan lejos de la casa que el perro no puede caminar delante de ella. Por lo tanto, el origen AI del clip es reconocible si sabes qué buscar.

Sora puede ampliar y retocar vídeos además de animar imágenes.

Además de los comandos de texto para crear contenido de video completamente nuevo, OpenAI también anuncia Sora AI como una herramienta para expandir y reparar videos existentes. Además, con la IA de vídeo debería ser posible seleccionar un archivo de imagen y animarlo manteniendo los detalles y valores mostrados. Por supuesto, el texto se utiliza nuevamente para describir lo que debería suceder en la versión animada de la imagen.

Incluso al ampliar vídeos, agregar contenido nuevo o eliminar contenido no deseado de archivos de vídeo, el usuario puede comunicar mediante entrada de texto lo que finalmente se debe ver. Esto permite ampliar un videoclip al principio y/o al final para proporcionar una mejor introducción o un final más emocionante. También se podrían eliminar o agregar personas.

Impresionante: mientras que los edificios por los que pasa el tren están marcados por el desenfoque de movimiento, el reflejo en la ventana de delante permanece nítido. La persona desde cuya perspectiva se crea el vídeo también se vuelve visible cuando el tren pasa por un puente/túnel. El mensaje se implementa sorprendentemente bien.
Impresionante: mientras que los edificios por los que pasa el tren están marcados por el desenfoque de movimiento, el reflejo en la ventana de delante permanece nítido. La persona desde cuya perspectiva se crea el vídeo también se vuelve visible cuando el tren pasa por un puente/túnel. El mensaje se implementa sorprendentemente bien.

OpenAI y AGI: Sora pretende ser un paso hacia “todo lo relacionado con la IA”.

Gran parte del anuncio de Sora consiste en describir las posibilidades creativas que presenta la IA de vídeo multimodal. Sin embargo, el largo artículo con numerosos ejemplos en vídeo, descripciones de la tecnología subyacente y otros detalles termina con esta frase (traducida libremente): “Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos que será un hito importante en el camino hacia AGI."

La AGI es la “Inteligencia General Artificial”, que en teoría debería ser capaz de comprender y resolver cualquier tarea intelectual. Esta construcción aún teórica sería un sistema altamente autónomo, cuya forma exacta aún no ha sido definida de manera uniforme. Como toda IA, la AGI está asociada a oportunidades y riesgos. Hay más detalles sobre el tema, así como enlaces a literatura especializada relevante. en Wikipedia.

¿Te gustó el artículo y te ayudaron las instrucciones del blog? Entonces sería feliz si usted el blog a través de una membresía constante apoyaría.

Escribe un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados con * markiert

En el Blog de Sir Apfelot encontrarás consejos, instrucciones y reseñas sobre productos de Apple como el iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini y Mac Studio.

Especiales