Google Lumiere: IA de texto a vídeo con varias funciones

OpenAI no solo fue recientemente Se presentó el vídeo AI “Sora”, Google también lanzó un video AI: Lumiere. Con Google Lumiere, las indicaciones de texto se pueden convertir en vídeos, pero también se pueden utilizar muchas otras funciones. Por ejemplo, las imágenes se pueden convertir en la animación deseada mediante comandos de texto. También se pueden marcar y animar zonas individuales de la imagen, como por ejemplo el humo de una locomotora. La creación de vídeos y animaciones estilizados puede tomar el estilo gráfico de una imagen y crear imágenes en movimiento basadas en indicaciones en ese estilo. Por último, se puede cambiar el contenido de los vídeos existentes: seguridad, ropa, superficies y estructuras.

Google Lumiere: modelo de IA con arquitectura “Space-Time U-Net”

Ni siquiera empezaré a fingir que entiendo cómo funcionan inteligencias artificiales tan complejas. Tanto en la página de presentación de Google (en GitHub) así como en el trabajo de investigación asociado (en arxiv.org), sin embargo, se habla de una arquitectura “Space-Time U-Net”, o STUNet para abreviar. Si quieres saber más, puedes visitar las fuentes mencionadas.

Lumiere se basa en un modelo de difusión, que se utiliza para muestreo ascendente y descendente espacial y temporal, que en última instancia crea videos de baja resolución que incluyen todas las imágenes individuales. Esto tiene como objetivo diferenciar la IA de Google de los modelos que crean dos fotogramas clave separados y luego intentan llenar el espacio entre ellos, y posiblemente no logren generar un video de apariencia realista de esta manera.

Crea nuevos videos a partir de comandos de texto.

Google Lumiere puede realizar varias tareas. Lo más impresionante es probablemente la creación de vídeos a partir de simples comandos de texto, los llamados avisos. Esto se puede crear con sólo breves descripciones de la escena requerida. Sin embargo, los resultados pueden variar mucho según el comando de texto.

Cambiar el estilo y las estructuras de un vídeo.

Los vídeos existentes, como los que usted mismo ha grabado, también pueden modificarse en gran medida. El contenido de la imagen (personas, animales, objetos, etc.) se puede construir a partir de bloques de madera o ladrillos Lego, doblar papel usando origami o ensamblar con flores. Los movimientos iniciales se adoptan en gran medida.

Crear vídeos a partir de imágenes.

Si le da al Lumiere AI una sola imagen y describe la escena deseada con un breve mensaje, puede crear un video a partir de ella. Ya sea un automóvil conduciendo por una playa, una jirafa comiendo pasto o un velero navegando en un lago, hay muchos ejemplos de cómo funciona la IA. Los resultados no son realmente perfectos y (todavía) reconocibles como un producto de IA.

Animar secciones de imágenes individuales.

Si quieres que el fuego parpadee en una foto de una fogata, Google Lumiere también puede hacerlo. Además, se pueden simular los movimientos de una mariposa, simplemente utilizando una fotografía del animal. Como ya se mencionó al principio, esto también funciona con el humo de una locomotora. Y el agua de un lago también se muestra en la performance de Lumière; después del procesamiento de IA, crea ondas.

Expandir video o reemplazar áreas faltantes

Si al grabar un vídeo hay un objeto perturbador en primer plano o la sección de imagen se ha elegido incorrectamente, esto ya no debería ser un problema con Google Lumiere. Gracias al análisis del material de vídeo existente, se puede calcular el contenido de la imagen que falta y complementarlo para adaptarlo al vídeo existente, lo que se denomina inpainting.

Edición de vídeo con inserción de nuevos objetos o estructuras.

También muestra cómo se pueden editar archivos de vídeo existentes con Lumiere. Por ejemplo, el vestido de una mujer fue marcado y luego rápidamente redefinido. Un vestido verde y blanco con mangas se transformaba a veces en un vestido dorado, a veces en un vestido negro, a veces en un vestido de rayas blancas y rojas, incluida la eliminación de las mangas. En otros ejemplos, los pájaros estaban equipados con coronas, gafas de sol, bufandas, batas de baño y cosas similares.

Creación estilizada de contenido de imagen y vídeo.

Como ya se mencionó, las imágenes se pueden usar para especificar un estilo determinado para las imágenes o videos que se crearán. Hay muchas cosas posibles, desde gráficos de píxeles monocromáticos hasta pegatinas coloridas y modelos 3D dorados brillantes. Entonces, con Google Lumiere básicamente puedes adoptar diferentes estilos artísticos, diseños de películas o videojuegos y más para tus propias ideas.

Oportunidades creativas y riesgos de falsificación de la IA generativa

Como cualquier IA generativa, ya sea creación de texto, imágenes, audio o vídeo, Google Lumiere ofrece no sólo oportunidades creativas sino también riesgos sociales, políticos y económicos. El riesgo de que las herramientas individuales se utilicen indebidamente para difundir información errónea y/o con fines delictivos no es sólo teórico. Ha sido evidente en varios ejemplos de deepfake durante años.

Finalmente, la presentación de Lumiere vinculada anteriormente también dice: "... creemos que es crucial desarrollar y utilizar herramientas para detectar sesgos y usos maliciosos con el fin de garantizar un uso seguro y justo". Pero la vista por sí sola no será de utilidad. Queda por ver si Google Lumiere, OpenAI Sora etc. serán herramientas seguras.

¿Te gustó el artículo y te ayudaron las instrucciones del blog? Entonces sería feliz si usted el blog a través de una membresía constante apoyaría.

Escribe un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados con * markiert

En el Blog de Sir Apfelot encontrarás consejos, instrucciones y reseñas sobre productos de Apple como el iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini y Mac Studio.

Especiales