Apple MGIE: IA para edición de imágenes basada en texto

Hace casi un mes Le presentamos el modelo de lenguaje multimodal “Ferret” de Apple aquí en el blog y en el podcast. Esto reveló por primera vez que los esfuerzos de IA del fabricante del iPhone se están llevando a cabo en secreto. Con MGIE ahora hay una nueva IA de Apple que reúne imágenes y entrada de texto. Porque MGIE significa "Edición de imágenes guiada por modelo de lenguaje grande multimodal". Aquí se utiliza un modelo de lenguaje multimodal (MLLM) para el procesamiento de imágenes. Las correcciones, filtros, efectos en puntos u objetos individuales, etc., deberían ser posibles mediante indicaciones sencillas. Puede probarlo todo utilizando una herramienta en línea.

A la izquierda puedes ver la imagen que subí y el mensaje correspondiente. A la derecha está la imagen de salida y la interpretación del mensaje. Se puede decir que aún queda trabajo por hacer en MGIE.
A la izquierda puedes ver la imagen que subí y el mensaje correspondiente. A la derecha está la imagen de salida y la interpretación del mensaje. Se puede decir que aún queda trabajo por hacer en MGIE.

“Elimina las nubes y dale a la imagen un tono amarillo soleado”

Los comandos que puedes darle a MGIE para embellecer fotografías de paisajes son algo como esto. Cambiar el color del cabello en los selfies también se puede utilizar para predecir el resultado en la peluquería. Después de las primeras pruebas, la prensa especializada de MGIE afirma incluso que algunos comandos transmitidos mediante texto para modificar la imagen de entrada podrían sustituir la edición manual, por ejemplo en Photoshop o programas similares. Sin duda, esto también se aplica a los filtros y efectos integrados en la aplicación Fotos que Apple ofrece en Mac, iPhone y iPad. Puede encontrar un ejemplo de prueba exitoso aquí: b. en 9to5Mac.

Utilice Apple MGIE usted mismo: GitHub y HuggingFace

Si busca más información general sobre MGIE, encontrará, entre otras cosas encuéntralo en GitHub. Porque Apple puso a disposición el modelo de IA de código abierto allí. Además de los datos brutos, también hay algunas explicaciones sobre cómo funciona y cómo se utiliza. Si no sabe qué hacer con los datos y no puede crear su propia interfaz de usuario (como yo), utilice la herramienta web equipada con MGIE. en HuggingFace. Al igual que Ferret, MGIE también viene con un artículo científico que usted herunterladen hier poder. Hay un resumen con los puntos más importantes. en VentureBeat.

Para todos los que prefieran traducir la información sobre MGIE, aquí están los puntos más importantes:

  • Edición expresiva basada en texto: MGIE puede crear instrucciones concisas y claras que guíen eficazmente el proceso de edición. Esto no sólo mejora la calidad de las ediciones, sino que también aumenta la usabilidad general.
  • Modificación similar a Photoshop: MGIE puede realizar ediciones comunes similares a las de Photoshop, como: B. Recortar, cambiar el tamaño, rotar, voltear y agregar filtros. El modelo también puede realizar ediciones más avanzadas, como: Por ejemplo, cambiar el fondo, agregar/eliminar objetos y combinar imágenes.
  • Optimización global de fotografías: MGIE puede optimizar la calidad general de una fotografía, p. B. Brillo, contraste, nitidez y equilibrio de color. El modelo aún puede aplicar efectos artísticos como dibujar, pintar y dibujar dibujos.
  • Edición local: MGIE puede editar regiones u objetos específicos en una imagen, como: B. Rostros, ojos, cabello, vestimenta y accesorios. El modelo también puede cambiar los atributos de estas regiones u objetos, como forma, tamaño, color, textura y estilo.

Estamos entusiasmados con las novedades de iOS 18

Se supone que Apple incorporará varias funciones de inteligencia artificial en iOS 18 y probablemente también en iPadOS 18 y macOS 15. Además de una mejora para el asistente de voz Siri, Apple parece centrarse cada vez más en el área del reconocimiento y procesamiento de imágenes. Es posible que la atención se centre no sólo en fines creativos, sino también en ayudas operativas. El reconocimiento del entorno ya forma parte hasta cierto punto de las funciones de la cámara del iPhone, pero ahora podría ampliarse significativamente. Sabremos exactamente a partir de junio cuándo Apple celebrará la WWDC24.

¿Te gustó el artículo y te ayudaron las instrucciones del blog? Entonces sería feliz si usted el blog a través de una membresía constante apoyaría.

Escribe un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados con * markiert

En el Blog de Sir Apfelot encontrarás consejos, instrucciones y reseñas sobre productos de Apple como el iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini y Mac Studio.

Especiales
Compras
  •  
  •