Durante varios años, los fabricantes de auriculares VR han utilizado el término "Representación foveada" para enfatizar la naturaleza avanzada de sus dispositivos. La investigación sobre este tipo de creación de imágenes y escenas con diferentes grados de nitidez y detalle en el campo de visión del usuario lleva más de 30 años. Pero solo en los últimos años, la tecnología parece haberse vuelto lo suficientemente poderosa como para permitir el renderizado foveado: en HTC Vive Pro Eye, en Oculus Quest / Meta Quest, en Sony PlayStation VR 2 (PSVR2), así como en el
manzana vision pro Que
presentado el 5 de junio de 2023 convertirse. Pero, ¿qué es exactamente el renderizado foveado?
¿Qué es el renderizado foveado? ¿Cuáles son las diferencias entre la aplicación estática y la dinámica? ¿Y cómo funciona todo en los auriculares Apple Vision Pro? Aquí hay respuestas a estas preguntas.
El término: ¿Qué es el renderizado foveado?
La representación foveada describe la síntesis de imágenes para aplicaciones de realidad virtual y realidad aumentada en los auriculares apropiados, teniendo en cuenta la dirección de la vista, de modo que el contenido de la imagen enfocada se muestre con mayor nitidez o detalle y el contenido que se ve solo de forma periférica sea menos nítido/menos detallado. O para decirlo de manera más simple: si usa un casco de realidad virtual con representación foveada, solo las partes vistas del contenido de la pantalla se muestran en la resolución más alta. Lo que no se ve directamente no se renderiza a máxima resolución y con las texturas más detalladas.
De "Representación foveada: una encuesta de vanguardia" de Lili Wang, Xuenhuai Shi y Yi Liu. El enlace al estudio se encuentra al final de esta publicación.
La ventaja es que se puede utilizar la máxima calidad de imagen en la línea de visión directa, mientras que los bordes de la imagen requieren menos potencia informática. Sin embargo, esto plantea varios desafíos para la investigación técnica, las empresas fabricantes, los desarrolladores del software y los juegos utilizados y, por último, pero no menos importante, los dispositivos en uso. Debido a que los movimientos de los ojos son rápidos, el tiempo de reacción del cerebro también es rápido y los auriculares VR son tan buenos como la tecnología que tienen incorporada.
¿De dónde viene el nombre "Representación foveada"?
La primera parte del término, "foveada", se refiere a la fóvea central del ojo humano. Este término latino significa algo así como "hoyo central" y describe el llamado hoyo visual en la retina del ojo. Esta es el área de visión más nítida (visión foveal). El diámetro de la fóvea central mide alrededor de 1,5 mm y hay alrededor de 147.000 XNUMX receptores de luz (conos) por milímetro cuadrado, principalmente conos M y L para el rango verde y rojo de luz visible, menos conos S para luz azul.
La fóvea central se encuentra en el lado temporal junto al nervio óptico del ojo. Figura de Hans-Werner Hunziker bajo licencia CC BY-SA 3.0 en Wikimedia (aquí ).
La segunda parte del término, a saber, "rendering", se refiere a la generación asistida por computadora de imágenes a partir de datos sin procesar. En los sistemas operativos, el software con una interfaz gráfica, los videojuegos, las aplicaciones y similares, los datos, los comandos, la coordinación y otra información se utilizan para generar una salida de imagen que luego se muestra al usuario en el dispositivo de salida. En la generación de archivos de imagen individuales, la velocidad del proceso de renderizado es importante. En el caso de imágenes en movimiento y contenidos multimedia, estos se repiten varias veces en un corto espacio de tiempo. El
número de fps especifica cuántos fotogramas por segundo se calculan y emiten. Como término completo, "Representación foveada" describe la creación de gráficos por computadora o escenas virtuales que solo se calculan completa y nítidamente en la dirección de visualización directa. Cualquier cosa fuera de la línea recta hacia la fóvea central se volverá menos nítida y/o con texturas menos elaboradas. De este modo, el proceso de renderizado se puede acelerar y utiliza menos recursos, mientras que los usuarios no tienen que aceptar ninguna reducción (perceptible) en la calidad de la imagen. Entonces, p. Por ejemplo, los juegos de realidad virtual se pueden mostrar en resolución 4K en el campo de visión, mientras que se usa una resolución más baja en los bordes de la pantalla. Entonces, una interacción de la visión foveal y periférica.
La técnica: ¿Cómo funciona el renderizado foveado?
Existen diferentes enfoques para la realización de esta técnica, dependiendo del tipo de renderizado foveado a ofrecer. La más conveniente y natural para los usuarios es la representación foveada dinámica, en la que la dirección de la mirada se determina mediante el seguimiento ocular y el área de imagen nítida se reposiciona en consecuencia. Sin embargo, esta es la implementación técnicamente más compleja. El renderizado foveado fijo o estático supone que el usuario solo mira hacia adelante o hacia otro punto fijo, por lo que solo el mismo punto se renderiza completamente nítido y la nitidez o el nivel de detalle disminuye hacia los bordes de la imagen.
Sin Eye Tracking: Renderizado Foveado Estático / Fijo
La ventaja del renderizado foveado fijo es que el casco de realidad virtual no tiene que incluir una nueva posición del ojo y, por lo tanto, una nueva dirección de visualización como base de datos cada vez que calcula imágenes individuales. Esto significa que hay menos esfuerzo informático para la evaluación de entrada y los procesadores se utilizan menos para esto. De esta forma, se puede utilizar una tecnología menos exigente (visto en comparación) y/o se puede reducir el consumo de energía. Además, los fabricantes pueden ahorrar en la tecnología de seguimiento ocular y el dispositivo se vuelve más barato. La desventaja, por supuesto, es que el casco de realidad virtual solo muestra el centro de la imagen o el contenido de la imagen calificado como interesante en la resolución más alta. Entonces, en un videojuego, podría ser que solo el personaje del juego y su entorno inmediato se representen por completo, mientras que las áreas más alejadas de ellos aparezcan borrosas. Aquí, los desarrolladores tienen que confiar en las pruebas del juego y las medidas asociadas de la dirección de la vista, no es posible reaccionar ad hoc a dónde miran realmente los jugadores.
Con Eye Tracking: Renderizado Foveado Dinámico
La ventaja de Dynamic Foveated Rendering / Dynamically Foveated Rendering es que la dirección de la vista del usuario se incluye en el cálculo de la imagen en las gafas VR. Si mira hacia la izquierda en la escena virtual, los lados izquierdos de la pantalla son nítidos, el centro es menos nítido y las áreas de la pantalla derecha tienen la menor resolución. Si mira hacia la derecha, los lados derechos de la pantalla tendrán una resolución más alta, y así sucesivamente. Esta técnica permite un uso más natural y no requiere que los desarrolladores anticipen el interés de la mirada en la aplicación. La desventaja es que las gafas VR deben tener en cuenta la línea de visión del usuario para cada cálculo de imagen. Esto debe hacerse extremadamente rápido porque puede enfocar una amplia variedad de objetos en una amplia variedad de direcciones en un corto período de tiempo. Los movimientos oculares, el registro rápido del contenido de la imagen y el cambio de opinión impredecible al seleccionar contenido importante de la escena plantean aquí un desafío. El registro del movimiento ocular (seguimiento ocular), el cálculo del campo de visión y la síntesis de imagen correspondiente deben llevarse a cabo lugar en una pequeña fracción de segundo. Esto requiere la última tecnología y procesos optimizados.
Video: demostración de renderizado de Foveated en solo 45 segundos
En esta
Videos muestra cómo la representación foveada puede funcionar en combinación con el aprendizaje profundo. Para esto, se le dio al objeto visto una mayor densidad de píxeles y se eliminó el 95% de los píxeles del resto de la imagen. De esta forma, se simuló la eventual disolución de la retina del ojo. Los píxeles que ahora faltan fueron reemplazados por una IA, lo que conduce a formas cada vez más abstractas a medida que aumenta la distancia al objeto visto, pero no hace ninguna diferencia en general, ya que el contenido distante solo se ve de manera periférica y, por lo tanto, no es percibido en detalle por el cerebro. https://www.youtube.com/watch?v=NPK8eQ4o8Pk
El desafío: reacción a los movimientos oculares por debajo de los 13 milisegundos
de uno
investigación por Mary C. Potter, Brad Wyble, Carl Erick Hagmann y Emily S. McCourt, cuyos resultados se publicaron en 2013, muestran que las personas pueden capturar nuevo contenido de imagen, o al menos el contenido principal de las imágenes, en 13 ms. En detalle, el estudio "Detectar significado en RSVP a 13 ms por imagen" publicado en Atención, Percepción y Psicofísica, Volumen 76, Número 2 en febrero de 2014 afirma:
Los resultados de ambos experimentos muestran que se puede lograr la comprensión conceptual cuando se presenta una imagen novedosa tan brevemente como 13 ms y se enmascara con otras imágenes. Incluso cuando a los participantes no se les dio el nombre del objetivo hasta después de haber visto la secuencia completa de seis o 12 imágenes, su rendimiento estuvo por encima del azar incluso a los 13 ms. [...]
El desafío para los cascos de realidad virtual modernos con representación foveada dinámica es calcular áreas de imagen detalladas y borrosas en un ciclo de 0,013 segundos. No es de extrañar, entonces, que el desarrollo de los auriculares Apple Vision Pro llevara tanto tiempo y que, además de la
Chip M2 Se instaló el nuevo chip R1, que está hecho exclusivamente para la interpretación de datos de sensores. En el
Comunicado de prensa el Apple Vision Pro dice en consecuencia:
[...] mientras que el nuevo chip R1 procesa la entrada de doce cámaras, cinco sensores y seis micrófonos, lo que garantiza que el contenido se sienta como si estuviera sucediendo en tiempo real frente a los ojos del usuario. R1 transmite nuevas imágenes a las pantallas en 12 milisegundos [...]
El auricular Apple Vision Pro tiene LED y cámaras infrarrojas en el interior que miden los movimientos oculares. El chip R1 evalúa los datos determinados de esta manera para que la imagen pueda generarse en el chip M2 lo más rápido posible.
Cómo se integra la tecnología en los auriculares Apple Vision Pro
Según Apple, Dynamically Foveated Rendering es parte del sistema operativo visionOS. Los desarrolladores pueden usarlo para personalizar su contenido usando las herramientas Xcode y Reality Composer Pro de Apple. Unity también se puede usar de forma nativa en visionOS para ciertas aplicaciones y juegos. El motor de juego Unity complementa visionOS SDK (SDK = Kit de desarrollo de software), RealityKit, UIKit y las ofertas de Apple antes mencionadas para programación, diseño AR, aplicaciones VR y similares.
En la página del desarrollador del tema (
aquí ) dice en consecuencia:
Ahora, puedes usar las herramientas de creación sólidas y familiares de Unity para crear nuevas aplicaciones y juegos o volver a imaginar tus proyectos existentes creados por Unity para visionOS. Tus aplicaciones obtienen acceso a todos los beneficios de visionOS, como passthrough y Dynamically Foveated Rendering, además de funciones familiares de Unity como AR Foundation. Al combinar las capacidades de creación y simulación de Unity con la representación de aplicaciones administradas por RealityKit, el contenido creado con Unity se ve y se siente como en casa en visionOS.
Además de los auriculares PlayStation VR 2 (PSVR 2), Meta Quest y dispositivos similares, ahora también existe el Apple Vision Pro como auricular VR y AR. El fabricante señala en su página de desarrollador que Dynamically Foveated Rendering se usa para el sistema visionOS y los programas que se ejecutan en él.
Resumen: Representación foveada en cascos de realidad virtual
Con respecto al contenido de la imagen de la realidad virtual (VR) y, en algunos casos, también de la realidad aumentada (AR), el renderizado foveal describe una concentración de procesos informáticos en el campo de visión del usuario, en el que la visión foveal juega un papel. Se pueden ahorrar recursos en áreas de visión periférica, es decir, para contenido que literalmente solo se percibe marginalmente, ya que la resolución no es tan alta y las texturas no son tan grandes. En particular, en el renderizado dinámico foveado, el desafío consiste en reaccionar a los movimientos oculares en el menor tiempo posible (menos de o en 13 milisegundos) y generar contenido de imagen adecuadamente adaptado.
Fuentes para su propia investigación
A continuación se muestra una lista de las fuentes que utilicé en la investigación de esta publicación. Estos complementan el contenido ya vinculado en el artículo, que también se puede ver como fuentes:
Artículo de Wikipedia en inglés sobre el tema: Ver aquí
Artículo de Wikipedia en alemán sobre la fóvea centralis: Ver aquí
Estudio de vanguardia sobre renderizado foveado de 2022, por Lili Wang, Xuehuai Shi y Yi Liu (se publicará a principios de 2023): Ver aquí