Graphismes dans le casque VR : qu'est-ce que le rendu fovéal ?

Depuis plusieurs années, les fabricants de casques VR utilisent le terme "Foveated Rendering" pour souligner le caractère avancé de leurs appareils. La recherche sur ce type de création d'images et de scènes avec différents degrés de netteté et de détails dans le champ de vision de l'utilisateur se poursuit depuis plus de 30 ans. Mais ce n'est que ces dernières années que la technologie semble être devenue suffisamment puissante pour permettre le rendu fovéal - sur le HTC Vive Pro Eye, sur l'Oculus Quest / Meta Quest, sur le Sony PlayStation VR 2 (PSVR2) ainsi que sur le apple vision proQue présenté le 5 juin 2023 devenu. Mais qu'est-ce que le rendu fovéal exactement ?

Qu'est-ce que le rendu fovéal ? Quelles sont les différences entre l'application statique et l'application dynamique ? Et comment tout cela fonctionne-t-il dans le casque Apple Vision Pro ? Voici les réponses à ces questions.
Qu'est-ce que le rendu fovéal ? Quelles sont les différences entre l'application statique et l'application dynamique ? Et comment tout cela fonctionne-t-il dans le casque Apple Vision Pro ? Voici les réponses à ces questions.

Le terme : qu'est-ce que le rendu fovéal ?

Le rendu Foveated décrit la synthèse d'image pour les applications VR et AR sur les casques appropriés, en tenant compte de la direction de la vue, de sorte que le contenu de l'image mise au point est affiché plus net ou plus détaillé et le contenu visualisé uniquement de manière périphérique est moins net / moins détaillé. Ou pour le dire plus simplement : si vous utilisez un casque de réalité virtuelle avec un rendu fovéal, seules les parties visualisées du contenu affiché sont affichées dans la résolution la plus élevée. Ce qui n'est pas visualisé directement n'est pas rendu en pleine résolution et avec les textures les plus détaillées.

Extrait de "Foveated rendering : A state-of-the-art survey" par Lili Wang, Xuenhuai Shi et Yi Liu. Le lien vers l'étude se trouve en bas de cet article.
Extrait de "Foveated rendering : A state-of-the-art survey" par Lili Wang, Xuenhuai Shi et Yi Liu. Le lien vers l'étude se trouve en bas de cet article.

L'avantage est que la qualité d'image la plus élevée peut être utilisée dans la ligne de visée directe, tandis que les bords de l'image nécessitent moins de puissance de calcul. Cependant, cela pose plusieurs défis pour la recherche technique, les entreprises manufacturières, les développeurs des logiciels et jeux utilisés et, enfin et surtout, les appareils utilisés. Parce que les mouvements oculaires sont rapides, le temps de réaction du cerveau est également rapide et le casque VR est aussi bon que la technologie qui y est intégrée.

D'où vient le nom "Foveated Rendering" ?

La première partie du terme, "foveated", fait référence à la fovea centralis dans l'œil humain. Ce terme latin signifie quelque chose comme "fosse centrale" et décrit la soi-disant fosse visuelle sur la rétine de l'œil. C'est la zone de vision la plus nette (vision fovéale). Le diamètre de la fovea centralis mesure environ 1,5 mm et il y a environ 147.000 XNUMX récepteurs de lumière (cônes) par millimètre carré, principalement des cônes M et L pour la gamme verte et rouge de la lumière visible, moins de cônes S pour la lumière bleue.

La fovea centralis est située du côté temporal à côté du nerf optique de l'œil. Image de Hans-Werner Hunziker sous licence CC BY-SA 3.0 sur Wikimedia.
La fovea centralis est située du côté temporal à côté du nerf optique de l'œil. Figure de Hans-Werner Hunziker sous licence CC BY-SA 3.0 sur Wikimedia (ici).

La deuxième partie du terme, à savoir « rendu », fait référence à la génération assistée par ordinateur d'images à partir de données brutes. Dans les systèmes d'exploitation, les logiciels avec une interface graphique, les jeux vidéo, les applications et autres, les données, les commandes, la coordination et d'autres informations sont utilisés pour générer une sortie d'image qui est ensuite affichée à l'utilisateur sur le périphérique de sortie. Lors de la génération de fichiers image individuels, la vitesse du processus de rendu est importante. Dans le cas d'images animées et de contenus multimédias, ceux-ci sont répétés plusieurs fois dans un court laps de temps. Le nombre de fps spécifie combien d'images par seconde sont calculées et sorties.

En tant que terme complet, "Foveated Rendering" décrit la création d'infographies ou de scènes virtuelles qui ne sont entièrement et précisément calculées que dans la direction de visualisation directe. Tout ce qui se trouve en dehors de la ligne droite vers la fovea centralis sera rendu moins net et/ou avec des textures moins élaborées. Le processus de rendu peut ainsi être accéléré et utilise moins de ressources, tandis que les utilisateurs n'ont à accepter aucune réduction (sensible) de la qualité de l'image. Donc par ex. Par exemple, les jeux VR peuvent être affichés en résolution 4K dans le champ de vision, tandis qu'une résolution inférieure est utilisée sur les bords de l'écran. Donc un jeu de vision fovéale et périphérique.

La technique : comment fonctionne le rendu fovéal ?

Il existe différentes approches de réalisation de cette technique, selon le type de rendu fovéalisé à proposer. Le plus pratique et le plus naturel pour les utilisateurs est le Dynamic Foveated Rendering, dans lequel la direction du regard est déterminée par le suivi des yeux et la zone d'image nette est repositionnée en conséquence. Cependant, c'est la mise en œuvre la plus complexe techniquement. Le rendu focalisé fixe ou statique nécessite que l'utilisateur regarde uniquement droit devant ou à un autre point fixe, c'est pourquoi seul le même point est rendu complètement net et la netteté ou le niveau de détail diminue vers les bords de l'image.

Sans suivi oculaire : rendu statique/fixe Foveated

L'avantage du rendu fovéal fixe est que le casque de réalité virtuelle n'a pas besoin d'inclure une nouvelle position de l'œil et donc une nouvelle direction de visualisation comme base de données chaque fois qu'il calcule des images individuelles. Cela signifie qu'il y a moins d'effort de calcul pour l'évaluation des entrées et que les processeurs sont moins fortement utilisés pour cela. De cette façon, une technologie moins exigeante peut être utilisée (voir en comparaison) et/ou la consommation d'énergie peut être réduite. De plus, les fabricants peuvent économiser sur la technologie de suivi oculaire et l'appareil devient moins cher.

L'inconvénient, bien sûr, est que le casque de réalité virtuelle n'affiche soit que le centre de l'image, soit le contenu de l'image jugé intéressant dans la plus haute résolution. Ainsi, dans un jeu vidéo, il se peut que seuls le personnage du jeu et son environnement immédiat soient entièrement rendus, tandis que les zones les plus éloignées apparaissent floues. Ici les développeurs doivent se fier aux tests du jeu et aux mesures associées de la direction de vue, il n'est pas possible de réagir ad hoc là où les joueurs regardent vraiment.

Avec Eye Tracking : rendu fovéal dynamique

L'avantage du Dynamic Foveated Rendering / Dynamically Foveated Rendering est que la direction de la vue de l'utilisateur est incluse dans le calcul de l'image dans le casque VR. Si vous regardez vers la gauche dans la scène virtuelle, les côtés gauches de l'affichage sont nets, le centre est moins net et les zones d'affichage droites ont la résolution la plus faible. Si vous regardez vers la droite, les côtés droits de l'écran auront une résolution plus élevée, et ainsi de suite. Cette technique permet une utilisation plus naturelle et n'oblige pas les développeurs à anticiper l'intérêt du regard pour l'application.

L'inconvénient est que les lunettes VR doivent tenir compte de la ligne de visée de l'utilisateur pour chaque calcul d'image. Cela doit être fait extrêmement rapidement car vous pouvez vous concentrer sur une grande variété d'objets dans une grande variété de directions en peu de temps. Les mouvements oculaires, l'enregistrement rapide du contenu de l'image et le changement d'avis imprévisible lors de la sélection d'un contenu de scène important posent ici un défi. L'enregistrement du mouvement oculaire (eye tracking), le calcul du champ de vision et la synthèse d'image correspondante doivent prendre placer en une petite fraction de seconde. Cela nécessite les dernières technologies et des processus optimisés.

Vidéo : Démo de rendu Foveated en seulement 45 secondes

Dans ce Vidéo montre comment le rendu fovéal peut fonctionner en combinaison avec l'apprentissage en profondeur. Pour cela, l'objet visualisé a reçu une densité de pixels plus élevée et 95% des pixels ont été supprimés du reste de l'image. De cette manière, la dissolution éventuelle de la rétine de l'œil a été simulée. Les pixels désormais manquants ont alors été remplacés par une IA, ce qui conduit à des formes de plus en plus abstraites à mesure que la distance à l'objet visualisé augmente, mais ne fait aucune différence dans l'ensemble, puisque le contenu distant n'est vu que périphériquement et n'est donc pas perçu en détail par le cerveau.

Le défi : réagir aux mouvements oculaires en moins de 13 millisecondes

D'un Enquête par Mary C. Potter, Brad Wyble, Carl Erick Hagmann et Emily S. McCourt, dont les résultats ont été publiés en 2013, montrent que les gens peuvent capturer un nouveau contenu d'image - ou du moins le contenu principal des images - en 13 ms. En détail, l'étude "Detecting meaning in RSVP at 13 ms per picture" publiée dans Attention, Perception, & Psychophysics, Volume 76, Issue 2 en février 2014 indique :

Les résultats des deux expériences montrent que la compréhension conceptuelle peut être obtenue lorsqu'une nouvelle image est présentée aussi brièvement que 13 ms et masquée par d'autres images. Même lorsque les participants n'ont reçu le nom de la cible qu'après avoir visionné la séquence entière de six ou 12 images, leur performance était au-dessus du hasard même à 13 ms [...]

Le défi des casques de réalité virtuelle modernes avec rendu fovéal dynamique est de calculer des zones d'image détaillées et floues dans un cycle de 0,013 seconde. Pas étonnant, alors, que le développement du casque Apple Vision Pro ait pris si longtemps et qu'outre le Puce M2 la nouvelle puce R1 a été installée, qui est conçue exclusivement pour l'interprétation des données des capteurs. Dans le Communiqué de presse l'Apple Vision Pro dit en conséquence :

[...] tandis que la toute nouvelle puce R1 traite les entrées de douze caméras, cinq capteurs et six microphones et garantit que le contenu donne l'impression qu'il se déroule devant les yeux de l'utilisateur en temps réel. R1 transmet de nouvelles images aux écrans dans les 12 millisecondes [...]

Le casque Apple Vision Pro est doté de LED et de caméras infrarouges à l'intérieur qui mesurent les mouvements des yeux. La puce R1 évalue les données ainsi déterminées afin que l'image puisse être générée sur la puce M2 le plus rapidement possible.
Le casque Apple Vision Pro est doté de LED et de caméras infrarouges à l'intérieur qui mesurent les mouvements des yeux. La puce R1 évalue les données ainsi déterminées afin que l'image puisse être générée sur la puce M2 le plus rapidement possible.

Comment la technologie est intégrée dans le casque Apple Vision Pro

Selon Apple, Dynamically Foveated Rendering fait partie du système d'exploitation visionOS. Les développeurs peuvent l'utiliser pour personnaliser leur contenu à l'aide des outils Xcode et Reality Composer Pro d'Apple. Unity peut également être utilisé nativement sous visionOS pour certaines applications et certains jeux. Le moteur de jeu Unity complète le visionOS SDK (SDK = Software Development Kit), le RealityKit, l'UIKit et les offres Apple susmentionnées pour la programmation, la conception AR, les applications VR, etc. 

Sur la page développeur du sujet (ici) il dit en conséquence:

Désormais, vous pouvez utiliser les outils de création robustes et familiers de Unity pour créer de nouvelles applications et de nouveaux jeux ou réinventer vos projets existants créés par Unity pour visionOS. Vos applications ont accès à tous les avantages de visionOS, comme le passthrough et le rendu dynamiquement fovéalisé, en plus des fonctionnalités Unity familières comme AR Foundation. En combinant les capacités de création et de simulation de Unity avec le rendu d'application géré par RealityKit, le contenu créé avec Unity ressemble et se sent chez lui sur visionOS.

En plus du casque PlayStation VR 2 (PSVR 2), du Meta Quest et d'appareils similaires, il existe désormais l'Apple Vision Pro en tant que casque VR et AR. Le fabricant précise sur sa page développeur que Dynamically Foveated Rendering est utilisé pour le système visionOS et les programmes qui y sont exécutés.
En plus du casque PlayStation VR 2 (PSVR 2), du Meta Quest et d'appareils similaires, il existe désormais l'Apple Vision Pro en tant que casque VR et AR. Le fabricant précise sur sa page développeur que Dynamically Foveated Rendering est utilisé pour le système visionOS et les programmes qui y sont exécutés.

Résumé : Rendu fovéal dans les casques de réalité virtuelle

En ce qui concerne le contenu d'image de la réalité virtuelle (VR) et dans certains cas également de la réalité augmentée (AR), le rendu fovéal décrit une concentration de processus informatiques sur le champ de vision de l'utilisateur, dans lequel la vision fovéale joue un rôle. Les ressources peuvent être économisées dans les zones de vision périphérique, c'est-à-dire pour le contenu qui n'est littéralement perçu que marginalement, car la résolution n'est pas aussi élevée et les textures ne sont pas aussi grandes. En rendu fovéal dynamique notamment, le défi consiste à réagir aux mouvements des yeux dans les plus brefs délais (inférieur ou en 13 millisecondes) et à restituer un contenu d'image adapté en conséquence.

Sources pour vos propres recherches

Vous trouverez ci-dessous une liste des sources que j'ai utilisées pour rechercher ce message. Ceux-ci complètent le contenu déjà lié dans l'article, qui peut également être considéré comme des sources :

  • Article Wikipédia en anglais sur le sujet : Voir ici
  • Article Wikipédia allemand sur la fovea centralis : Voir ici
  • Étude de pointe sur le rendu fovéal à partir de 2022, par Lili Wang, Xuehuai Shi & Yi Liu (à paraître début 2023) : Voir ici
Avez-vous aimé l'article et les instructions sur le blog vous ont-elles aidé? Alors je serais heureux si vous le blog via une adhésion stable soutiendrait.

Ecrire un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont marqués avec un * marqué

Dans le blog Sir Apfelot, vous trouverez des conseils, des instructions et des critiques sur les produits Apple tels que l'iPhone, l'iPad, l'Apple Watch, les AirPods, l'iMac, le Mac Pro, le Mac Mini et le Mac Studio.

Liquidation