Per diversi anni, i produttori di visori VR hanno utilizzato il termine "Foveated Rendering" per sottolineare la natura avanzata dei loro dispositivi. La ricerca su questo tipo di creazione di immagini e scene con diversi gradi di nitidezza e dettaglio nel campo visivo dell'utente va avanti da oltre 30 anni. Ma solo negli ultimi anni la tecnologia sembra essere diventata abbastanza potente da abilitare il rendering foveated - su HTC Vive Pro Eye, su Oculus Quest / Meta Quest, su Sony PlayStation VR 2 (PSVR2) così come su
Apple VisionPro Che
presentato il 5 giugno 2023 divenne. Ma cos'è esattamente il rendering foveato?
Cos'è il rendering foveato? Quali sono le differenze tra l'applicazione statica e quella dinamica? E come funziona con l'auricolare Apple Vision Pro? Ecco le risposte a queste domande.
Il termine: cos'è il rendering foveato?
Il rendering foveato descrive la sintesi dell'immagine per applicazioni VR e AR su visori appropriati, tenendo conto della direzione della vista, in modo che il contenuto dell'immagine a fuoco sia visualizzato più nitido o più dettagliato e il contenuto visualizzato solo perifericamente sia meno nitido/meno dettagliato. O per dirla più semplicemente: se utilizzi un visore per realtà virtuale con rendering foveated, solo le parti visualizzate del contenuto del display vengono visualizzate con la massima risoluzione. Ciò che non viene visualizzato direttamente non viene renderizzato alla massima risoluzione e con le texture più dettagliate.
Da "Foveated rendering: A state-of-the-art survey" di Lili Wang, Xuenhuai Shi e Yi Liu. Il link allo studio è in fondo a questo post.
Il vantaggio è che la massima qualità dell'immagine può essere utilizzata nella linea di vista diretta, mentre i bordi dell'immagine richiedono meno potenza di calcolo. Tuttavia, ciò pone diverse sfide per la ricerca tecnica, le aziende produttrici, gli sviluppatori dei software e dei giochi utilizzati e, ultimo ma non meno importante, i dispositivi in uso. Poiché i movimenti degli occhi sono rapidi, anche il tempo di reazione del cervello è rapido e il visore VR è valido solo quanto la tecnologia che vi è integrata.
Da dove viene il nome "Foveated Rendering"?
La prima parte del termine, "Foveated", si riferisce alla fovea centralis nell'occhio umano. Questo termine latino significa qualcosa come "fossa centrale" e descrive la cosiddetta fossa visiva sulla retina dell'occhio. Questa è l'area della visione più nitida (visione foveale). Il diametro della fovea centralis misura circa 1,5 mm e ci sono circa 147.000 recettori di luce (coni) per millimetro quadrato, principalmente coni M e L per la gamma verde e rossa della luce visibile, meno coni S per la luce blu.
La fovea centralis si trova sul lato temporale accanto al nervo ottico dell'occhio. Figura di Hans-Werner Hunziker con licenza CC BY-SA 3.0 su Wikimedia (qui ).
La seconda parte del termine, ovvero "rendering", si riferisce alla generazione assistita da computer di immagini a partire da dati grezzi. Nei sistemi operativi, vengono utilizzati software con interfaccia grafica, videogiochi, app e simili, dati, comandi, coordinazione e altre informazioni per generare un'immagine in uscita che viene poi visualizzata all'utente sul dispositivo di uscita. Nella generazione di singoli file immagine, la velocità del processo di rendering è importante. Nel caso di immagini in movimento e contenuti multimediali, questi vengono ripetuti più volte in un breve lasso di tempo. IL
numero di fps specifica quanti fotogrammi al secondo vengono calcolati ed emessi. Come termine completo, "Foveated Rendering" descrive la creazione di grafica computerizzata o scene virtuali che sono calcolate in modo completo e nitido solo nella direzione di visualizzazione diretta. Qualsiasi cosa al di fuori della linea retta verso la fovea centralis sarà resa meno nitida e/o con trame meno elaborate. Il processo di rendering può quindi essere accelerato e utilizza meno risorse, mentre gli utenti non devono accettare alcuna (notevole) riduzione della qualità dell'immagine. Quindi ad es. Ad esempio, i giochi VR possono essere visualizzati con risoluzione 4K nel campo visivo, mentre ai bordi del display viene utilizzata una risoluzione inferiore. Quindi un gioco di visione foveale e periferica.
La tecnica: come funziona il rendering foveato?
Esistono diversi approcci alla realizzazione di questa tecnica, a seconda del tipo di rendering foveated da offrire. Il più comodo e naturale per gli utenti è il Dynamic Foveated Rendering, in cui la direzione dello sguardo è determinata dal tracciamento oculare e l'area nitida dell'immagine viene riposizionata di conseguenza. Tuttavia, questa è l'implementazione tecnicamente più complessa. Il rendering Foveated fisso o statico richiede che l'utente guardi solo davanti a sé o in un altro punto fisso, motivo per cui solo lo stesso punto viene reso completamente nitido e la nitidezza o il livello di dettaglio diminuisce verso i bordi dell'immagine.
Senza tracciamento oculare: rendering foveato statico/fisso
Il vantaggio del rendering foveato fisso è che il visore per realtà virtuale non deve includere una nuova posizione dell'occhio e quindi una nuova direzione di visualizzazione come base di dati ogni volta che calcola le singole immagini. Ciò significa che c'è meno sforzo di calcolo per la valutazione dell'input e che i processori sono meno utilizzati per questo. In questo modo è possibile utilizzare una tecnologia meno impegnativa (vista a confronto) e/o ridurre il consumo energetico. Inoltre, i produttori possono risparmiare sulla tecnologia per il tracciamento oculare e il dispositivo diventa più economico. Lo svantaggio, ovviamente, è che l'auricolare per realtà virtuale mostra solo il centro dell'immagine o il contenuto dell'immagine valutato come interessante alla massima risoluzione. Quindi, in un videogioco, potrebbe essere che solo il personaggio del gioco e i suoi immediati dintorni siano completamente renderizzati, mentre le aree più lontane da loro appaiono sfocate. Qui gli sviluppatori devono fare affidamento sui test di gioco e sulle relative misurazioni della direzione della visuale, non è possibile reagire ad hoc a dove i giocatori stanno realmente guardando.
Con Eye Tracking: Dynamic Foveated Rendering
Il vantaggio di Dynamic Foveated Rendering / Dynamically Foveated Rendering è che la direzione della vista dell'utente è inclusa nel calcolo dell'immagine nel visore VR. Se guardi a sinistra nella scena virtuale, i lati sinistri del display sono nitidi, il centro è meno nitido e le aree del display a destra hanno la risoluzione minore. Se guardi a destra, i lati destri del display avranno una risoluzione maggiore e così via. Questa tecnica consente un utilizzo più naturale e non richiede agli sviluppatori di anticipare l'interesse dello sguardo per l'applicazione. Lo svantaggio è che gli occhiali VR devono tenere conto della linea di vista dell'utente per ogni calcolo dell'immagine. Questo deve essere fatto molto rapidamente perché puoi concentrarti su un'ampia varietà di oggetti in un'ampia varietà di direzioni in un breve lasso di tempo. I movimenti degli occhi, la rapida registrazione del contenuto dell'immagine e l'imprevedibile cambiamento di opinione durante la selezione di importanti contenuti della scena rappresentano qui una sfida.La registrazione del movimento degli occhi (eye tracking), il calcolo del campo visivo e la corrispondente sintesi dell'immagine devono prendere luogo in una piccola frazione di secondo. Ciò richiede la tecnologia più recente e processi ottimizzati.
Video: demo di rendering Foveated in soli 45 secondi
In questo
Video mostra come il rendering foveated può funzionare in combinazione con il deep learning. Per questo, all'oggetto visualizzato è stata assegnata una densità di pixel più elevata e il 95% dei pixel è stato rimosso dal resto dell'immagine. In questo modo è stata simulata l'eventuale dissoluzione della retina dell'occhio. I pixel ora mancanti sono stati poi sostituiti da un'intelligenza artificiale, che porta a forme sempre più astratte con l'aumentare della distanza dall'oggetto visualizzato, ma nel complesso non fa differenza, poiché il contenuto distante è visto solo perifericamente e quindi non è percepito in dettaglio dal cervello. https://www.youtube.com/watch?v=NPK8eQ4o8Pk
La sfida: reazione ai movimenti oculari inferiori a 13 millisecondi
Da uno
Indagine di Mary C. Potter, Brad Wyble, Carl Erick Hagmann ed Emily S. McCourt, i cui risultati sono stati pubblicati nel 2013, mostrano che le persone possono acquisire nuovi contenuti di immagini - o almeno il contenuto principale delle immagini - entro 13 ms. In dettaglio, lo studio "Detecting meaning in RSVP at 13 ms per picture" pubblicato su Attention, Perception, & Psychophysics, Volume 76, Issue 2 nel febbraio 2014 afferma:
I risultati di entrambi gli esperimenti mostrano che la comprensione concettuale può essere raggiunta quando una nuova immagine viene presentata per un breve periodo di 13 ms e mascherata da altre immagini. Anche quando ai partecipanti non è stato dato il nome del bersaglio fino a quando non hanno visto l'intera sequenza di sei o 12 immagini, la loro performance è stata al di sopra del caso anche a 13 ms [...]
La sfida per i moderni visori per realtà virtuale con rendering foveato dinamico è calcolare le aree dell'immagine dettagliate e sfocate in un ciclo di 0,013 secondi. Non c'è da stupirsi, quindi, che lo sviluppo dell'auricolare Apple Vision Pro abbia richiesto così tanto tempo e che oltre a
Chip M2 è stato installato il nuovo chip R1, realizzato esclusivamente per l'interpretazione dei dati dei sensori. Nel
comunicato stampa l'Apple Vision Pro dice di conseguenza:
[...] mentre il nuovissimo chip R1 elabora l'input da dodici telecamere, cinque sensori e sei microfoni, assicurando che il contenuto si senta come se stesse accadendo in tempo reale davanti agli occhi dell'utente. R1 trasmette nuove immagini ai display entro 12 millisecondi [...]
L'auricolare Apple Vision Pro ha LED e telecamere a infrarossi all'interno che misurano i movimenti degli occhi. Il chip R1 valuta i dati così determinati in modo che l'immagine possa essere generata il più rapidamente possibile sul chip M2.
Come la tecnologia è integrata nel visore Apple Vision Pro
Secondo Apple, Dynamically Foveated Rendering fa parte del sistema operativo visionOS. Gli sviluppatori possono utilizzarlo per personalizzare i propri contenuti utilizzando gli strumenti Xcode e Reality Composer Pro di Apple. Unity può anche essere utilizzato in modo nativo sotto visionOS per determinate app e giochi. Il motore di gioco Unity integra l'SDK visionOS (SDK = Software Development Kit), il RealityKit, l'UIKit e le già citate offerte Apple per la programmazione, la progettazione AR, le applicazioni VR e simili.
Nella pagina dello sviluppatore per l'argomento (
qui ) dice di conseguenza:
Ora puoi utilizzare gli strumenti di creazione solidi e familiari di Unity per creare nuove app e giochi o reinventare i tuoi progetti esistenti creati da Unity per visionOS. Le tue app ottengono l'accesso a tutti i vantaggi di visionOS, come passthrough e Dynamically Foveated Rendering, oltre alle familiari funzionalità di Unity come AR Foundation. Combinando le capacità di creazione e simulazione di Unity con il rendering delle app gestito da RealityKit, i contenuti creati con Unity sembrano e si sentono a proprio agio su visionOS.
Oltre al visore PlayStation VR 2 (PSVR 2), Meta Quest e dispositivi simili, ora c'è anche l'Apple Vision Pro come visore VR e AR. Il produttore sottolinea sulla sua pagina dello sviluppatore che Dynamically Foveated Rendering viene utilizzato per il sistema visionOS e i programmi in esecuzione su di esso.
Riepilogo: rendering foveato in visori per realtà virtuale
Per quanto riguarda il contenuto dell'immagine della realtà virtuale (VR) e in alcuni casi anche della realtà aumentata (AR), il rendering foveato descrive una concentrazione di processi informatici nel campo visivo dell'utente, in cui la visione foveale gioca un ruolo. Le risorse possono essere risparmiate nelle aree di visione periferica, ovvero per contenuti che letteralmente vengono percepiti solo marginalmente, visto che la risoluzione non è così alta e le texture non sono così grandi. In particolare, nel rendering foveated dinamico, la sfida consiste nel reagire ai movimenti degli occhi nel minor tempo possibile (meno di o in 13 millisecondi) e produrre un contenuto dell'immagine opportunamente adattato.
Fonti per la tua ricerca
Di seguito è riportato un elenco di fonti che ho utilizzato nella ricerca di questo post. Questi integrano i contenuti già linkati nell'articolo, che possono anche essere visualizzati come fonti:
Articolo di Wikipedia in inglese sull'argomento: Visualizza qui
Articolo di Wikipedia in tedesco sulla fovea centralis: Visualizza qui
Studio all'avanguardia sul rendering foveated dal 2022, di Lili Wang, Xuehuai Shi & Yi Liu (da pubblicare all'inizio del 2023): Visualizza qui