Grafika w goglach VR: co to jest renderowanie foveated?

Od kilku lat producenci gogli VR używają terminu „Foveated Rendering”, aby podkreślić zaawansowany charakter swoich urządzeń. Badania nad tego typu tworzeniem obrazu i sceny o różnym stopniu ostrości i szczegółowości w polu widzenia użytkownika trwają od ponad 30 lat. Ale dopiero w ostatnich latach wydaje się, że technologia stała się wystarczająco potężna, aby umożliwić renderowanie foveated - na HTC Vive Pro Eye, na Oculus Quest / Meta Quest, na Sony PlayStation VR 2 (PSVR2), a także na Apple VisionProŻe przedstawiony 5 czerwca 2023 r stał się. Ale czym dokładnie jest renderowanie foveated?

Co to jest renderowanie foveated? Jakie są różnice między aplikacją statyczną a dynamiczną? A jak to wszystko działa w goglach Apple Vision Pro? Oto odpowiedzi na te pytania.
Co to jest renderowanie foveated? Jakie są różnice między aplikacją statyczną a dynamiczną? A jak to wszystko działa w goglach Apple Vision Pro? Oto odpowiedzi na te pytania.

Termin: Co to jest renderowanie Foveated?

Renderowanie foveated opisuje syntezę obrazu dla aplikacji VR i AR na odpowiednich zestawach słuchawkowych, z uwzględnieniem kierunku widzenia, dzięki czemu treść obrazu, na którym znajduje się ostrość, jest wyświetlana ostrzej lub bardziej szczegółowo, a treść oglądana tylko peryferyjnie jest mniej ostra/mniej szczegółowa. Mówiąc prościej: jeśli korzystasz z gogli wirtualnej rzeczywistości z foveowanym renderowaniem, tylko oglądane części zawartości wyświetlacza są wyświetlane w najwyższej rozdzielczości. To, co nie jest oglądane bezpośrednio, nie jest renderowane w pełnej rozdzielczości iz najbardziej szczegółowymi teksturami.

Z „Renderowania Foveated: najnowocześniejsza ankieta” autorstwa Lili Wang, Xuenhuai Shi i Yi Liu. Link do badania znajduje się na dole tego posta.
Z „Foveated rendering: najnowocześniejsza ankieta” autorstwa Lili Wang, Xuenhuai Shi i Yi Liu. Link do badania znajduje się na dole tego posta.

Zaletą jest to, że najwyższą jakość obrazu można zastosować w bezpośrednim polu widzenia, a krawędzie obrazu wymagają mniejszej mocy obliczeniowej. Stanowi to jednak kilka wyzwań dla badań technicznych, firm produkcyjnych, twórców wykorzystywanego oprogramowania i gier oraz, co nie mniej ważne, dla używanych urządzeń. Ponieważ ruchy oczu są szybkie, czas reakcji mózgu jest również szybki, a gogle VR są tak dobre, jak technologia, która jest w nie wbudowana.

Skąd wzięła się nazwa „Foveated Rendering”?

Pierwsza część terminu „Foveated” odnosi się do dołka centralnego w ludzkim oku. Ten łaciński termin oznacza coś w rodzaju „dołka środkowego” i opisuje tak zwany dołek wzrokowy na siatkówce oka. Jest to obszar najostrzejszego widzenia (widzenie dołkowe). Średnica dołka środkowego wynosi około 1,5 mm, a na milimetr kwadratowy przypada około 147.000 XNUMX receptorów światła (czopków), głównie czopków M i L dla zakresu światła widzialnego zielonego i czerwonego, mniej czopków S dla światła niebieskiego.

Fovea centralis znajduje się po stronie skroniowej obok nerwu wzrokowego oka. Zdjęcie autorstwa Hansa-Wernera Hunzikera na licencji CC BY-SA 3.0 w Wikimedia.
Fovea centralis znajduje się po stronie skroniowej obok nerwu wzrokowego oka. Rysunek autorstwa Hansa-Wernera Hunzikera na licencji CC BY-SA 3.0 w Wikimedia (tutaj).

Druga część tego terminu, a mianowicie „rendering”, odnosi się do wspomaganego komputerowo generowania obrazów z surowych danych. W systemach operacyjnych oprogramowanie z interfejsem graficznym, gry wideo, aplikacje itp., dane, polecenia, koordynacja i inne informacje są wykorzystywane do generowania wyjściowego obrazu, który jest następnie wyświetlany użytkownikowi na urządzeniu wyjściowym. Przy generowaniu pojedynczych plików graficznych ważna jest szybkość procesu renderowania. W przypadku ruchomych obrazów i treści multimedialnych są one powtarzane kilka razy w krótkim odstępie czasu. The liczba klatek na sekundę określa, ile klatek na sekundę jest obliczanych i wyprowadzanych.

Jako pełny termin, „Foveated Rendering” opisuje tworzenie grafiki komputerowej lub wirtualnych scen, które są w pełni i ostro obliczane tylko w bezpośrednim kierunku patrzenia. Wszystko poza linią prostą do dołka środkowego będzie mniej ostre i/lub będzie miało mniej skomplikowaną teksturę. Dzięki temu proces renderowania może zostać przyspieszony i zużywa mniej zasobów, a użytkownicy nie muszą godzić się na żadne (odczuwalne) obniżenie jakości obrazu. więc np. Na przykład gry VR mogą być wyświetlane w rozdzielczości 4K w polu widzenia, podczas gdy niższa rozdzielczość jest używana na krawędziach wyświetlacza. A więc wzajemne oddziaływanie widzenia dołkowego i peryferyjnego.

Technika: jak działa renderowanie Foveated?

Istnieją różne podejścia do realizacji tej techniki, w zależności od rodzaju proponowanego renderingu. Najwygodniejszym i najbardziej naturalnym dla użytkowników jest Dynamic Foveated Rendering, w którym kierunek patrzenia jest określany przez śledzenie ruchu gałek ocznych, a ostry obszar obrazu jest odpowiednio przesuwany. Jest to jednak najbardziej skomplikowana technicznie realizacja. Fixed lub Static Foveated Rendering zakłada, że ​​użytkownik patrzy tylko na wprost lub w inny stały punkt, dlatego tylko ten sam punkt jest renderowany całkowicie ostry, a ostrość lub poziom szczegółowości zmniejsza się w kierunku krawędzi obrazu.

Bez śledzenia wzroku: Statyczne / Stałe renderowanie z foveated

Zaletą stałego renderowania foveated jest to, że gogle wirtualnej rzeczywistości nie muszą uwzględniać nowej pozycji oczu, a tym samym nowego kierunku patrzenia jako podstawy danych za każdym razem, gdy obliczają poszczególne obrazy. Oznacza to, że do oceny danych wejściowych jest mniejszy wysiłek obliczeniowy, a procesory są do tego mniej wykorzystywane. W ten sposób można zastosować mniej wymagającą technologię (patrz porównanie) i/lub można zmniejszyć zużycie energii. Ponadto producenci mogą zaoszczędzić na technologii śledzenia wzroku, a urządzenie staje się tańsze.

Wadą jest oczywiście to, że gogle wirtualnej rzeczywistości albo wyświetlają tylko środek obrazu, albo treść obrazu ocenioną jako interesującą w najwyższej rozdzielczości. Tak więc w grze wideo może się zdarzyć, że tylko postać gry i jej najbliższe otoczenie są w pełni renderowane, podczas gdy obszary dalej od nich wydają się rozmyte. Tutaj twórcy muszą polegać na testach gry i związanych z nimi pomiarach kierunku widzenia, nie ma możliwości reagowania ad hoc na to, gdzie tak naprawdę patrzą gracze.

Z Eye Tracking: Dynamiczne renderowanie Foveated

Zaletą Dynamic Foveated Rendering / Dynamically Foveated Rendering jest to, że kierunek widzenia użytkownika jest uwzględniany w obliczeniach obrazu w goglach VR. Jeśli spojrzysz w lewo w wirtualnej scenie, lewe krawędzie wyświetlacza są ostre, środek jest mniej ostry, a prawe obszary wyświetlacza mają najniższą rozdzielczość. Jeśli spojrzysz w prawo, prawe strony wyświetlacza będą miały wyższą rozdzielczość i tak dalej. Ta technika pozwala na bardziej naturalne użycie i nie wymaga od deweloperów przewidywania zainteresowania wzrokiem aplikacją.

Wadą jest to, że okulary VR muszą uwzględniać linię wzroku użytkownika przy każdym obliczeniu obrazu. Trzeba to zrobić bardzo szybko, ponieważ w krótkim czasie można skupić się na wielu różnych obiektach w różnych kierunkach. Ruchy gałek ocznych, szybka rejestracja treści obrazu i nieprzewidywalna zmiana zdania przy wyborze ważnej treści sceny stanowią tutaj wyzwanie.Rejestracja ruchu gałek ocznych (śledzenie wzroku), obliczenie pola widzenia i odpowiednia synteza obrazu muszą umieścić w ułamku sekundy. Wymaga to najnowszych technologii i zoptymalizowanych procesów.

Wideo: Foveated Rendering Demo w zaledwie 45 sekund

W tym Wideo pokazuje, jak renderowanie foveated może działać w połączeniu z głębokim uczeniem. W tym celu oglądanemu obiektowi nadano większą gęstość pikseli, a 95% pikseli zostało usuniętych z reszty obrazu. W ten sposób symulowano ostateczne rozpuszczenie siatkówki oka. Brakujące obecnie piksele zostały następnie zastąpione sztuczną inteligencją, co prowadzi do coraz bardziej abstrakcyjnych form wraz ze wzrostem odległości od oglądanego obiektu, ale ogólnie nie ma różnicy, ponieważ odległa treść jest widziana tylko peryferyjnie i dlatego nie jest postrzegana szczegółowo przez mózg.

Wyzwanie: reakcja na ruchy gałek ocznych poniżej 13 milisekund

od jednego Untersuchung Autorzy: Mary C. Potter, Brad Wyble, Carl Erick Hagmann i Emily S. McCourt, których wyniki opublikowano w 2013 r., pokazują, że ludzie mogą uchwycić nową zawartość obrazu – lub przynajmniej główną zawartość obrazów – w ciągu 13 ms. Szczegółowo badanie „Wykrywanie znaczenia w RSVP przy 13 ms na obraz” opublikowane w Uwaga, Percepcja i Psychofizyka, tom 76, wydanie 2 w lutym 2014 r. stwierdza:

Wyniki obu eksperymentów pokazują, że zrozumienie pojęciowe można osiągnąć, gdy nowy obraz jest prezentowany tak krótko, jak 13 ms i maskowany innymi obrazami. Nawet jeśli uczestnicy nie otrzymywali docelowej nazwy, dopóki nie obejrzeli całej sekwencji sześciu lub 12 zdjęć, ich wyniki były powyżej szansy nawet przy 13 ms [...]

Wyzwaniem dla nowoczesnych gogli wirtualnej rzeczywistości z dynamicznym renderowaniem foveated jest obliczanie szczegółowych i rozmytych obszarów obrazu w cyklu 0,013 sekundy. Nic więc dziwnego, że opracowanie zestawu słuchawkowego Apple Vision Pro trwało tak długo i że oprócz Chip M2 zainstalowano nowy układ R1, który jest przeznaczony wyłącznie do interpretacji danych z czujników. w Informacja prasowa Apple Vision Pro mówi odpowiednio:

[...] podczas gdy całkowicie nowy układ R1 przetwarza dane wejściowe z dwunastu kamer, pięciu czujników i sześciu mikrofonów, zapewniając wrażenie, jakby treści odbywały się w czasie rzeczywistym na oczach użytkownika. R1 przesyła nowe obrazy do wyświetlaczy w ciągu 12 milisekund [...]

Zestaw słuchawkowy Apple Vision Pro ma wbudowane diody LED i kamery na podczerwień, które mierzą ruchy gałek ocznych. Chip R1 ocenia określone w ten sposób dane, aby jak najszybciej wygenerować obraz na chipie M2.
Zestaw słuchawkowy Apple Vision Pro ma wbudowane diody LED i kamery na podczerwień, które mierzą ruchy gałek ocznych. Chip R1 ocenia określone w ten sposób dane, aby jak najszybciej wygenerować obraz na chipie M2.

Jak technologia jest zintegrowana z zestawem słuchawkowym Apple Vision Pro

Według Apple, Dynamically Foveated Rendering jest częścią systemu operacyjnego visionOS. Deweloperzy mogą go używać do dostosowywania swoich treści za pomocą narzędzi Apple Xcode i Reality Composer Pro. Unity może być również używane natywnie w systemie VisionOS dla niektórych aplikacji i gier. Silnik gry Unity uzupełnia zestaw SDK VisionOS (SDK = Software Development Kit), RealityKit, UIKit i wyżej wymienione oferty Apple do programowania, projektowania AR, aplikacji VR i tym podobnych. 

Na stronie programisty dla tematu (tutaj) mówi odpowiednio:

Teraz możesz korzystać z solidnych, znanych narzędzi do tworzenia Unity, aby tworzyć nowe aplikacje i gry lub wymyślać na nowo istniejące projekty utworzone w Unity dla systemu wizyjnego. Twoje aplikacje uzyskują dostęp do wszystkich zalet systemu VisionOS, takich jak przekazywanie i renderowanie dynamicznie kierowane, a także do znanych funkcji Unity, takich jak AR Foundation. Łącząc możliwości tworzenia i symulacji Unity z renderowaniem aplikacji zarządzanym przez RealityKit, treści tworzone za pomocą Unity wyglądają i działają jak w domu na VisionOS.

Oprócz zestawu słuchawkowego PlayStation VR 2 (PSVR 2), Meta Quest i podobnych urządzeń, dostępny jest teraz również Apple Vision Pro jako zestaw słuchawkowy VR i AR. Producent zaznacza na swojej stronie deweloperskiej, że w systemie visionOS i uruchomionych na nim programach stosowane jest Dynamically Foveated Rendering.
Oprócz zestawu słuchawkowego PlayStation VR 2 (PSVR 2), Meta Quest i podobnych urządzeń, dostępny jest teraz również Apple Vision Pro jako zestaw słuchawkowy VR i AR. Producent zaznacza na swojej stronie deweloperskiej, że w systemie visionOS i uruchomionych na nim programach stosowane jest Dynamically Foveated Rendering.

Podsumowanie: Foveated Rendering w goglach wirtualnej rzeczywistości

W odniesieniu do zawartości obrazu rzeczywistości wirtualnej (VR), aw niektórych przypadkach także rzeczywistości rozszerzonej (AR), renderowanie foveated opisuje koncentrację procesów obliczeniowych w polu widzenia użytkownika, w którym rolę odgrywa widzenie dołkowe. Zasoby można zaoszczędzić w obszarach widzenia peryferyjnego, tj. na treści, które są dosłownie postrzegane marginalnie, ponieważ rozdzielczość nie jest tak wysoka, a tekstury nie są tak duże. Szczególnie w dynamicznym renderowaniu foveated wyzwanie polega na reagowaniu na ruchy oczu w jak najkrótszym czasie (mniej niż lub w 13 milisekundach) i wyprowadzaniu odpowiednio dostosowanej zawartości obrazu.

Źródła do własnych badań

Poniżej znajduje się lista źródeł, z których korzystałem przy badaniu tego postu. Uzupełniają one treści już połączone w artykule, które można również postrzegać jako źródła:

  • Artykuł w angielskiej Wikipedii na ten temat: tutaj ansehen
  • Artykuł w niemieckiej Wikipedii na temat fovea centralis: tutaj ansehen
  • Najnowocześniejsze badanie dotyczące renderowania foveated z 2022 r. autorstwa Lili Wang, Xuehuai Shi i Yi Liu (opublikowane na początku 2023 r.): tutaj ansehen

Moje wskazówki i porady dotyczące technologii i Apple

Podobał Ci się artykuł i czy instrukcje na blogu Ci pomogły? Wtedy byłbym szczęśliwy, gdybyś bloga poprzez stałe członkostwo będzie wspierać.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone * oznakowane

Na blogu Sir Apfelot znajdziesz porady, instrukcje i recenzje produktów Apple, takich jak iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini i Mac Studio.

Promocje
Zakupy
  •  
  •