Umělá inteligence
Může Appleovy HDR Augmented Reality Prostředí Řešit Odrážení Pro Neural Rendering?

Appleova důrazná, dlouhodobá investice do technologií Augmented Reality se zrychluje v letošním roce, s novou řadou vývojářských nástrojů pro zachycení a převod reálných objektů do AR aspektů, a rostoucí přesvědčení průmyslu, že speciální AR brýle jsou na cestě, aby podporovaly imerzivní zkušenosti, které může tato sněhová vánice výzkumu a vývoje umožnit.
Mezi novou informací o Appleových úsilích v oblasti Augmented Reality, nová práce z výzkumného oddělení počítačového vidění společnosti odhaluje metodu pro použití 360stupňových panoramatických obrazů s vysokým dynamickým rozsahem (HDR) pro poskytování scénově specifických odrazů a osvětlení pro objekty, které jsou superponovány do scén Augmented Reality.
Nazvaná Odhad HDR Prostředí Mapy Pro Real-Time Augmented Reality, práce, kterou provedli inženýr výzkumu počítačového vidění Apple Gowri Somanath a senior manažer strojového učení Daniel Kurz, navrhuje dynamické vytváření real-time HDR prostředí prostřednictvím konvoluční neuronové sítě (CNN) běžící v mobilním procesorovém prostředí. Výsledkem je, že reflexní objekty mohou doslova odrážet nové, neviditelné prostředí na vyžádání:

V Appleově novém AR objektovém pracovním postupu je tlak na vaření instancován pomocí fotogrammetrie spolu s jeho ambientním prostředím, což vede k přesvědčivým odrazům, které nejsou ‘upečeny’ do textury. Zdroj: https://docs-assets.developer.apple.com/
Metoda, která byla uvedena na CVPR 2021, pořídí snímek celé scény a používá EnvMapNet CNN pro odhad vizuálně kompletní panoramatické HDR obrazu, také známé jako ‘světelná sonda’.

Výsledná mapa identifikuje silné světelné zdroje (obklopené na konci v animaci výše) a zohledňuje je při vykreslování virtuálních objektů.

Architektura EnvMapNet, která zpracovává omezené obrazové údaje do plnohodnotných HDR světelných sond. Zdroj: https://arxiv.org/pdf/2011.10687.pdf
Algoritmus může běžet za méně než 9 ms na iPhone XS a je schopen vykreslovat objekty s vědomím odrazů v reálném čase, se sníženým směrovým chybou o 50 % ve srovnání s předchozími a jinými přístupy k problému.

Světelné Sondy
HDR osvětlovací prostředí byla faktorem ve vizuálních efektech od doby, kdy se high dynamic range obrazové údaje (vynalezené v roce 1986) staly významnou silou prostřednictvím pokroků v počítačové technice v 90. letech. Kdokoli, kdo sleduje záběry z natáčení, si možná všiml surrealistické přítomnosti techniků, kteří drží zrcadlové koule na tyčích – referenční obrazové údaje, které budou začleněny jako environmentální faktory, když se rekonstruují CGI prvky pro scénu.

Zdroj: https://beforesandafters.com/
Nicméně, použití chromových koulí pro mapování odrazů textur předchází 90. létům, sahající až do roku 1983, kdy byla vydána SIGGRAPH práce Pyramidal Parametrics, která obsahovala statické obrazové údaje o reflexivním CGI robotovi ve stylu, který se stal slavným téměř deset let později prostřednictvím ‘kapalného kovu’ efektů ve filmu Jamese Camerona Terminator 2: Soudný den.
HDR Prostředí V Neural Renderingu?
Neural rendering nabízí možnost generovat fotorealistické video z velmi řídkého vstupu, včetně hrubých segmentačních map.

obrazový neural rendering (2017). Zdroj: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISL’s segmentace > obrazový neural rendering (2017). Zdroj: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
V květnu odhalili výzkumníci z Intelu novou iniciativu v neuronové obrazové syntéze, kde se použila videa ze hry Grand Theft Auto V k generování fotorealistického výstupu na základě dat o německých ulicích.

Zdroj: https://www.youtube.com/watch?v=0fhUJT21-bs
Výzva při vývoji neuronových renderovacích prostředí, která mohou být přizpůsobena různým osvětlovacím podmínkám, spočívá v oddělení obsahu objektu od environmentálních faktorů, které ho ovlivňují.
Jak tomu je, reflexe a anizotropní účinky zůstávají funkcemi buď původních datových snímků (což je činí nepružnými), nebo vyžadují stejný typ schématu, který použili výzkumníci z Intelu, který generuje semi-fotorealistický výstup z hrubého (herního) motoru, provádí segmentaci na něm a poté aplikuje styl přenosu z ‘upečené’ datové sady (jako je sada Mapillary street view, která byla použita v nedávném výzkumu).

V tomto neuronovém renderingu ze snímku ze hry GTA V (vlevo), vozidlo vpředu demonstruje přesvědčivé světelné odrazy a dokonce nasycuje senzor fiktivní virtuální kamery odrazy od slunce. Ale tento osvětlovací aspekt je odvozen z původního herního motoru, protože neuronové aspekty scény nemají autonomní a sebeodkazující osvětlovací struktury, které lze změnit.
Odražené V NeRF
Obrazové údaje odvozené z Neural Radiance Fields (NeRF) jsou podobně ohroženy. Ačkoli nedávný výzkum v NeRF učinil kroky vpřed při oddělování prvků, které tvoří neuronovou scénu (například spolupráci MIT/Google na NeRFactor), odrazy zůstaly překážkou.

Přístup MIT a Google NeRFactor odděluje normály, viditelnost (stíny), texturu a lokální albedo, ale neodráží širší (nebo se pohybující) prostředí, protože existuje v vakuum. Zdroj: https://arxiv.org/pdf/2106.01970.pdf
NeRF může vyřešit tento problém stejným typem HDR mapování, které používá Apple. Každý pixel v neuronovém radiance poli je vypočten na trajektorii z virtuální kamery až do bodu, kde ‘paprsek’ nemůže cestovat dále, podobně jako ray-tracing v tradičním CGI. Přidání HDR vstupu do výpočtu tohoto paprsku je potenciální metodou pro dosažení skutečného environmentálního odrazu a je v podstatě analogií k metodám globální osvětlení nebo radiosity rendering v CGI, kde je scéna nebo objekt částečně osvětlen percepními odrazy svého vlastního prostředí.
Ačkoli je zaručeno, že HDR matice nic neudělá pro snížení výpočetních zátěží NeRF, značná část výzkumu v tomto oboru se v současné době soustředí na řešení tohoto aspektu procesorového řetězce. Neodvratně, odraz je jedním z mnoha faktorů, které čekají v křídlech, aby znovu vyplnily a vyhodnotily nově optimalizovanou architekturu. Nicméně, NeRF nemůže dosáhnout svého plného potenciálu jako diskrétní neuronová obrazová a video syntéza metodologie bez přijetí způsobu, jak zohlednit okolní prostředí.
Odražené V Neuronovém Renderingu
V hypotetické HDR-povolené verzi scénáře Intel GTA V neuronového renderingu by jediná HDR nemohla pojmout dynamické odrazy, které je třeba vyjádřit v pohyblivých objektech. Například, aby bylo vidět, jak se vlastní vozidlo odráží ve vozidle vpředu, když se přiblíží k semaforu, vozidlo vpředu by mohlo mít své vlastní animované HDR světelné sondy, jejichž rozlišení by se zhoršovalo postupně, jak by se vzdalovalo od uživatelského pohledu, aby se stalo nízko-rozlišenou a pouze reprezentativní, když by se vzdalovalo do dálky – proximity-based LOD podobný ‘vzdálenosti vykreslování’ delimiterům ve videohrách.
Skutečný potenciál Appleovy práce v HDR osvětlování a odrazových mapách spočívá v tom, že není zvláště inovativní, protože vychází z předchozích prací na obecné obrazové syntéze a v vývoji AR scén. Spíše, možný průlom je reprezentován způsobem, jakým se kombinují přísná lokální výpočetní omezení s Appleovými inovacemi v hardwaru strojového učení série M, aby se vytvořilo lehké, nízko-latentní HDR mapování, které je navrženo pro provoz v omezených zdrojích.
Pokud lze tento problém vyřešit ekonomicky, příchod sémantické segmentace > fotorealistické video syntézy může přijít o významný krok blíže.












