Artificiell intelligens
Kan Apples HDR-förstärkta augmented reality-miljöer lösa reflektioner för neural rendering?

Apples kraftiga, långsiktiga investeringar i Augmented Reality-teknologier accelererar i år, med en ny uppsättning utvecklarverktyg för att fånga och konvertera riktiga världsföremål till AR-fasetter, och en växande industritro att dedikerad AR-utrustning är på väg att stödja de immersiva upplevelser som denna snöstorm av FoU kan möjliggöra.
Bland en mängd ny information om Apples ansträngningar inom Augmented Reality, avslöjar en ny artikel från företagets datorseende-forskningsavdelning en metod för att använda 360-graders panoramabilder med hög dynamisk omfång (HDR) för att tillhandahålla scen-specifika reflektioner och belysning för föremål som är superimponerade i augmented reality-scener.
Med titeln HDR Environment Map Estimation for Real-Time Augmented Reality, föreslår artikeln, skriven av Apple Computer Vision Research Engineer Gowri Somanath och Senior Machine Learning Manager Daniel Kurz, dynamisk skapande av realtids-HDR-miljöer via en convolutional neural network (CNN) som körs i en mobil bearbetningsmiljö. Resultatet är att reflekterande föremål kan bokstavligen spegla nya, osynliga miljöer på begäran:

I Apples nya AR-objektgenereringsarbetsflöde instanseras en tryckkokare med fotogrammetri komplett med sin omgivande miljö, vilket leder till övertygande reflektioner som inte är ‘gräddade’ i texturen. Källa: https://docs-assets.developer.apple.com/
Metoden, som debuterade på CVPR 2021, tar en ögonblicksbild av hela scenen och använder EnvMapNet CNN för att uppskatta en visuellt fullständig panoramabild med hög dynamisk omfång, också känd som en ‘ljussond’.

Den resulterande kartan identifierar starka ljuskällor (konturer i slutet av animationen ovan) och tar hänsyn till dem vid rendering av virtuella föremål.

Arkitekturen för EnvMapNet, som bearbetar begränsad bild till fullscen-HDR-ljussonder. Källa: https://arxiv.org/pdf/2011.10687.pdf
Algoritmen kan köras på under 9 ms på en iPhone XS och kan rendera reflektionsmedvetna föremål i realtid, med minskad riktningsfel på 50% jämfört med tidigare och olika tillvägagångssätt för problemet.

Ljussonder
HDR-belysningsmiljöer har varit en faktor i visuella effekter sedan hög dynamisk omfångsbilder (uppfunna 1986) blev en betydande kraft genom framsteg inom datorteknik på 1990-talet. Den som tittar på bakom-kulisserna-klipp kan ha märkt den overkliga närvaron av tekniker som håller upp spegelkulor på käppar – referensbilder som ska införlivas som miljöfaktorer när man rekonstruerar CGI-element för scenen.

Källa: https://beforesandafters.com/
Men att använda kromkulor för reflektionskartläggning texturer föregår 1990-talet, och går tillbaka till 1983 SIGGRAPH-artikeln Pyramidal Parametrics, som visade stillbilder av en reflekterande CGI-robot i en stil som skulle bli berömd nästan ett decennium senare genom ‘vätske-metall’-effekterna i James Camerons Terminator 2: Domedagen.
HDR-miljöer i neural rendering
Neural rendering erbjuder möjligheten att generera fotorealistiska videor från mycket sparsam inmatning, inklusive grova segmenteringskartor.

bild neural rendering (2017). Källa: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISL:s segmentering>bild neural rendering (2017). Källa: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
I maj avslöjade Intel-forskare en ny initiativ i neural bildsyntes där footage från Grand Theft Auto V användes för att generera fotorealistiska utdata baserat på datamängder av tyska gatubilder.

Källa: https://www.youtube.com/watch?v=0fhUJT21-bs
Utmaningen i att utveckla neurala rendering-miljöer som kan anpassas till olika belysningsförhållanden är att separera ut objektinnehållet från de miljöfaktorer som påverkar det.
Som det är nu, förblir reflektioner och anisotropa effekter antingen en funktion av den ursprungliga datamängden (vilket gör dem inflexibla) eller kräver samma typ av schema som Intel-forskarna använde, som genererar semi-fotorealistiska utdata från en grov (spel) motor, utför segmentering på den och sedan tillämpar stilöverföring från en ‘gräddad’ datamängd (såsom den tyska Mapillary-gatuvy-set som användes i den senaste forskningen).

I denna neurala rendering (GTA V-footage är till vänster), visar fordonet framför övertygande glare och till och med mättar sensorn på den fiktiva virtuella kameran med reflektioner från solen. Men detta belysningsaspekt är härlett från den ursprungliga spelmotorn, eftersom de neurala faserna i scenen inte har någon autonom och självgenererande belysningsstruktur som kan ändras.
Reflektans i NeRF
Bilder som härrör från Neural Radiance Fields (NeRF) utmanas på samma sätt. Även om nylig forskning om NeRF har gjort framsteg i att separera ut elementen som utgör en neural scen (t.ex. MIT/Google samarbete om NeRFactor), har reflektioner förblivit ett hinder.

MIT och Google NeRFactor-ansats separerar ut normala, synlighet (skuggor), textur och lokal albedo, men det reflekterar inte en omgivning, eftersom det existerar i ett vakuum. Källa: https://arxiv.org/pdf/2106.01970.pdf
NeRF kan lösa detta problem med samma typ av HDR-kartläggning som Apple använder. Varje pixel i en neural strålfält är beräknad på en bana från en virtuell kamera upp till den punkt där ‘strålen’ inte kan resa längre, liknande strålspårning i traditionell CGI. Att lägga till HDR-inmatning till beräkningen av den strålen är en potentiell metod för att uppnå äkta miljöreflektans, och är i princip en analog till CGI:s ‘global belysning’ eller radiositetsrenderingsmetoder, där en scen eller ett föremål delvis belyses av uppfattade reflektioner av sin egen omgivning.
Även om det är säkerställt att en HDR-matris inte kommer att underlätta NeRF:s betydande beräkningsbördor, fokuserar en stor del av forskningen inom detta område just nu på att hantera detta aspekt av bearbetningspipelinen. Oundvikligen är reflektans en av de många faktorerna som väntar i vingen för att återfylla och utmana den nyligen optimerade arkitekturen. Men NeRF kan inte uppnå sin fulla potential som en diskret neural bild- och videosyntesmetod utan att anta ett sätt att ta hänsyn till en omgivande miljö.
Reflektans i neurala rendering-pipeliner
I en hypotetisk HDR-aktiverad version av Intel GTA V neurala rendering-scenariot, kunde en enda HDR inte rymma de dynamiska reflektioner som behöver uttryckas i rörliga föremål. Till exempel, för att se den egna bilen reflekterad i bilen framför när den kör upp till trafikljusen, kunde den främre bilenheten ha sin egen animerade HDR-ljussond, vars upplösning skulle försämras gradvis allteftersom den avlägsnar sig från användarens synvinkel, för att bli lågupplöst och endast representativ när den kör iväg på avstånd – en proximitetsbaserad LOD liknande ‘ritavståndsgränser’ i videospel.
Det verkliga potentialen i Apples arbete med HDR-belysning och reflektionskartor ligger inte i att det är särskilt innovativt, eftersom det bygger på tidigare arbete inom allmän bildsyntes och i AR-scenutveckling. Snarare är den möjliga genombrottet representerad av det sätt som allvarliga lokala beräkningsbegränsningar har kombinerats med Apples M-serie maskinlärnings-hårdvaruinnovationer för att producera lätta, låglatenta HDR-kartläggning som är utformad för att fungera under begränsade resurser.
Om detta problem kan lösas ekonomiskt, kan förekomsten av semantisk segmentering > fotorealistisk videosyntes komma ett betydande steg närmare.
Källa: https://docs-assets.developer.apple.com/












