Kunstig intelligens
Kan Apples HDR-augmenterte virkelighetsmiljøer løse refleksjonsproblemer for neuralt rendering? https://docs-assets.developer.apple.com/

Apples intense, langsiktige investeringer i Augmented Reality-teknologier akselererer i år, med en ny rekke utviklerverktøy for å fange og konvertere virkelige verdensobjekter til AR-facetter, og en økende industriell overbevisning om at dedikerte AR-briller kommer til å støtte de immersive opplevelser som denne snøstormen av FoU kan muliggjøre.
Blant en rekke nye informasjon om Apples innsats i Augmented Reality, avslører en ny artikkel fra selskapets datavisjonsforskningsavdeling en metode for å bruke 360-graders panoramiske høy dynamisk område (HDR)-bilder til å gi scene-spesifikke refleksjoner og lys for objekter som er overlagt i augmented reality-scener.
Med tittelen HDR Environment Map Estimation for Real-Time Augmented Reality, foreslår artikkelen, skrevet av Apple Computer Vision Research Engineer Gowri Somanath og Senior Machine Learning Manager Daniel Kurz, dynamisk opprettelse av sanntids-HDR-miljøer via en konvolusjonsnevralt nettverk (CNN) som kjører i en mobil prosesseringsmiljø. Resultatet er at refleksive objekter kan bokstavelig talt speile nye, usette miljøer på forespørsel:

I Apples nye AR-objektgenereringsarbeidsflyt, er en trykkoker instansiert ved photogrammetri fullstendig med sin omgivelsesmiljø, noe som fører til overbevisende refleksjoner som ikke er ‘baket’ inn i teksturen. Kilde: https://docs-assets.developer.apple.com/
Metoden, som ble lansert på CVPR 2021, tar et bilde av hele scenen og bruker EnvMapNet CNN til å anslå et visuelt fullstendig panoramisk HDR-bilde, også kjent som en ‘lys-sonde’.

Den resulterende kartet identifiserer sterke lyskilder (avkrysset i slutten av animasjonen ovenfor) og tar hensyn til dem ved rendering av virtuelle objekter.

Arkitekturen til EnvMapNet, som prosesserer begrensede bilder til full-scene HDR-lys-sonder. Kilde: https://arxiv.org/pdf/2011.10687.pdf
Algoritmen kan kjøre på under 9 ms på en iPhone XS, og er i stand til å rendre refleksjonsbevisste objekter i sanntid, med redusert retningfeil på 50% sammenlignet med tidligere og forskjellige tilnærminger til problemet.

Lys-sonder
HDR-lysmiljøer har vært en faktor i visuelle effekter siden høy dynamisk område-bilder (oppfunnet i 1986) ble en merkbart kraft gjennom fremgang i datateknologi på 1990-tallet. Alle som ser på bakom-kulissene-fotage kan ha lagt merke til den surrealistiske tilstedeværelsen av teknikere som holder opp speilballer på staver – referansebilder som skal inkorporeres som miljøfaktorer når man rekonstruerer CGI-elementer for scenen.

Kilde: https://beforesandafters.com/
Men å bruke kromballer til refleksjonskartlegging teksturer forudsetter 1990-årene, og går tilbake til 1983 SIGGRAPH-artikkelen Pyramidal Parametrics, som viste stille bilder av en refleksiv CGI-robot i en stil som skulle bli berømt nesten et tiår senere gjennom ‘flytende metall’-effektene i James Camerons Terminator 2: Judgement Day.
HDR-miljøer i neuralt rendering
Neuralt rendering tilbyr muligheten til å generere fotorealistiske videoer fra svært sparsom innmatning, inkludert grove segmenteringskart.

bilde neuralt rendering (2017). Kilde: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISLs segmentering> bilde neuralt rendering (2017). Kilde: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
I mai avslørte Intel-forskere en ny initiativ i neuralt bilde-syntese hvor fotage fra Grand Theft Auto V ble brukt til å generere fotorealistiske utdata basert på datasett av tyske gatebilder.

Kilde: https://www.youtube.com/watch?v=0fhUJT21-bs
Ufordringen i å utvikle neurale rendering-miljøer som kan tilpasses forskjellige lysforhold er å skille ut objektinnholdet fra de miljømessige faktorene som påvirker det.
Som det står nå, er refleksjoner og anisotrope effekter enten en funksjon av det opprinnelige datasett-fotografiet (som gjør dem infleksible), eller krever samme type skjema som Intel-forskerne brukte, som genererer semi-fotorealistiske utdata fra en grov (spill) motor, utfører segmentering på det og så anvender stiloverføring fra en ‘bakt’ datasett (slik som den tyske Mapillary gatevisningssettet som ble brukt i den nyeste forskningen).

I denne neurale renderingen avledet fra GTA V-fotage (venstre), demonstrerer kjøretøyet foran overbevisende glør og sogar metter sensoren på den fiktive virtuelle kameraet med refleksjoner fra solen. Men denne lysaspektet er avledet fra det opprinnelige spillmotorens lysmotor, siden de neurale fasene i scenen ikke har noen selvstendige og selvhenvisende lysstrukturer som kan endres.
Refleksjon i NeRF
Bilder avledet fra Neural Radiance Fields (NeRF) er likeledes utfordret. Selv om ny forskning på NeRF har gjort fremskritt i å skille ut elementene som går til å lage en neural scene (for eksempel MIT/Google samarbeidet om NeRFactor), har refleksjoner forble en hindring.

MIT og Google NeRFactor-tilnærmingen skiller ut normals, synlighet (skygge), tekstur og lokal albedo, men den reflekterer ikke et bredere (eller bevegelig) miljø, fordi den essensielt eksisterer i et vakuum. Kilde: https://arxiv.org/pdf/2106.01970.pdf
NeRF kan løse dette problemet med samme type HDR-kartlegging som Apple bruker. Hver piksel i en neural strålingsfelt beregnes på en bane fra en virtuell kamera opp til punktet hvor ‘strålen’ kan reise ingen vei, lignende ray-tracing i tradisjonell CGI. Å legge til HDR-inndata til beregningen av denne strålen er en potensiell metode for å oppnå ekte miljørefleksjon, og er i virkeligheten en analog til CGI’s ‘global lys’ eller radiositetsrendringsmetoder, hvor en scene eller et objekt er delvis belyst av oppfattede refleksjoner av sin egen omgivelse.
Selv om det er garantert at en HDR-matrise ikke vil gjøre noe for å lette NeRFs merkbar beregningsbyrde, konsentrerer mye av forskningen i dette feltet for øyeblikket om å håndtere denne aspektet av prosesseringspipelinen. Uunngåelig er refleksjon en av de mange faktorene som venter i vingen for å fylle og utfordre denne ny-optimerte arkitekturen. Men NeRF kan ikke oppnå sitt fulle potensiale som en diskret neural bilde- og videosyntesemetode uten å adoptere en måte å ta hensyn til et omgivelsesmiljø på.
Refleksjon i neurale rendering-pipelines
I en hypotetisk HDR-aktiver versjon av Intel GTA V neurale rendering-scenariet, kunne en enkelt HDR ikke akkommodere de dynamiske refleksjoner som må uttrykkes i bevegelige objekter. For eksempel, for å se eget kjøretøy reflektert i kjøretøyet foran når det kjører opp til lyskrysset, kunne det foranliggende kjøretøyet ha sin egen animerte HDR-lys-sonde, hvor oppløsningen ville avta inkrementelt når det fjerner seg fra sluttbrukerens synspunkt, og bli lav-oppløst og bare representativ når det kjører vekk i avstand – en nærhetsbasert LOD lignende ‘tegn-avstand’ delimitere i videospill.
Det virkelige potensialet i Apples arbeid med HDR-lys og refleksjonskart er ikke at det er spesielt innovativt, siden det bygger på tidligere arbeid i generell bilde-syntese og i AR-scenutvikling. Snarere er det mulige gjennombruddet representert av måten hvorpå strenge lokale beregningsbegrensninger har kombinert med Apples M-serie maskinlærings-hardware-innovasjoner til å produsere lettvinte, lav-forsinkelses HDR-kartlegging som er designet til å operere under begrensede ressurser.
Hvis dette problemet kan løses økonomisk, kan begivenheten av semantisk segmentering> fotorealistisk video-syntese komme et betydelig skritt nærmere.












