Kunstig intelligens
Kan Apples HDR-forstærkede Augmented Reality-miljøer løse refleksionsproblemer for Neural Rendering? https://docs-assets.developer.apple.com/

Apples kraftige, langsigtede investering i Augmented Reality-teknologier accelererer i år, med en ny række udviklerredskaber til at fange og konvertere virkelige verdensobjekter til AR-facetter, og en voksende industriel overbevisning om, at dedikeret AR-briller kommer til at støtte de immersive oplevelser, som denne snestorm af forskning og udvikling kan aktivere.
Blandt en række nye oplysninger om Apples indsats i Augmented Reality, afslører en ny artikel fra virksomhedens computer vision-forskningsafdeling en metode til at bruge 360-graders panoramiske billeder med høj dynamisk rækkevidde (HDR) til at give scene-specifikke refleksioner og belysning for objekter, der er lagt ind i augmented reality-scener.
Med titlen HDR Environment Map Estimation for Real-Time Augmented Reality, foreslår artiklen, skrevet af Apple Computer Vision Research Engineer Gowri Somanath og Senior Machine Learning Manager Daniel Kurz, dynamisk oprettelse af real-time HDR-miljøer via en convolutional neural network (CNN), der køres i en mobil procesmiljø. Resultatet er, at refleksive objekter kan faktisk spejle nye, usete miljøer påkrævet:

I Apples nye AR-objektgenereringsworkflow er en trykkoger instanceret ved photogrammetri sammen med dets omgivelsesmiljø, hvilket resulterer i overbevisende refleksioner, der ikke er ‘bagt’ ind i teksturen. Kilde: https://docs-assets.developer.apple.com/
Metoden, der blev præsenteret på CVPR 2021, tager et snapshot af hele scenen og bruger EnvMapNet CNN til at estimere et visuelt komplet panoramisk HDR-billede, også kendt som en ‘lys-sonde’.

Den resulterende kort identificerer kraftige lyskilder (omkranset i slutningen af ovenstående animation) og tager hensyn til dem ved rendering af virtuelle objekter.

Arkitekturen af EnvMapNet, der processor begrænsede billeder til fuld-scene HDR-lys-sonder. Kilde: https://arxiv.org/pdf/2011.10687.pdf
Algoritmen kan køre på under 9 ms på en iPhone XS og er i stand til at rendre refleksions-objekter i realtid, med reduceret retningfejl på 50% i forhold til tidligere og forskellige tilgange til problemet.

Lys-sonder
HDR-belysningsmiljøer har været en faktor i visuelle effekter siden billeder med høj dynamisk rækkevidde (opfundet i 1986) blev en bemærkelsesværdig kraft gennem fremgang i computer-teknologi i 1990’erne. Enhver, der ser bagom-scenerne, kan have lagt mærke til den surrealistiske tilstedeværelse af teknikere, der holder oplyste kugler på stænger – referencebilleder, der skal indarbejdes som miljøfaktorer, når man genskaber CGI-elementer til scenen.

Kilde: https://beforesandafters.com/
Men at bruge kromkugler til refleksionskortlægning teksturer går tilbage til 1980’erne, hvor det først blev brugt i 1983 SIGGRAPH-artiklen Pyramidal Parametrics, der fremviste stille billeder af en refleksiv CGI-robot i en stil, der skulle blive berømt næsten et årti senere gennem ‘flydende metal’-effekterne i James Camerons Terminator 2: Dommedag.
HDR-miljøer i Neural Rendering
Neural rendering tilbyder muligheden for at generere fotorealistiske videoer fra meget sparsomme input, herunder grove segmenteringskort.

billed-neural rendering (2017). Kilde: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISL’s segmentering> billed-neural rendering (2017). Kilde: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
I maj afslørede Intel-forskere en ny initiativ i neural billedsyn, hvor billeder fra Grand Theft Auto V blev brugt til at generere fotorealistiske output baseret på datasæt af tyske gadebilleder.

Kilde: https://www.youtube.com/watch?v=0fhUJT21-bs
Udfordringen ved at udvikle neural rendering-miljøer, der kan tilpasses til forskellige belysningsforhold, er at adskille objektindholdet fra de miljøfaktorer, der påvirker det.
Som det står, er refleksioner og anisotrope effekter enten en funktion af det oprindelige datasæt (hvilket gør dem infleksible) eller kræver den samme type skema, som Intel-forskere anvendte, der genererer semi-fotorealistiske output fra en grov (spil) motor, udfører segmentering på den og derefter anvender stiloverføring fra et ‘bagt’ datasæt (såsom det tyske Mapillary-gademiljø, der blev brugt i den seneste forskning).

I denne neural rendering (GTA V-billeder er til venstre), demonstrerer køretøjet foran overbevisende glans og sogar mætter sensoren på den fiktive virtuelle kamera med refleksioner fra solen. Men denne belysningsaspekt er afledt fra den oprindelige spilmotors belysning, da de neurale facetter i scenen ikke har nogen selvstændige og selvhenvisende belysningsstrukturer, der kan ændres.
Refleksion i NeRF
Billeder, der er afledt fra Neural Radiance Fields (NeRF), er ligeledes udfordret. Selvom ny forskning i NeRF har gjort fremskridt i at adskille de elementer, der udgør en neural scene (f.eks. MIT/Google samarbejdet om NeRFactor), er refleksioner blevet et hinder.

MIT og Googles NeRFactor-tilgang adskiller normals, synlighed (skygge), tekstur og lokal albedo, men det reflekterer ikke et miljø, fordi det eksisterer i et vakuum. Kilde: https://arxiv.org/pdf/2106.01970.pdf
NeRF kan løse dette problem med den samme type HDR-kortlægning, som Apple bruger. Hver pixel i en neural lysfelt er beregnet på en bane fra en virtuel kamera op til det punkt, hvor ‘strålen’ kan rejse ikke længere, lignende ray-tracing i traditionel CGI. At tilføje HDR-input til beregningen af denne stråle er en potentiel metode til at opnå ægte miljørefleksion, og er i virkeligheden en analog til CGI’s ‘global illumination’ eller radiosity-renderingsmetoder, hvor en scene eller et objekt delvist belyses af opfattede refleksioner af dets eget miljø.
Selvom det er garanteret, at en HDR-matrix ikke vil gøre noget for at lette NeRF’s bemærkelsesværdige beregningsbyrder, koncentrerer en stor del af forskningen i dette felt for øjeblikket om at adressere dette aspekt af procespipelinen. Uundgåeligt er refleksion en af de mange faktorer, der venter i kulissen for at genopfylde og udfordre denne nyoptimerede arkitektur. Men NeRF kan ikke opnå sin fulde potentiale som en diskret neural billed- og videosyntese-metode uden at antage en måde at tage hensyn til et omgivelsesmiljø på.
Refleksion i Neural Rendering-pipelines
I en hypotetisk HDR-aktiveret version af Intel GTA V neural rendering-scenariet, kunne en enkelt HDR ikke rumme de dynamiske refleksioner, der skal udtrykkes i flyttende objekter. F.eks. for at se sin egen bil reflekteret i bilen foran, da den kører op til lysene, kunne den forreste bil have sin egen animerede HDR-lys-sonde, hvis opløsning ville aftage gradvist, efterhånden som den fjerner sig fra slutbrugerens synspunkt, for at blive lavopløst og kun repræsentativ, da den kører væk i afstand – en nærhedsbaseret LOD-lignende ‘tegneafstandsgrænse’ i videospil.
Det reelle potentiale i Apples arbejde med HDR-belysning og refleksionskort er ikke, at det er særlig innovativt, da det bygger på tidligere arbejde i almindelig billedsyn og i AR-scenedannelse. Men det mulige gennembrud repræsenteres af den måde, hvorpå kraftige lokale beregningsbegrænsninger er kombineret med Apples M-serie maskinelæringshardware-innovationer til at producere letvægts-, lavforsinket HDR-kortlægning, der er designet til at fungere under begrænsede ressourcer.
Hvis dette problem kan løses økonomisk, kan fremkomsten af semantisk segmentering > fotorealistisk video-syntese komme et betydeligt skridt nærmere.












