Connect with us

Kunstmatige intelligentie

Kan Apple’s HDR Augmented Reality-omgevingen Reflecties voor Neurale Rendering oplossen?

mm

Apple’s krachtdadige, langetermijninvestering in Augmented Reality-technologieën versnelt dit jaar, met een nieuwe reeks ontwikkelaarstools om echte wereldobjecten om te zetten in AR-facetten en een groeiend industrieel vertrouwen dat speciale AR-brillen eraan komen om de immersieve ervaringen te ondersteunen die deze sneeuwstorm van R&D kan mogelijk maken.

Onder een reeks nieuwe informatie over Apple’s inspanningen op het gebied van Augmented Reality, onthult een nieuw artikel van de computer vision-onderzoeksafdeling van het bedrijf een methode voor het gebruik van 360-graden panoramische high dynamic range (HDR)-afbeeldingen om scène-specifieke reflecties en verlichting te bieden voor objecten die in augmented reality-scènes worden gesuperponeerd.

Getiteld HDR Environment Map Estimation for Real-Time Augmented Reality, het artikel, geschreven door Apple Computer Vision Research Engineer Gowri Somanath en Senior Machine Learning Manager Daniel Kurz, stelt de dynamische creatie van real-time HDR-omgevingen voor via een convolutional neural network (CNN) die draait in een mobiele verwerkingomgeving. Het resultaat is dat reflecterende objecten letterlijk nieuwe, ongeziene omgevingen kunnen weerspiegelen op aanvraag:

In Apple's nieuwe AR-objectgeneratie-workflow wordt een drukpan geïnstantieerd door photogrammetrie, compleet met zijn omgevingsomgeving, waardoor overtuigende reflecties ontstaan die niet 'ingebakken' zijn in de textuur. Bron: https://docs-assets.developer.apple.com/

In Apple’s nieuwe AR-objectgeneratie-workflow wordt een drukpan geïnstantieerd door photogrammetrie, compleet met zijn omgevingsomgeving, waardoor overtuigende reflecties ontstaan die niet ‘ingebakken’ zijn in de textuur. Bron: https://docs-assets.developer.apple.com/

De methode, die voor het eerst werd getoond op CVPR 2021, maakt een snapshot van de hele scène en gebruikt de EnvMapNet CNN om een visueel complete panoramische HDR-afbeelding te schatten, ook wel een ‘light probe’ genoemd.

De resulterende kaart identificeert sterke lichtbronnen (omlijnd aan het einde in de bovenstaande animatie) en houdt daar rekening mee bij het renderen van virtuele objecten.

De architectuur van EnvMapNet, die beperkte beelden omzet in volledige scène-HDR-lichtprobes. Bron: https://arxiv.org/pdf/2011.10687.pdf

De architectuur van EnvMapNet, die beperkte beelden omzet in volledige scène-HDR-lichtprobes. Bron: https://arxiv.org/pdf/2011.10687.pdf

De algoritme kan draaien in minder dan 9 ms op een iPhone XS en is in staat om reflectiebewuste objecten in real-time te renderen, met een vermindering van 50% van de richtingsfout in vergelijking met eerdere en verschillende benaderingen van het probleem.

Lichtprobes

HDR-verlichtingsomgevingen zijn al een factor in visuele effecten sinds high dynamic range-afbeeldingen (uitgevonden in 1986) een opvallende kracht werden door vooruitgang in computertechnologie in de jaren 90. Iedereen die achter-de-schermen-footage bekijkt, kan de surrealistische aanwezigheid van technici hebben opgemerkt die spiegelbollen op stokken omhooghouden – referentiebeelden die moeten worden geïntegreerd als omgevingsfactoren wanneer CGI-elementen voor de scène worden gereconstrueerd.

Bron: https://beforesandafters.com/

Bron: https://beforesandafters.com/

Echter, het gebruik van chroomballen voor reflectiemapping textures dateert uit de jaren 80, toen het in 1983 werd geïntroduceerd in het SIGGRAPH-artikel Pyramidal Parametrics, dat stillevens van een reflecterende CGI-robot bevatte in een stijl die bijna een decennium later beroemd zou worden door de ‘vloeibare metaal’-effecten van James Cameron’s Terminator 2: Judgement Day.

HDR-omgevingen in Neurale Rendering?

Neurale rendering biedt de mogelijkheid om fotorealistische video te genereren van zeer schaarse invoer, inclusief grove segmentatiekaarten.

afbeelding neurale rendering (2017). Bron: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISL’s segmentatie>afbeelding neurale rendering (2017). Bron: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

In mei onthulden Intel-onderzoekers een nieuw initiatief in neurale beeldsynthese waarbij beelden uit Grand Theft Auto V werden gebruikt om fotorealistische uitvoer te genereren op basis van datasets van Duitse straatbeelden.

Bron: https://www.youtube.com/watch?v=0fhUJT21-bs

Bron: https://www.youtube.com/watch?v=0fhUJT21-bs

De uitdaging bij het ontwikkelen van neurale rendering-omgevingen die kunnen worden aangepast aan verschillende lichtomstandigheden is om het objectinhoud te scheiden van de omgevingsfactoren die het beïnvloeden.

Zoals het er nu uitziet, blijven reflecties en anisotrope effecten ofwel een functie van de oorspronkelijke datasetbeelden (wat ze inflexibel maakt), ofwel vereist hetzelfde type schema dat de Intel-onderzoekers gebruikten, dat semi-fotorealistische uitvoer genereert van een grove (game)engine, segmentatie toepast en vervolgens stijltransfer toepast van een ‘gebakken’ dataset (zoals de Duitse Mapillary-straatweergave-set die in het recente onderzoek werd gebruikt).

In deze neurale rendering (GTA V-beelden zijn links), toont het voertuig voorovertuigende glare en zelfs verzadigt de sensor van de fictieve virtuele camera met reflecties van de zon. Maar dit lichtaspect is afgeleid van de oorspronkelijke gamebeelden, aangezien de neurale facetten in de scène geen autonome en zelfreferentiële lichtstructuren hebben die kunnen worden gewijzigd.

In deze neurale rendering afgeleid van GTA V-beelden (links), toont het voertuig voorovertuigende glare en zelfs verzadigt de sensor van de fictieve virtuele camera met reflecties van de zon. Maar dit lichtaspect is afgeleid van de lichtengine van de oorspronkelijke gamebeelden, aangezien de neurale facetten in de scène geen autonome en zelfreferentiële lichtstructuren hebben die kunnen worden gewijzigd.

Reflectie in NeRF

Beelden die zijn afgeleid van Neurale Radiance Fields (NeRF) worden op soortgelijke wijze uitgedaagd. Hoewel recent onderzoek naar NeRF vooruitgang heeft geboekt bij het scheiden van de elementen die een neurale scène vormen (bijvoorbeeld de MIT/Google samenwerking op NeRFactor), zijn reflecties blijven een obstakel.

De MIT en Google NeRFactor-benadering scheidt uit normals, zichtbaarheid (schaduwen), textuur en lokale albedo, maar het reflecteert geen omgeving, omdat het in een vacuüm bestaat. Bron: https://arxiv.org/pdf/2106.01970.pdf

De MIT en Google NeRFactor-benadering scheidt uit normals, zichtbaarheid (schaduwen), textuur en lokale albedo, maar het reflecteert geen bredere (of bewegende) omgeving, omdat het in wezen in een vacuüm bestaat. Bron: https://arxiv.org/pdf/2106.01970.pdf

NeRF kan dit probleem oplossen met hetzelfde type HDR-kaarten dat Apple gebruikt. Elk pixel in een neurale radiance-veld wordt berekend op een traject van een virtuele camera tot het punt waar de ‘ray’ niet verder kan reizen, vergelijkbaar met ray-tracing in traditionele CGI. Het toevoegen van HDR-invoer aan de berekening van die ray is een potentiële methode om echte omgevingsreflectie te bereiken, en is in feite een analogon van CGI’s ‘globale verlichting’ of radiosity-renderingmethoden, waarbij een scène of object gedeeltelijk wordt verlicht door waargenomen reflecties van zijn eigen omgeving.

Hoewel het zeker is dat een HDR-matrix niets zal doen om NeRF’s opvallende berekeningslasten te verlichten, is een groot deel van onderzoek in dit veld op dit moment gericht op het aanpakken van dit aspect van de verwerkingpijplijn. Onvermijdelijk is reflectie een van de vele factoren die in de wings wachten om de nieuw geoptimaliseerde architectuur opnieuw te vullen en uit te dagen. NeRF kan echter zijn volledige potentieel als discrete neurale beeld- en videosynthesemethode niet bereiken zonder een manier te adopteren om rekening te houden met een omgevingsomgeving.

Reflectie in Neurale Rendering-pijplijnen

In een veronderstelde HDR-geactiveerde versie van het Intel GTA V-neurale rendering-scenario kan één HDR niet de dynamische reflecties accommoderen die moeten worden uitgedrukt in bewegende objecten. Bijvoorbeeld, om de reflectie van de eigen voertuig in het voertuig voor te zien als het optrekt bij de lichten, kan het voorste voertuigentiteit zijn eigen geanimeerde HDR-lichtprobe hebben, waarvan de resolutie zou afnemen naarmate het zich van de eindgebruiker verwijderd, om laagresolutie en slechts representatief te worden als het zich terugtrekt in de verte – een proximiteitsgebaseerde LOD vergelijkbaar met ‘draw distance’-scheiders in videospellen.

Het echte potentieel van Apple’s werk in HDR-verlichting en reflectiekaarten ligt niet in het feit dat het bijzonder innovatief is, aangezien het voortbouwt op eerder werk in algemene beeldsynthese en in AR-scèneontwikkeling. Het mogelijke doorbraakpotentieel wordt echter vertegenwoordigd door de manier waarop ernstige lokale rekenbeperkingen zijn gecombineerd met Apple’s M-serie machine learning-hardware-innovaties om lichtgewicht, lage latentie HDR-kaarten te produceren die zijn ontworpen om te werken onder beperkte middelen.

Als dit probleem economisch kan worden opgelost, kan de komst van semantische segmentatie > fotorealistische video-synthese een aanzienlijke stap dichterbij komen.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.