Connect with us

Intelligenza artificiale

Possono gli Ambienti di Realtà Aumentata HDR di Apple Risolvere i Riflessi per il Rendering Neurale?

mm

Gli investimenti vigorosi e a lungo termine di Apple nelle tecnologie di Realtà Aumentata si stanno accelerando quest’anno, con una nuova serie di strumenti per gli sviluppatori per catturare e convertire oggetti del mondo reale in faccette di Realtà Aumentata, e una crescente convinzione dell’industria che gli occhiali dedicati per la Realtà Aumentata stanno per arrivare per supportare le esperienze immersive che questo uragano di R&D può abilitare.

Tra un mucchio di nuove informazioni sugli sforzi di Apple nella Realtà Aumentata, un nuovo documento del reparto di ricerca della visione artificiale della società rivela un metodo per utilizzare immagini panoramiche ad alta gamma dinamica (HDR) a 360 gradi per fornire riflessi e illuminazione specifici della scena per gli oggetti sovrapposti nelle scene di Realtà Aumentata.

Intitolato HDR Environment Map Estimation for Real-Time Augmented Reality, il documento, scritto dagli ingegneri di ricerca della visione artificiale di Apple Gowri Somanath e dal Senior Machine Learning Manager Daniel Kurz, propone la creazione dinamica di ambienti HDR in tempo reale tramite una rete neurale convoluzionale (CNN) in esecuzione in un ambiente di elaborazione mobile. Il risultato è che gli oggetti riflettenti possono letteralmente specchiare ambienti nuovi e non visti su richiesta:

Nel nuovo flusso di lavoro di generazione di oggetti AR di Apple, una pentola a pressione è istanziata dalla fotogrammetria completa del suo ambiente circostante, portando a riflessi convincenti che non sono 'cotti' nel texture. Fonte: https://docs-assets.developer.apple.com/

Nel nuovo flusso di lavoro di generazione di oggetti AR di Apple, una pentola a pressione è istanziata dalla fotogrammetria completa del suo ambiente circostante, portando a riflessi convincenti che non sono ‘cotti’ nel texture. Fonte: https://docs-assets.developer.apple.com/

Il metodo, presentato al CVPR 2021, scatta una foto di tutta la scena e utilizza la EnvMapNet CNN per stimare un’immagine panoramica HDR visivamente completa, anche nota come ‘light probe’.

La mappa risultante identifica forti fonti di luce (contornate alla fine nell’animazione sopra) e le tiene in considerazione nel rendering degli oggetti virtuali.

L'architettura di EnvMapNet, che elabora immagini limitate in full-scene HDR light probes. Fonte: https://arxiv.org/pdf/2011.10687.pdf

L’architettura di EnvMapNet, che elabora immagini limitate in full-scene HDR light probes. Fonte: https://arxiv.org/pdf/2011.10687.pdf

L’algoritmo può essere eseguito in meno di 9ms su un iPhone XS e può rendere oggetti consapevoli delle riflessioni in tempo reale, con un errore direzionale ridotto del 50% rispetto ad approcci precedenti e diversi al problema.

Light Probes

Gli ambienti di illuminazione HDR sono stati un fattore negli effetti visivi fin dall’introduzione delle immagini ad alta gamma dinamica (inventate nel 1986) come forza notevole attraverso gli avanzamenti nella tecnologia informatica negli anni ’90. Chiunque abbia guardato i filmati behind-the-scenes potrebbe aver notato la presenza surreale di tecnici che tengono in mano sfere specchianti su bastoni – immagini di riferimento da incorporare come fattori ambientali quando si ricostruiscono elementi CGI per la scena.

Fonte: https://beforesandafters.com/

Fonte: https://beforesandafters.com/

Tuttavia, l’uso di sfere cromate per reflection mapping textures precede gli anni ’90, risalendo al 1983 con il documento SIGGRAPH Pyramidal Parametrics, che presentava immagini fisse di un robot CGI riflettente in uno stile che sarebbe diventato famoso quasi un decennio dopo attraverso gli effetti ‘liquid metal’ di James Cameron’s Terminator 2: Judgement Day.

HDR Environments In Neural Rendering?

Il rendering neurale offre la possibilità di generare video fotorealistici da input molto sparsi, inclusi mappe di segmentazione grezze.

Intel ISL’s segmentation>image neural rendering (2017). Fonte: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Intel ISL’s segmentation>image neural rendering (2017). Fonte: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

A maggio, i ricercatori di Intel hanno rivelato una nuova iniziativa nella sintesi di immagini neurali dove le riprese del gioco Grand Theft Auto V sono state utilizzate per generare output fotorealistico basato su set di immagini di strade tedesche.

Fonte: https://www.youtube.com/watch?v=0fhUJT21-bs

Fonte: https://www.youtube.com/watch?v=0fhUJT21-bs

La sfida nello sviluppare ambienti di rendering neurale che possono essere adattati a varie condizioni di illuminazione è separare il contenuto dell’oggetto dai fattori ambientali che lo influenzano.

Come si presenta, le riflessioni e gli effetti anisotropici rimangono funzioni del footage originale del set di dati (che li rende inflessibili) o richiedono lo stesso tipo di schema che i ricercatori di Intel hanno impiegato, che genera output semi-fotorealistico da un motore di gioco grezzo, esegue la segmentazione su di esso e applica il trasferimento di stile da un set di dati ‘cotto’ (come il set di immagini stradali Mapillary tedesco utilizzato nella recente ricerca).

In questo rendering neurale (il footage di GTA V è a sinistra), il veicolo in primo piano dimostra riflessi convincenti e addirittura satura il sensore della telecamera virtuale con riflessi dal sole. Ma questo aspetto di illuminazione deriva dal motore di illuminazione del footage di gioco originale, poiché i facet neurali nella scena non hanno strutture di illuminazione autonome e auto-riferite che possano essere cambiate.

In questo rendering neurale derivato dal footage di GTA V (a sinistra), il veicolo in primo piano dimostra riflessi convincenti e addirittura satura il sensore della telecamera virtuale con riflessi dal sole. Ma questo aspetto di illuminazione deriva dal motore di illuminazione del footage di gioco originale, poiché i facet neurali nella scena non hanno strutture di illuminazione autonome e auto-riferite che possano essere cambiate.

Reflectance In NeRF

Le immagini derivate da Neural Radiance Fields (NeRF) sono similmente sfidate. Sebbene la ricerca recente su NeRF abbia fatto passi avanti nella separazione degli elementi che compongono una scena neurale (ad esempio, la collaborazione MIT/Google su NeRFactor), le riflessioni sono rimaste un ostacolo.

L'approccio NeRFactor di MIT e Google separa i normali, la visibilità (ombre), la texture e l'albedo locale, ma non riflette un ambiente più ampio (o in movimento), perché essenzialmente esiste in un vuoto. Fonte: https://arxiv.org/pdf/2106.01970.pdf

L’approccio NeRFactor di MIT e Google separa i normali, la visibilità (ombre), la texture e l’albedo locale, ma non riflette un ambiente più ampio (o in movimento), perché essenzialmente esiste in un vuoto. Fonte: https://arxiv.org/pdf/2106.01970.pdf

NeRF può risolvere questo problema con il tipo di mappatura HDR che Apple sta utilizzando. Ogni pixel in un campo di radianza neurale è calcolato su una traiettoria da una telecamera virtuale fino al punto in cui il ‘raggio’ non può più viaggiare, simile al ray-tracing nella CGI tradizionale. Aggiungere input HDR al calcolo di quel raggio è un metodo potenziale per ottenere riflessi ambientali genuini e rappresenta essenzialmente un analogo dei metodi di rendering ‘global illumination’ o radiosity della CGI, in cui una scena o un oggetto è parzialmente illuminato dalle riflessioni percepite del suo ambiente.

Sebbene sia garantito che una matrice HDR non faccia nulla per alleviare i notevoli oneri computazionali di NeRF, una grande quantità di ricerca in questo campo al momento si concentra sull’indirizzare questo aspetto della pipeline di elaborazione. Inevitabilmente, la riflessione è uno dei molti fattori in attesa di riempire e sfidare quella nuova architettura ottimizzata. Tuttavia, NeRF non può raggiungere il suo pieno potenziale come metodologia di sintesi di immagini e video neurali discrete senza adottare un modo per tenere conto di un ambiente circostante.

Reflectance In Neural Rendering Pipelines

In una versione putativa di HDR abilitata del scenario di rendering neurale Intel GTA V, un singolo HDR non potrebbe ospitare le riflessioni dinamiche che devono essere espresse negli oggetti in movimento. Ad esempio, per vedere il proprio veicolo riflesso nel veicolo davanti mentre si avvicina ai semafori, il veicolo davanti potrebbe avere la sua propia mappa di luce HDR animata, la cui risoluzione si degrada gradualmente man mano che si allontana dal punto di vista dell’utente finale, diventando a bassa risoluzione e meramente rappresentativa mentre si allontana in lontananza – un LOD basato sulla prossimità simile ai delimitatori di ‘draw distance’ nei videogiochi.

Il vero potenziale del lavoro di Apple su illuminazione e mappe di riflessi HDR non è che sia particolarmente innovativo, poiché si basa su lavori precedenti nella sintesi di immagini generali e nello sviluppo di scene AR. Piuttosto, la possibile svolta è rappresentata dal modo in cui le severe limitazioni di calcolo locale si sono combinate con le innovazioni hardware di Apple nel machine learning per produrre mapping HDR leggero e a bassa latenza progettato per funzionare con risorse limitate.

Se questo problema può essere risolto economicamente, l’avvento della sintesi di video fotorealistici tramite segmentazione semantica potrebbe avvicinarsi significativamente.


Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.