Intelligenza Artificiale

Gli ambienti di realtà aumentata HDR di Apple possono risolvere i riflessi per il rendering neurale?

aggiornato on Dicembre 9, 2022

Il vigoroso investimento a lungo termine di Apple nelle tecnologie di Realtà Aumentata sta accelerando quest'anno, con una nuova serie di strumenti per sviluppatori per catturare e convertire oggetti del mondo reale in sfaccettature AR e a crescente convinzione del settore che gli occhiali AR dedicati stanno arrivando per supportare le esperienze coinvolgenti che questa bufera di ricerca e sviluppo può consentire.

Tra una serie di nuove informazioni sugli sforzi di Apple nella Realtà Aumentata, a nuovo documento dalla divisione di ricerca sulla visione artificiale dell'azienda rivela un metodo per utilizzare immagini panoramiche ad alta gamma dinamica (HDR) a 360 gradi per fornire riflessi e illuminazione specifici della scena per oggetti che vengono sovrapposti a scene di realtà aumentata.

Intitolata Stima della mappa dell'ambiente HDR per la realtà aumentata in tempo reale, l'articolo, scritto da Gowri Somanath, ingegnere ricercatore di Apple Computer Vision, e Daniel Kurz, Senior Machine Learning Manager, propone la creazione dinamica di ambienti HDR in tempo reale tramite una rete neurale convoluzionale (CNN) in esecuzione in un ambiente di elaborazione mobile. Il risultato è che gli oggetti riflettenti possono letteralmente rispecchiare ambienti nuovi e invisibili su richiesta:

Nel nuovo flusso di lavoro di generazione di oggetti AR di Apple, una pentola a pressione viene istanziata dalla fotogrammetria completa del suo ambiente ambientale, portando a riflessi convincenti che non sono "cotti" nella trama. Fonte: https://docs-assets.developer.apple.com/

Il metodo, debuttato al CVPR 2021, scatta un'istantanea dell'intera scena e utilizza il EnvMapNet CNN per stimare un'immagine HDR panoramica visivamente completa, nota anche come "sonda luminosa".

La mappa risultante identifica forti fonti di luce (delineate alla fine nell'animazione sopra) e ne tiene conto nel rendering degli oggetti virtuali.

L'architettura di EnvMapNet, che elabora immagini limitate in sonde luminose HDR a scena intera. Fonte: https://arxiv.org/pdf/2011.10687.pdf

L'algoritmo può essere eseguito in meno di 9 ms su un iPhone XS ed è in grado di eseguire il rendering di oggetti sensibili alla riflessione in tempo reale, con un errore direzionale ridotto del 50% rispetto ai precedenti e diversi approcci al problema.

Sonde luminose

Gli ambienti di illuminazione HDR sono stati un fattore negli effetti visivi da quando le immagini ad alta gamma dinamica (inventate nel 1986) sono diventate una forza notevole grazie ai progressi della tecnologia informatica negli anni '1990. Chiunque guardi i filmati dietro le quinte potrebbe aver notato la surreale presenza sul set di tecnici che reggono palloni specchiati su bastoncini: immagini di riferimento da incorporare come fattori ambientali durante la ricostruzione degli elementi CGI per la scena.

Fonte: https://beforesandafters.com/

Tuttavia, utilizzando sfere cromate per mappatura di riflessione textures precede gli anni '1990, risalendo alla carta SIGGRAPH del 1983 Parametrici piramidali, che presentava immagini fisse di un robot CGI riflettente in uno stile che sarebbe diventato famoso quasi un decennio dopo grazie agli effetti di "metallo liquido" di James Cameron Terminator 2: Judgment Day.

Ambienti HDR nel rendering neurale?

Il rendering neurale offre la possibilità di generare video fotorealistici da input molto scarsi, comprese mappe di segmentazione grezze.

Segmentazione di Intel ISL> rendering neurale dell'immagine (2017). Fonte: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

A maggio, i ricercatori Intel rivelato una nuova iniziativa nella sintesi di immagini neurali in cui le riprese di Grand Theft Auto V sono state utilizzate per generare output fotorealistici basati su set di dati di immagini di strada tedesche.

Fonte: https://www.youtube.com/watch?v=0fhUJT21-bs

La sfida nello sviluppo di ambienti di rendering neurale che possono essere adattati a varie condizioni di illuminazione è separare il contenuto dell'oggetto dai fattori ambientali che lo influenzano.

Allo stato attuale, i riflessi e gli effetti anisotropi rimangono funzioni del metraggio del set di dati originale (che li rende poco flessibili) o richiedono lo stesso tipo di schema impiegato dai ricercatori Intel, che genera un output semi-fotorealistico da un motore grezzo (di gioco), esegue la segmentazione su di esso e quindi applica il trasferimento di stile da un set di dati "cotto" (come il set di viste stradali di Mapillary tedesco utilizzato nella recente ricerca).

In questo rendering neurale (il filmato di GTA V è a sinistra), il veicolo davanti mostra un bagliore convincente e satura persino il sensore della telecamera virtuale fittizia con i riflessi del sole. Ma questo aspetto dell'illuminazione è derivato dal filmato originale del gioco, poiché le sfaccettature neurali nella scena non hanno strutture di illuminazione autonome e autoreferenziali che possono essere modificate.

In questo rendering neurale derivato dal filmato di GTA V (a sinistra), il veicolo davanti mostra un bagliore convincente e satura persino il sensore della telecamera virtuale fittizia con i riflessi del sole. Ma questo aspetto dell'illuminazione è derivato dal motore di illuminazione del filmato originale del gioco, poiché le sfaccettature neurali nella scena non hanno strutture di illuminazione autonome e autoreferenziali che possono essere modificate.

Riflettanza in NeRF

Immagini derivate da Campi di radianza neurale (NeRF) è contestato allo stesso modo. Sebbene la recente ricerca su NeRF abbia fatto passi da gigante nel separare gli elementi che vanno a creare una scena neurale (ad esempio, il MIT/Google collaborazione su NeRFactor), le riflessioni sono rimaste un ostacolo.

L'approccio del MIT e di Google NeRFactor separa le normali, la visibilità (ombre), la trama e l'albedo locale, ma non riflette un ambiente, perché esiste nel vuoto. Fonte: https://arxiv.org/pdf/2106.01970.pdf

L'approccio del MIT e di Google NeRFactor separa le normali, la visibilità (ombre), la trama e l'albedo locale, ma non riflette un ambiente più ampio (o in movimento), perché esiste essenzialmente nel vuoto. Fonte: https://arxiv.org/pdf/2106.01970.pdf

NeRF può risolvere questo problema con lo stesso tipo di mappatura HDR utilizzata da Apple. Ogni pixel in un campo di radianza neurale viene calcolato su una traiettoria da una telecamera virtuale fino al punto in cui il "raggio" non può viaggiare oltre, in modo simile al ray-tracing nel CGI tradizionale. L'aggiunta di input HDR al calcolo di quel raggio è un potenziale metodo per ottenere un'autentica riflettanza ambientale ed è in effetti un analogo ai metodi di "illuminazione globale" o radiosità di CGI, in cui una scena o un oggetto è parzialmente illuminato dai propri riflessi percepiti ambiente.

Sebbene sia garantito che una matrice HDR non farà nulla per alleviare i notevoli oneri computazionali di NeRF, una grande quantità di riparazioni in questo campo al momento si sta concentrando sull'affrontare questo aspetto della pipeline di elaborazione. Inevitabilmente, la riflettanza è uno dei tanti fattori in attesa dietro le quinte per riempire nuovamente e sfidare quell'architettura appena ottimizzata. Tuttavia, NeRF non può raggiungere il suo pieno potenziale come metodologia di sintesi di immagini e video neurali discreti senza adottare un modo per tenere conto dell'ambiente circostante.

Riflettanza nelle pipeline di rendering neurale

In una presunta versione abilitata per l'HDR dello scenario di rendering neurale di Intel GTA V, un singolo HDR non potrebbe accogliere i riflessi dinamici che devono essere espressi negli oggetti in movimento. Ad esempio, per vedere il proprio veicolo riflesso nel veicolo che precede mentre si avvicina al semaforo, l'entità del veicolo davanti potrebbe avere la propria sonda luminosa HDR animata, la cui risoluzione si degraderebbe in modo incrementale man mano che si allontana dalla fine punto di vista dell'utente, per diventare a bassa risoluzione e semplicemente rappresentativo mentre si allontana in lontananza: un LOD basato sulla prossimità simile ai delimitatori di "distanza di visualizzazione" nei videogiochi.

Il vero potenziale del lavoro di Apple nelle mappe di illuminazione e riflessione HDR non è che sia particolarmente innovativo, poiché si basa su lavori precedenti nella sintesi generale delle immagini e nella Sviluppo della scena AR. Piuttosto, la possibile svolta è rappresentata dal modo in cui i severi limiti di elaborazione locale si sono combinati con le innovazioni hardware di apprendimento automatico della serie M di Apple per produrre mappature HDR leggere e a bassa latenza progettate per funzionare con risorse limitate.

Se questo problema può essere risolto economicamente, l'avvento della segmentazione semantica>sintesi video fotorealistica potrebbe avvicinarsi notevolmente.