Intelligenza artificiale
Adobe: Riaccendendo il Mondo Reale con il Rendering Neurale

I ricercatori di Adobe hanno creato un sistema di rendering neurale per scene indoor del mondo reale in grado di eseguire una riilluminazione sofisticata, offre un’interfaccia in tempo reale e gestisce superfici lucide e riflessi – una sfida notevole per i metodi di sintesi di immagini concorrenti come i Campi di Radiance Neurale (NeRF).

Qui, una scena del mondo reale è stata ricostruita da un certo numero di immagini fisse, rendendo la scena navigabile. La luce può essere aggiunta e cambiata in colore e qualità, mentre le riflessioni rimangono accurate e le superfici lucide esprimono correttamente il cambiamento delle fonti di luce e/o degli stili dell’utente. Fonte: https://www.youtube.com/watch?v=d3ma4opFpgM
Il nuovo sistema consente un controllo di tipo Photoshop, guidato da una GUI, sugli aspetti della luce di una scena 3D reale catturata in uno spazio neurale, comprese ombre e riflessi.

La GUI consente all’utente di aggiungere (e regolare) una fonte di luce a una scena del mondo reale che è stata ricostruita da un numero sparso di foto, e di navigare liberamente attraverso di essa come se fosse una scena CGI-style mesh-based.
Il documento, presentato alle ACM Transactions on Graphics e intitolato Free-viewpoint Indoor Neural Relighting from Multi-view Stereo, è una collaborazione tra Adobe Research e ricercatori dell’Université Côte d’Azur.

Fonte: https://arxiv.org/ftp/arxiv/papers/2106/2106.13299.pdf (clic per vedere la versione a risoluzione completa)
Come per i Campi di Radiance Neurale (NeRF), il sistema utilizza la fotogrammetria (in alto a sinistra), in cui la comprensione di una scena è inferita da un numero limitato di fotografie, e i punti di vista “mancanti” vengono addestrati tramite apprendimento automatico fino a quando non è disponibile un modello completo e completamente astratto della scena per una reinterpretazione ad hoc.
Il sistema è stato addestrato interamente su dati sintetici (CGI), ma i modelli 3D utilizzati sono stati trattati esattamente come se una persona stesse scattando diverse fotografie limitate di una scena reale per l’interpretazione neurale. L’immagine sopra mostra una scena sintetica riilluminata, ma la “veduta della camera da letto” nell’immagine superiore (animata) è derivata da foto reali scattate in una stanza reale.
La rappresentazione implicita della scena viene ottenuta dal materiale di origine tramite una Rete Neurale Convoluzionale (CNN), e suddivisa in diversi strati, tra cui riflettanza, irradiazione della fonte (radiosità/illuminazione globale) e albedo.

L’architettura del sistema di riilluminazione di Adobe. Il set di dati multi-vista viene pre-elaborato e la geometria della mesh 3D viene generata dai dati di input. Quando deve essere aggiunta una nuova luce, l’irradiazione viene calcolata in tempo reale e la vista riilluminata viene sintetizzata. (clic per vedere la versione a risoluzione completa)
L’algoritmo combina aspetti della tracciatura dei raggi tradizionale (Monte Carlo) e della rendering basata su immagini (IBR, rendering neurale).
Sebbene una notevole quantità di ricerche recenti sui Campi di Radiance Neurale sia stata concentrata sull’estrazione della geometria 3D da immagini piatte, l’offerta di Adobe è la prima volta che una riilluminazione altamente sofisticata è stata dimostrata tramite questo metodo.
L’algoritmo affronta anche un’altra limitazione tradizionale di NeRF e approcci simili, calcolando una mappa di riflessione completa, in cui ogni parte dell’immagine viene assegnata un materiale riflettente al 100%.

Le texture specchiate tracciano i percorsi della luce. (clic per vedere la versione a risoluzione completa)
Con questa mappa di riflessione integrale in atto, è possibile “ridurre” la riflessione per adattarsi a vari livelli di riflessione in diversi tipi di materiali come legno, metallo e pietra. La mappa di riflessione (sopra) fornisce anche un modello completo per la mappatura dei raggi, che può essere riutilizzato per scopi di regolazione della luce diffusa.

Altri strati nel sistema di rendering neurale di Adobe. (clic per vedere la versione a risoluzione completa)
La cattura iniziale della scena utilizza 250-350 foto RAW da cui una mesh viene calcolata tramite Multi-View Stereo. I dati vengono riassunti in mappe di caratteristiche di input 2D che vengono quindi ri-proiettate nella vista nuova. I cambiamenti nella luce vengono calcolati mediando i livelli diffusi e lucidi della scena catturata.
Il livello a immagine speculare viene generato tramite un calcolo rapido di un singolo raggio speculare (un rimbalzo), che stima i valori originali della fonte e quindi i valori di destinazione. Le mappe che contengono informazioni sulla luce originale della scena vengono archiviate nei dati neurali, simile a come le mappe di radiosità vengono spesso archiviate con i dati della scena CGI tradizionale.
Risolvendo le Riflessioni del Rendering Neurale
Forse il principale risultato di questo lavoro è la decoupling delle informazioni di riflessione dai livelli diffusi e altri nella scena. Il tempo di calcolo viene mantenuto basso assicurando che le viste “abilitate alla riflessione” in tempo reale, come gli specchi, vengano calcolate solo per la vista attiva dell’utente, anziché per l’intera scena.
I ricercatori affermano che questo lavoro rappresenta la prima volta che le capacità di riilluminazione sono state abbinate alle capacità di navigazione a vista libera in un unico framework per scene che devono riprodurre superfici riflettenti realisticamente.
Sono stati fatti alcuni sacrifici per raggiungere questa funzionalità e i ricercatori ammettono che i metodi precedenti che utilizzano mesh per vista più complesse dimostrano una geometria migliorata per oggetti piccoli. Le direzioni future per l’approccio di Adobe includeranno l’uso della geometria per vista per migliorare questo aspetto.










