Intelligenza Artificiale
Adobe: riaccendere il mondo reale con il rendering neurale

I ricercatori di Adobe hanno creato un sistema di rendering neurale per scene di interni reali, in grado di effettuare sofisticate operazioni di reilluminazione, offre un'interfaccia in tempo reale e gestisce superfici lucide e riflessi: una sfida notevole per i metodi di sintesi delle immagini concorrenti, come Neural Radiance Fields (NeRF).

Qui, una scena del mondo reale è stata ricostruita a partire da una serie di immagini fisse, rendendola navigabile. L'illuminazione può essere aggiunta e modificata in termini di colore e qualità, mentre i riflessi rimangono fedeli e le superfici lucide esprimono correttamente le modifiche apportate dall'utente alle fonti di illuminazione e/o agli stili. Fonte: https://www.youtube.com/watch?v=d3ma4opFpgM
Il nuovo sistema consente un controllo basato su GUI, in stile Photoshop, sugli aspetti di illuminazione di una scena 3D reale catturata in uno spazio neurale, comprese ombre e riflessi.

La GUI consente a un utente di aggiungere (e regolare) una fonte di illuminazione a una scena del mondo reale che è stata ricostruita da un numero limitato di foto e di navigare liberamente attraverso di essa come se fosse uno scenario basato su mesh in stile CGI.
Migliori carta, presentato ad ACM Transactions on Graphics e intitolato Reilluminazione neurale per interni con punto di vista libero da Stereo multivista, è una collaborazione tra Adobe Research e ricercatori dell'Université Côte d'Azur.

Fonte: https://arxiv.org/ftp/arxiv/papers/2106/2106.13299.pdf (clicca per vedere la versione a piena risoluzione)
Come con i campi di radianza neurale (NeRF), il sistema utilizza la fotogrammetria (in alto a sinistra), in cui la comprensione di una scena viene dedotta da un numero limitato di fotografie e i punti di vista "mancanti" vengono addestrati tramite apprendimento automatico fino a quando non è disponibile un modello completo e completamente astratto della scena per una reinterpretazione ad hoc.
Il sistema è stato addestrato interamente su dati sintetici (CGI), ma i modelli 3D utilizzati sono stati trattati esattamente come accadrebbe se una persona scattasse diverse fotografie limitate di una scena reale per l'interpretazione neurale. L'immagine sopra mostra una scena sintetica che viene rifatta, ma la vista della "camera da letto" nell'immagine animata più in alto è derivata da foto reali scattate in una stanza reale.
La rappresentazione implicita della scena è ottenuta dal materiale sorgente tramite una rete neurale convoluzionale (CNN) e divisa in diversi strati, tra cui riflettanza, irradianza della sorgente (radiosità/illuminazione globale) e albedo.

L'architettura del sistema di illuminazione Adobe. Il set di dati multivista viene preelaborato e la geometria della mesh 3D viene generata dai dati di input. Quando deve essere aggiunta una nuova luce, l'irraggiamento viene calcolato in tempo reale e la vista riaccesa sintetizzata. (clicca per vedere la versione ad alta risoluzione)
L'algoritmo combina le sfaccettature del tradizionale ray tracing (Monte Carlo) e del rendering basato su immagini (IBR, rendering neurale).
Sebbene una notevole quantità di ricerche recenti sui campi di radianza neurale abbia riguardato l'estrazione della geometria 3D da immagini piatte, l'offerta di Adobe è la prima in cui è stata dimostrata una riilluminazione altamente sofisticata tramite questo metodo.
L'algoritmo affronta anche un'altra limitazione tradizionale di NeRF e approcci simili, calcolando una mappa di riflessione completa, in cui a ogni singola parte dell'immagine viene assegnato un materiale riflettente al 100%.

Le texture specchiate delineano i percorsi di illuminazione. (clicca per vedere la versione ad alta risoluzione)
Con questa mappa di riflettività integrata, è possibile "ridurre" la riflettività per adattarsi a diversi livelli di riflessione in diversi tipi di materiali come legno, metallo e pietra. La mappa di riflettività (sopra) fornisce anche un modello completo per la mappatura dei raggi, che può essere riutilizzato per regolare l'illuminazione diffusa.

Altri livelli nel sistema di rendering neurale Adobe. (clicca per vedere la versione ad alta risoluzione)
L'acquisizione iniziale della scena utilizza 250-350 foto RAW da cui viene calcolata una mesh tramite Multi-View Stereo. I dati vengono riassunti in mappe delle caratteristiche di input 2D che vengono quindi riproiettate nella nuova vista. I cambiamenti nell'illuminazione vengono calcolati calcolando la media degli strati diffusi e lucidi della scena catturata.
Il livello dell'immagine speculare viene generato tramite un rapido calcolo speculare a raggio singolo (un rimbalzo), che stima i valori della sorgente originale e quindi i valori target. Le mappe che contengono informazioni sull'illuminazione originale della scena vengono memorizzate nei dati neurali, in modo simile a come le mappe di radiosità vengono spesso memorizzate con i dati di scena CGI tradizionali.
Risoluzione dei riflessi di rendering neurale
Forse il risultato principale del lavoro è il disaccoppiamento delle informazioni sulla riflettanza dai livelli diffusi e da altri livelli nei dati. I tempi di calcolo vengono ridotti assicurando che le viste abilitate alla "riflettanza" in tempo reale, come gli specchi, vengano calcolate solo per la vista attiva dell'utente, anziché per l'intera scena.
I ricercatori affermano che questo lavoro rappresenta la prima volta che le capacità di riilluminazione sono state abbinate alle capacità di navigazione a vista libera in un unico quadro per scene che devono riprodurre realisticamente le superfici riflettenti.
Sono stati fatti alcuni sacrifici per ottenere questa funzionalità e i ricercatori ammettono che i metodi precedenti che utilizzano mesh per vista più complesse dimostrano una geometria migliorata per piccoli oggetti. Le direzioni future per l'approccio Adobe includeranno l'uso della geometria per vista per migliorare questo aspetto.










