Intelligenza Artificiale
Riaccendere i campi di radianza neurale con qualsiasi mappa ambientale
A nuovo documento del Max Planck Institute e del MIT ha proposto una tecnica per ottenere il vero sbrogliamento dei campi di radianza neurale (NeRF) contenuto dall'illuminazione che era presente quando i dati sono stati raccolti, permettendo ad hoc mappe ambientali per disattivare completamente l'illuminazione in una scena NeRF:
Il nuovo approccio utilizza il popolare programma di animazione 3D open source Blender per creare un "palcoscenico di luce virtuale", in cui numerose iterazioni di possibili scenari di illuminazione vengono renderizzati ed eventualmente addestrati in uno strato speciale nel modello NeRF che può ospitare qualsiasi mappa ambientale che il l'utente desidera utilizzare per illuminare la scena.
L'approccio è stato testato contro il Mitsuba2 quadro di rendering inverso, e anche rispetto a lavori precedenti PhySG, RNR, PIL neurale ed NeRFactor, impiegando solo un modello di illuminazione diretta, e ha ottenuto i punteggi migliori:
Il documento afferma:
"I nostri risultati qualitativi e quantitativi dimostrano un chiaro passo avanti in termini di recupero dei parametri della scena, nonché la qualità di sintesi del nostro approccio con nuove viste e condizioni di illuminazione rispetto al precedente stato dell'arte."
I ricercatori affermano che alla fine rilasceranno il codice per il progetto.
La necessità di modificabilità NeRF
Questo tipo di districamento si è rivelato una sfida notevole per i ricercatori nei campi di radianza neurale, poiché NeRF è essenzialmente una tecnica di fotogrammetria che calcola il valore in pixel di migliaia di possibili percorsi da un punto di vista, assegnando valori RGBD e assemblando una matrice di questi valori in un rappresentazione volumetrica. Fondamentalmente, NeRF è definito dall'illuminazione.
Infatti, nonostante la sua grafica impressionante e la sontuosa adozione da parte di NVIDIA, NeRF è notevolmente "rigido" - in termini CGI, "cotto". Pertanto la comunità di ricerca si è concentrata sul miglioramento della sua trattabilità e versatilità in questo senso negli ultimi 12-18 mesi.
In termini di importanza, la posta in gioco per questo tipo di traguardo è alta e include la possibilità di trasformare l'industria degli effetti visivi da un modello creativo e collaborativo incentrato sulla generazione di mesh, dinamiche di movimento e texturing, a un modello costruito attorno resa inversa, dove la pipeline VFX è alimentata da foto del mondo reale di cose reali (o anche, plausibilmente, di modelli reali e sintetizzati), piuttosto che approssimazioni artigianali stimate.
Per ora, ci sono relativamente pochi motivi di preoccupazione nella comunità degli effetti visivi, almeno da Neural Radiance Fields. NeRF ha solo abilità nascenti in termini di rigging, annidamento, controllo della profondità, articolazione…e sicuramente anche per quanto riguarda illuminazione. video di accompagnamento per un altro nuova cartar, che offre deformazioni rudimentali per la geometria NeRF, illustra l'enorme divario tra l'attuale stato dell'arte in CGI e gli sforzi seminali delle tecniche di rendering neurale.
Setacciare gli elementi
Tuttavia, poiché da qualche parte è necessario partire, i ricercatori del nuovo articolo hanno adottato la CGI come meccanismo intermedio di controllo e produzione, ormai un approccio comune verso i rigidi spazi latenti dei GAN e le reti quasi impenetrabili e lineari dei NeRF.
In effetti, la sfida centrale è il calcolo illuminazione globale (GI, che non ha applicabilità diretta nel rendering neurale) in un equivalente Trasferimento radianza precalcolato (PRT, che può essere adattato al rendering neurale).
GI è una tecnica di rendering CGI ormai venerabile che modella il modo in cui la luce rimbalza sulle superfici e su altre superfici e incorpora queste aree di luce riflessa in un rendering, per un maggiore realismo.
Il PRT viene utilizzato come funzione di illuminazione intermedia nel nuovo approccio e il fatto che sia un componente discreto e modificabile è ciò che consente di districare. Il nuovo metodo modella il materiale dell'oggetto NeRF con un PRT appreso.
L'effettiva illuminazione della scena dei dati originali viene recuperata come mappa ambientale nel processo e la geometria stessa della scena viene estratta come un campo di distanza con segno (SDF) che alla fine fornirà una mesh tradizionale su cui Blender potrà operare nella fase di luce virtuale.
La prima fase del processo consiste nell'estrarre la geometria della scena dalle immagini a vista multipla disponibili attraverso la ricostruzione implicita della superficie, tramite tecniche utilizzate nel 2021 Ricerca NeuS collaborazione.
Al fine di sviluppare un campo di trasferimento della radianza neurale (NRTF, che ospiterà i dati di illuminazione), i ricercatori hanno utilizzato il tracciante del percorso differenziabile Mitsuba 2.
Ciò facilita l'ottimizzazione congiunta di una funzione di distribuzione dello scattering bidirezionale (BSDF), nonché la generazione di una mappa ambientale iniziale. Una volta creato il BSDF, il tracciatore del percorso può essere utilizzato in Blender (vedere il video incorporato direttamente sopra) per creare rendering di scene OLAT (one-light-at-a-time) virtuali.
L'NRTF viene quindi addestrato con una perdita combinata tra effetti materiali fotorealistici e dati sintetici, che non sono intrecciati tra loro.
La strada per l'illuminazione
I requisiti di addestramento per questa tecnica, sebbene notevolmente inferiori ai tempi di addestramento NeRF originali, non sono insignificanti. Su un NVIDIA QuadroRTX 8000 con 48 GB di VRAM, l'addestramento preliminare per la stima iniziale di luce e consistenza richiede 30 minuti; La formazione OLAT (ovvero la formazione delle catture virtuali del palcoscenico luminoso) dura otto ore; e l'ottimizzazione congiunta finale tra i dati sintetici e reali districati richiede altre 16 ore per raggiungere una qualità ottimale.
Inoltre, la rappresentazione neurale risultante non può essere eseguita in tempo reale, impiegando, secondo i ricercatori, "diversi secondi per fotogramma".
I ricercatori concludono:
"I nostri risultati dimostrano un netto miglioramento rispetto all'attuale stato dell'arte, mentre il lavoro futuro potrebbe comportare un ulteriore miglioramento del tempo di esecuzione e un ragionamento congiunto di geometria, materiale e illuminazione della scena."
Pubblicato per la prima volta l'28 luglio 2022.