mozzicone Riaccendere i campi di radianza neurale con qualsiasi mappa ambientale - Unite.AI
Seguici sui social

Intelligenza Artificiale

Riaccendere i campi di radianza neurale con qualsiasi mappa ambientale

mm
aggiornato on

A nuovo documento del Max Planck Institute e del MIT ha proposto una tecnica per ottenere il vero sbrogliamento dei campi di radianza neurale (NeRF) contenuto dall'illuminazione che era presente quando i dati sono stati raccolti, permettendo ad hoc mappe ambientali per disattivare completamente l'illuminazione in una scena NeRF:

La nuova tecnica applicata ai dati reali. È interessante notare che il metodo funziona anche su dati archiviati di questo tipo, che non hanno tenuto conto della nuova pipeline quando i dati sono stati acquisiti. Nonostante ciò, si ottiene un controllo dell'illuminazione realistico e specificato dall'utente Fonte: https://arxiv.org/pdf/2207.13607.pdf

La nuova tecnica applicata a dati reali. È interessante notare che il metodo funziona anche su dati archiviati di questo tipo, che non hanno tenuto conto della nuova pipeline quando i dati sono stati acquisiti. Nonostante ciò, si ottiene un controllo dell'illuminazione realistico e specificato dall'utente. Fonte: https://arxiv.org/pdf/2207.13607.pdf

Il nuovo approccio utilizza il popolare programma di animazione 3D open source Blender per creare un "palcoscenico di luce virtuale", in cui numerose iterazioni di possibili scenari di illuminazione vengono renderizzati ed eventualmente addestrati in uno strato speciale nel modello NeRF che può ospitare qualsiasi mappa ambientale che il l'utente desidera utilizzare per illuminare la scena.

Una rappresentazione della parte della pipeline che sfrutta Blender per creare viste di palcoscenico virtuali della geometria estratta. Metodi precedenti che seguono linee simili hanno utilizzato stadi di luce reali per fornire questi dati, che è un requisito gravoso per oggetti discreti e impossibile per le viste dell'ambiente esterno. In alto a sinistra delle due immagini più a destra, possiamo vedere le mappe ambientali che determinano l'illuminazione della scena. Questi possono essere creati arbitrariamente dall'utente finale, avvicinando NeRF alla flessibilità di un moderno approccio CGI.

Una rappresentazione della parte della pipeline che sfrutta Blender per creare viste di palcoscenico virtuali della geometria estratta. Metodi precedenti che seguono linee simili hanno utilizzato stadi di luce reali per fornire questi dati, che è un requisito gravoso per oggetti discreti e impossibile per le viste dell'ambiente esterno. In alto a sinistra delle due immagini più a destra, possiamo vedere le mappe ambientali che determinano l'illuminazione della scena. Questi possono essere creati arbitrariamente dall'utente finale, avvicinando NeRF alla flessibilità di un moderno approccio CGI.

L'approccio è stato testato contro il Mitsuba2 quadro di rendering inverso, e anche rispetto a lavori precedenti PhySG, RNR, PIL neurale ed NeRFactor, impiegando solo un modello di illuminazione diretta, e ha ottenuto i punteggi migliori:

Risultati della nuova tecnica, confrontati con approcci comparabili sotto una varietà di funzioni di perdita. I ricercatori affermano che il loro approccio produce i metodi di altissima qualità, con i risultati valutati attraverso il Peak Signal-to-noise Ratio (PSNR), la Structural Similarity Index Measure (SSIM) e l'efficace se eccentrica Learned Perceptual Image Patch Similarity (LPIPS) .

Risultati della nuova tecnica, confrontati con approcci comparabili sotto una varietà di funzioni di perdita. I ricercatori affermano che il loro approccio produce i metodi di altissima qualità, con i risultati valutati attraverso il Peak Signal-to-noise Ratio (PSNR), la Structural Similarity Index Measure (SSIM) e l'efficace se eccentrica Learned Perceptual Image Patch Similarity (LPIPS) .

Il documento afferma:

"I nostri risultati qualitativi e quantitativi dimostrano un chiaro passo avanti in termini di recupero dei parametri della scena, nonché la qualità di sintesi del nostro approccio con nuove viste e condizioni di illuminazione rispetto al precedente stato dell'arte."

I ricercatori affermano che alla fine rilasceranno il codice per il progetto.

La necessità di modificabilità NeRF

Questo tipo di districamento si è rivelato una sfida notevole per i ricercatori nei campi di radianza neurale, poiché NeRF è essenzialmente una tecnica di fotogrammetria che calcola il valore in pixel di migliaia di possibili percorsi da un punto di vista, assegnando valori RGBD e assemblando una matrice di questi valori in un rappresentazione volumetrica. Fondamentalmente, NeRF è definito dall'illuminazione.

Infatti, nonostante la sua grafica impressionante e la sontuosa adozione da parte di NVIDIA, NeRF è notevolmente "rigido" - in termini CGI, "cotto". Pertanto la comunità di ricerca si è concentrata sul miglioramento della sua trattabilità e versatilità in questo senso negli ultimi 12-18 mesi.

In termini di importanza, la posta in gioco per questo tipo di traguardo è alta e include la possibilità di trasformare l'industria degli effetti visivi da un modello creativo e collaborativo incentrato sulla generazione di mesh, dinamiche di movimento e texturing, a un modello costruito attorno resa inversa, dove la pipeline VFX è alimentata da foto del mondo reale di cose reali (o anche, plausibilmente, di modelli reali e sintetizzati), piuttosto che approssimazioni artigianali stimate.

Per ora, ci sono relativamente pochi motivi di preoccupazione nella comunità degli effetti visivi, almeno da Neural Radiance Fields. NeRF ha solo abilità nascenti in termini di rigging, annidamento, controllo della profondità, articolazione…e sicuramente anche per quanto riguarda illuminazione. video di accompagnamento per un altro nuova cartar, che offre deformazioni rudimentali per la geometria NeRF, illustra l'enorme divario tra l'attuale stato dell'arte in CGI e gli sforzi seminali delle tecniche di rendering neurale.

Setacciare gli elementi

Tuttavia, poiché da qualche parte è necessario partire, i ricercatori del nuovo articolo hanno adottato la CGI come meccanismo intermedio di controllo e produzione, ormai un approccio comune verso i rigidi spazi latenti dei GAN e le reti quasi impenetrabili e lineari dei NeRF.

In effetti, la sfida centrale è il calcolo illuminazione globale (GI, che non ha applicabilità diretta nel rendering neurale) in un equivalente Trasferimento radianza precalcolato (PRT, che può essere adattato al rendering neurale).

GI è una tecnica di rendering CGI ormai venerabile che modella il modo in cui la luce rimbalza sulle superfici e su altre superfici e incorpora queste aree di luce riflessa in un rendering, per un maggiore realismo.

Illuminazione globale dinamica diffusa Parte I Esempio di immagine

Il PRT viene utilizzato come funzione di illuminazione intermedia nel nuovo approccio e il fatto che sia un componente discreto e modificabile è ciò che consente di districare. Il nuovo metodo modella il materiale dell'oggetto NeRF con un PRT appreso.

Trasferimento di Radianza Precalcolato Locale, Deformabile

L'effettiva illuminazione della scena dei dati originali viene recuperata come mappa ambientale nel processo e la geometria stessa della scena viene estratta come un campo di distanza con segno (SDF) che alla fine fornirà una mesh tradizionale su cui Blender potrà operare nella fase di luce virtuale.

Una panoramica della pipeline per la nuova tecnica.

Una panoramica della pipeline per la nuova tecnica.

La prima fase del processo consiste nell'estrarre la geometria della scena dalle immagini a vista multipla disponibili attraverso la ricostruzione implicita della superficie, tramite tecniche utilizzate nel 2021 Ricerca NeuS collaborazione.

Al fine di sviluppare un campo di trasferimento della radianza neurale (NRTF, che ospiterà i dati di illuminazione), i ricercatori hanno utilizzato il tracciante del percorso differenziabile Mitsuba 2.

Mitsuba Renderer - Guida introduttiva

Ciò facilita l'ottimizzazione congiunta di una funzione di distribuzione dello scattering bidirezionale (BSDF), nonché la generazione di una mappa ambientale iniziale. Una volta creato il BSDF, il tracciatore del percorso può essere utilizzato in Blender (vedere il video incorporato direttamente sopra) per creare rendering di scene OLAT (one-light-at-a-time) virtuali.

L'NRTF viene quindi addestrato con una perdita combinata tra effetti materiali fotorealistici e dati sintetici, che non sono intrecciati tra loro.

Un confronto con il predecessore NeRFactor, sulle sfide della sintesi e della riaccensione di nuove viste.

Un confronto con il predecessore NeRFactor, sulle sfide della sintesi e della riaccensione di nuove viste.

La strada per l'illuminazione

I requisiti di addestramento per questa tecnica, sebbene notevolmente inferiori ai tempi di addestramento NeRF originali, non sono insignificanti. Su un NVIDIA QuadroRTX 8000 con 48 GB di VRAM, l'addestramento preliminare per la stima iniziale di luce e consistenza richiede 30 minuti; La formazione OLAT (ovvero la formazione delle catture virtuali del palcoscenico luminoso) dura otto ore; e l'ottimizzazione congiunta finale tra i dati sintetici e reali districati richiede altre 16 ore per raggiungere una qualità ottimale.

Inoltre, la rappresentazione neurale risultante non può essere eseguita in tempo reale, impiegando, secondo i ricercatori, "diversi secondi per fotogramma".

I ricercatori concludono:

"I nostri risultati dimostrano un netto miglioramento rispetto all'attuale stato dell'arte, mentre il lavoro futuro potrebbe comportare un ulteriore miglioramento del tempo di esecuzione e un ragionamento congiunto di geometria, materiale e illuminazione della scena."

 

Pubblicato per la prima volta l'28 luglio 2022.