Intelligenza artificiale
Il Nuovo CGI: Creare Quartieri Neurali Con Block-NeRF

I Campi di Radiance Neurale (NeRF) consentono di ricreare e esplorare oggetti all’interno di reti neurali utilizzando solo fotografie da più punti di vista come input, senza la complessità e la spesa dei metodi CGI tradizionali.
Tuttavia, il processo è computazionalmente costoso, il che inizialmente ha limitato gli ambienti NeRF a scenari di modelli da tavolo. Ciò nonostante, NeRF è stato adottato da una comunità di ricerca dedicata, anche frenetica, che nell’ultimo anno ha abilitato la ricostruzione esterna nonché esseri umani neurali modificabili, oltre a molte altre innovazioni.
Ora una nuova iniziativa di ricerca, che include la partecipazione di Google Research, riconosce i possibili limiti rigidi nell’ottimizzazione di NeRF e si concentra invece sull’unione di ambienti NeRF per creare quartieri su richiesta composti da più istanze NeRF coordinate.

Punto di vista da una rete Block-NeRF di NeRF collegati. Vedi il video incorporato alla fine dell’articolo, e anche il collegamento alla fonte per video supplementari a risoluzione completa. Fonte: https://waymo.com/research/block-nerf/
Navigare nella rete di NeRF collegati rende NeRF scalabile e modulare, fornendo ambienti navigabili che caricano parti aggiuntive del quartiere come necessario, in un modo simile ai metodi di ottimizzazione delle risorse dei videogiochi, dove ciò che si trova dietro l’angolo raramente viene caricato fino a quando non diventa chiaro che l’ambiente sarà necessario.
In un grande sforzo per disentanglement aspetti separati come il tempo e l’ora, Block-NeRF introduce anche ‘codici di aspetto’, rendendo possibile cambiare dinamicamente l’ora del giorno:


Cambiare l’ora del giorno con Block-NeRF. Vedi il video incorporato alla fine dell’articolo, e anche il collegamento alla fonte per video supplementari a risoluzione completa. Fonte: https://waymo.com/research/block-nerf/
Il nuovo articolo suggerisce che l’ottimizzazione di NeRF si sta avvicinando al suo limite termico e che i futuri dispiegamenti di ambienti di radiance neurale in realtà virtuale, altri tipi di sfere interattive e lavoro VFX, dipenderanno probabilmente da operazioni parallele, simili a come la legge di Moore alla fine ha ceduto il passo ad architetture multi-core, ottimizzazioni parallele e nuovi approcci alla memorizzazione nella cache.
Gli autori dell’articolo (intitolato Block-NeRF: Sintesi di Vista Neurale di Scena Grande Scalabile) hanno utilizzato 2,8 milioni di immagini per creare la scena neurale più grande mai tentata – una serie di quartieri a San Francisco.

Block-NeRF naviga la Cattedrale di Grace a San Francisco. Vedi il video incorporato alla fine dell’articolo, e anche il collegamento alla fonte per video supplementari a risoluzione completa. Fonte: https://waymo.com/research/block-nerf/
L’autore principale dell’articolo, che rappresenta UC Berkley, è Matthew Tancik, il co-inventore dei Campi di Radiance Neurale, che ha svolto il lavoro durante un internship presso l’azienda di sviluppo di tecnologia di guida autonoma Waymo, ospite della pagina del progetto. L’iniziativa offre anche una panoramica video su YouTube, incorporata alla fine di questo articolo, oltre a molti esempi di video di supporto e supplementari alla pagina del progetto.
L’articolo è co-autore da diversi altri originatori di NeRF, tra cui Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) e Jonathan T. Barron (Google Research). Gli altri contributori sono Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar e Vincent Casser, tutti di Waymo.
Block-NeRF è stato sviluppato principalmente come ricerca su ambienti virtuali per sistemi di veicoli autonomi, tra cui auto e droni a guida autonoma.

La strada Embarcadero da una posizione di 180 gradi in Block-NeRF. Vedi il video incorporato alla fine dell’articolo, e anche il collegamento alla fonte per video supplementari a risoluzione completa. Fonte: https://waymo.com/research/block-nerf/
Altri fattori che possono essere modificati dinamicamente in Block-NeRF sono l’apertura dell’obiettivo (vedi immagine sopra), il tempo e le stagioni.
Tuttavia, cambiare stagione può causare cambiamenti correlati nell’ambiente, come alberi senza foglie, che richiede un set di dati di input ancora più esteso di quello costruito per Block-NeRF. L’articolo afferma:
‘[La foglia] cambia stagionalmente e si muove nel vento; ciò comporta rappresentazioni sfocate di alberi e piante. Allo stesso modo, le incoerenze temporali nei dati di training, come i lavori di costruzione, non vengono gestite automaticamente e richiedono la ritrattazione manuale dei blocchi interessati.’
Rendering Apocalittico
Se si guarda il video incorporato alla fine, si noterà una Walking Dead-style di sparsità nell’ambiente di rete Block-NeRF. Per vari motivi, non ultimo per fornire un ambiente di simulazione di partenza per sistemi robotici, auto, pedoni e altri oggetti transitori sono stati deliberatamente eliminati dal materiale di origine, ma ciò ha lasciato alcuni artefatti, come le ombre di veicoli ‘cancellati’:

L’ombra fantasma di un’auto cancellata. Fonte: https://waymo.com/research/block-nerf/
Per accogliere una gamma di ambienti di illuminazione come il giorno o la notte, le reti sono state addestrate per incorporare flussi di dati disentangled relativi a ogni condizione desiderata. Nell’immagine seguente, vediamo i flussi contribuenti per il footage Block-NeRF di un’autostrada di giorno e di notte:

I facet su richiesta dietro un rendering ‘baked’ apparentemente Block-NeRF, che consente all’utente di attivare la notte come richiesto. Fonte: https://waymo.com/research/block-nerf/
Considerazioni Ambientali ed Etiche
Negli ultimi anni, le presentazioni di ricerca hanno iniziato a includere caveat e disclaimer riguardo alle possibili ramificazioni etiche e ambientali del lavoro proposto. Nel caso di Block-NeRF, gli autori notano che le esigenze energetiche sono elevate e che la gestione di oggetti transitori a breve e lungo termine (come le foglie sugli alberi e i lavori di costruzione, rispettivamente) richiederebbe la scansione regolare dei dati di origine, portando a un aumento della ‘sorveglianza’ nelle aree urbane le cui modelli neurali devono essere mantenuti aggiornati.
Gli autori affermano:
‘A seconda della scala a cui questo lavoro viene applicato, le sue richieste di calcolo possono portare o peggiorare i danni ambientali se l’energia utilizzata per il calcolo porta a un aumento delle emissioni di carbonio. Come menzionato nell’articolo, prevediamo ulteriori lavori, come metodi di caching, che potrebbero ridurre le richieste di calcolo e quindi mitigare i danni ambientali.’
Riguardo alla sorveglianza, continuano:
‘Le applicazioni future di questo lavoro potrebbero comportare sforzi di raccolta di dati ancora più grandi, il che solleva ulteriori preoccupazioni sulla privacy. Mentre immagini dettagliate di strade pubbliche possono già essere trovate su servizi come Google Street View, il nostro metodo potrebbe promuovere scansioni ripetute e più regolari dell’ambiente. Diverse aziende nello spazio dei veicoli autonomi sono anche note per eseguire scansioni di area regolari utilizzando la loro flotta di veicoli; tuttavia, alcune potrebbero utilizzare solo scansioni LiDAR, che possono essere meno sensibili rispetto alla raccolta di immagini della fotocamera.’
Metodi e Soluzioni
Gli ambienti NeRF individuali possono essere ridotti, in teoria, a qualsiasi dimensione prima di essere assemblati in un array Block-NeRF. Ciò apre la strada all’inclusione granulare di contenuti che sono sicuramente soggetti a modifiche, come gli alberi, e all’identificazione e gestione dei lavori di costruzione, che possono persistere nel tempo per anni di ricattura, ma sono probabili evolvere e diventare entità coerenti.
Tuttavia, in questa prima uscita di ricerca, i blocchi NeRF discreti sono limitati ai blocchi di città effettivi di ciascun ambiente rappresentato, cuciti insieme, con un sovrapposizione del 50% che garantisce una transizione coerente da un blocco all’altro mentre l’utente naviga nella rete.
Ogni blocco è vincolato da un filtro geografico. Gli autori notano che questa parte del framework è aperta all’automazione e, sorprendentemente, che la loro implementazione si basa su OpenStreetMap anziché Google Maps.

Il raggio di intersezione per uno spazio di rendering ‘attivo’ Block-NeRF. Fonte: Waymo
I blocchi sono addestrati in parallelo, con i blocchi necessari resi disponibili su richiesta. I codici di aspetto innovativi sono anche orchestrati tra l’insieme di blocchi, garantendo che non si entri inaspettatamente in condizioni meteorologiche diverse, ore del giorno o addirittura stagioni diverse.

I segmenti Block-NeRF sono condizionati all’esposizione in modo analogo all’High Dynamic Range (HDR) nel materiale di origine fotografica. Fonte: Waymo
La capacità di commutare l’illuminazione e altre variabili ambientali deriva dalle ottimizzazioni latenti generative introdotte in NeRF nel Mondo (NeRF-W), che a sua volta derivò il metodo dal documento di ricerca del 2019 di Facebook AI Ottimizzazione dello spazio latente delle reti generative.
Un modello di segmentazione semantica originato per Panoptic-DeepLab nel 2020 viene utilizzato per bloccare elementi indesiderati (come persone e veicoli)
Dati
Risultò che i set di dati urbani comuni come CityScapes non erano adatti per un lavoro di dettaglio così intenso come Block-NeRF, i ricercatori hanno originato il proprio set di dati. I dati delle immagini sono stati catturati da 12 telecamere che coprono una vista a 360 gradi, con footage ripreso a 10 Hz con un valore di esposizione scalare.

I quartieri di San Francisco coperti erano Alamo Square e Mission Bay. Per le catture di Alamo Square, un’area di circa 960m x 570m è stata coperta, divisa in 35 istanze Block-NeRF, ciascuna addestrata con dati da 38 a 48 diverse esecuzioni di raccolta di dati, con un tempo di guida totale di 18-28 minuti.
Il numero di immagini contributive per ogni Block-NeRF è variato tra 64.575 e 108.216, e il tempo di guida totale rappresentato per questa area è stato di 13,4 ore su 1.330 diverse esecuzioni di raccolta di dati. Ciò ha portato a 2.818.745 immagini di training solo per Alamo Square. Vedi l’articolo per ulteriori dettagli sulla raccolta di dati per Mission Bay.
Pubblicato per la prima volta l’11 febbraio 2022.












