Intelligenza Artificiale
ST-NeRF: composizione e montaggio per sintesi video

Un consorzio di ricerca cinese ha sviluppato tecniche per portare le capacità di editing e compositing in uno dei settori di ricerca sulla sintesi delle immagini più in voga dell'ultimo anno: i Neural Radiance Fields (NeRF). Il sistema si chiama ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).
Quella che sembra essere una panoramica fisica della telecamera nell'immagine qui sotto è in realtà solo un utente che "scorre" attraverso i punti di vista sul contenuto video che esiste in uno spazio 4D. Il POV non è legato alla performance delle persone rappresentate nel video, i cui movimenti possono essere visualizzati da qualsiasi parte di un raggio di 180 gradi.
Ogni sfaccettatura all'interno del video è un elemento catturato in modo discreto, composto insieme in una scena coerente che può essere esplorata dinamicamente.
Le sfaccettature possono essere liberamente duplicate all'interno della scena o ridimensionate:
Inoltre, il comportamento temporale di ciascuna sfaccettatura può essere facilmente alterato, rallentato, eseguito all'indietro o manipolato in molti modi, aprendo la strada ad architetture di filtro e un livello estremamente elevato di interpretabilità .

Due sfaccettature NeRF separate funzionano a velocità diverse nella stessa scena. Fonte: https://www.youtube.com/watch?v=Wp4HfOwFGP4
Non è necessario rotoscopio artisti o ambienti, o far eseguire i loro movimenti alla cieca e fuori dal contesto della scena prevista. Invece, le riprese vengono catturate in modo naturale tramite una serie di 16 videocamere che coprono 180 gradi:

I tre elementi sopra raffigurati, le due persone e l'ambiente, sono distinti, e tratteggiati solo a scopo illustrativo. Ciascuno può essere sostituito e ciascuno può essere inserito nella scena in un punto precedente o successivo nella sequenza temporale di acquisizione individuale.
ST-NeRF è un'innovazione sulla ricerca nei campi di radianza neurale (NeRF), un framework di apprendimento automatico in cui le acquisizioni di più punti di vista vengono sintetizzate in uno spazio virtuale navigabile mediante una formazione approfondita (sebbene l'acquisizione di un singolo punto di vista sia anche un sottosettore della ricerca NeRF).

I Neural Radiance Fields funzionano raccogliendo più punti di vista di acquisizione in un unico spazio 3D coerente e navigabile, con gli spazi tra la copertura stimati e resi da una rete neurale. Laddove viene utilizzato il video (piuttosto che immagini fisse), le risorse di rendering necessarie sono spesso considerevoli. Fonte: https://www.matthewtancik.com/nerf
L'interesse per NeRF è diventato intenso negli ultimi nove mesi e mantenuto su Reddit stratagemma di documenti NeRF derivati ​​o esplorativi elenca attualmente sessanta progetti.

Solo alcune delle tante derivazioni del documento NeRF originale. Fonte: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/
Formazione conveniente
Il documento è una collaborazione tra ricercatori della Shanghai Tech University e Tecnologia digitale DGen, ed è stato accettato con un certo entusiasmo all'Open Review.
ST-NeRF offre una serie di innovazioni rispetto alle iniziative precedenti negli spazi video navigabili derivati ​​da ML. Non ultimo, raggiunge un alto livello di realismo con solo 16 telecamere. Anche se Facebook DyNeRF utilizza solo due telecamere in più, offre un arco navigabile molto più ristretto.

Un esempio dell'ambiente DyNeRF di Facebook, con un campo di movimento più limitato e più telecamere per piede quadrato necessarie per ricostruire la scena. Fonte: https://neural-3d-video.github.io
Oltre a non avere la capacità di modificare e comporre singole sfaccettature, DyNeRF è particolarmente costoso in termini di risorse computazionali. Al contrario, i ricercatori cinesi affermano che il costo di formazione per i loro dati è compreso tra $ 900 e $ 3,000, rispetto ai $ 30,000 per il modello di generazione video all'avanguardia DVDGAN e sistemi intensivi come DyNeRF.
I revisori hanno anche notato che ST-NeRF rappresenta un'importante innovazione nel disaccoppiare il processo di apprendimento del movimento dal processo di sintesi dell'immagine. Questa separazione è ciò che consente l'editing e la composizione, con approcci precedenti restrittivi e lineari al confronto.
Sebbene 16 telecamere siano una gamma molto limitata per un semicerchio visivo così completo, i ricercatori sperano di ridurre ulteriormente questo numero in un lavoro successivo attraverso l'uso di sfondi statici proxy pre-scansionati e approcci di modellazione della scena più basati sui dati. Sperano anche di incorporare capacità di riaccensione, a recente innovazione nella ricerca NeRF.
Affrontare le limitazioni di ST-NeRF
Nel contesto dei documenti accademici CS che tendono a cestinare l'effettiva usabilità di un nuovo sistema in un paragrafo finale usa e getta, anche i limiti che i ricercatori riconoscono per ST-NeRF sono insoliti.
Osservano che il sistema attualmente non è in grado di individuare e rendere separatamente particolari oggetti in una scena, perché le persone nel filmato sono segmentate in singole entità tramite un sistema progettato per riconoscere gli esseri umani e non gli oggetti - un problema che sembra facilmente risolvibile con YOLO e simili framework, con il lavoro più duro di estrarre il video umano già compiuto.
Sebbene i ricercatori notino che attualmente non è possibile generare rallentatore, sembra che ci sia poco da impedire l'implementazione di questo utilizzando le innovazioni esistenti nell'interpolazione dei fotogrammi come DAINO e RIFE.
Come con tutte le implementazioni NeRF e in molti altri settori della ricerca sulla visione artificiale, ST-NeRF può fallire in casi di grave occlusione, in cui il soggetto è temporaneamente oscurato da un'altra persona o da un oggetto, e può essere difficile da tracciare continuamente o da individuare con precisione. riacquistarlo successivamente. Come altrove, questa difficoltà potrebbe dover attendere soluzioni a monte. Nel frattempo, i ricercatori ammettono che in questi fotogrammi occlusi è necessario un intervento manuale.
Infine, i ricercatori osservano che le procedure di segmentazione umana attualmente si basano su differenze di colore, che potrebbero portare a un confronto involontario di due persone in un unico blocco di segmentazione, un ostacolo non limitato a ST-NeRF, ma intrinseco alla libreria utilizzata, e che potrebbe forse essere risolto mediante l'analisi del flusso ottico e altre tecniche emergenti.
Pubblicato per la prima volta il 7 maggio 2021.