Intelligenza artificiale
RigNeRF: Un Nuovo Metodo Di Deepfakes Che Utilizza Campi Di Radiance Neurali

Nuove ricerche sviluppate presso Adobe offrono il primo metodo di deepfakes fattibile ed efficace basato su Campi Di Radiance Neurali (NeRF) – forse la prima vera innovazione in architettura o approccio dai cinque anni dall’emergere dei deepfakes nel 2017.
Il metodo, intitolato RigNeRF, utilizza modelli di facce morfiche 3D (3DMM) come uno strato intermedio di strumentalità tra l’input desiderato (ad esempio l’identità da imporre nel rendering NeRF) e lo spazio neurale, un metodo che è stato ampiamente adottato negli ultimi anni dagli approcci di sintesi di facce basati su Generative Adversarial Network (GAN), nessuno dei quali ha ancora prodotto framework di sostituzione di facce funzionali e utili per i video.

A differenza dei tradizionali video deepfakes, assolutamente nessun contenuto in movimento rappresentato qui è ‘reale’, ma piuttosto è uno spazio neurale esplorabile che è stato addestrato su brevi riprese. A destra vediamo il modello di faccia morfica 3D (3DMM) che agisce come un’interfaccia tra le manipolazioni desiderate (‘sorridi’, ‘guarda a sinistra’, ‘guarda in alto’, ecc.) e i parametri usualmente inaccessibili di una visualizzazione di Campo Di Radiance Neurale. Per una versione ad alta risoluzione di questo clip, insieme ad altri esempi, vedere la pagina del progetto, o i video incorporati alla fine di questo articolo. Fonte: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html
I 3DMM sono essenzialmente modelli CGI di facce, i parametri dei quali possono essere adattati a sistemi di sintesi di immagini più astratti, come NeRF e GAN, che altrimenti sono difficili da controllare.
Cosa si sta vedendo nell’immagine sopra (immagine centrale, uomo con maglia blu), così come l’immagine direttamente sotto (immagine sinistra, uomo con maglia blu), non è un video ‘reale’ nel quale è stata sovrapposta una piccola porzione di faccia ‘falsa’, ma una scena interamente sintetizzata che esiste solo come rendering neurale volumetrico – compreso il corpo e lo sfondo:

Nell’esempio direttamente sopra, il video della vita reale a destra (donna in abito rosso) viene utilizzato per ‘manovrare’ l’identità catturata (uomo con maglia blu) a sinistra tramite RigNeRF, che (gli autori affermano) è il primo sistema basato su NeRF in grado di ottenere la separazione di posa ed espressione mentre è in grado di eseguire sintesi di viste nuove.
La figura maschile a sinistra nell’immagine sopra è stata ‘catturata’ da un video di 70 secondi scattato con uno smartphone, e i dati di input (compresa l’intera informazione di scena) sono stati successivamente addestrati su 4 V100 GPU per ottenere la scena.
Dal momento che i telai parametrici nello stile 3DMM sono anche disponibili come proxy CGI parametrici per l’intero corpo (e non solo telai per facce), RigNeRF potrebbe aprire la possibilità di deepfakes a corpo intero dove il movimento umano reale, la texture e l’espressione vengono passati allo strato parametrico basato su CGI, che tradurrebbe poi azione ed espressione in ambienti e video NeRF resi.
Per quanto riguarda RigNeRF – si qualifica come un metodo di deepfakes nel senso attuale in cui i titoli comprendono il termine? O è solo un altro semi-ostacolato anche-ran per DeepFaceLab e altri sistemi di deepfakes autoencoder del 2017, laboriosi e intensivi?










