Connect with us

Intelligenza artificiale

Disney Combina CGI Con Neural Rendering Per Affrontare La ‘Valle Inquietante’

mm

La divisione di ricerca AI di Disney ha sviluppato un metodo ibrido per la simulazione facciale di qualità cinematografica, combinando i punti di forza della renderizzazione neurale facciale con la coerenza di un approccio basato su CGI.

Il documento in attesa di pubblicazione è intitolato Rendering con Stile: Combinazione di Approcci Tradizionali e Neuronal per la Renderizzazione di Facce di Alta Qualità, e viene anticipato in un nuovo video di 10 minuti sul canale YouTube di Disney Research (incluso alla fine di questo articolo*).

Mesh combinati con renderizzazioni facciali neurali. Fonte: https://www.youtube.com/watch?v=k-RKSGbWLng

Mesh combinati con renderizzazioni facciali neurali. Vedere il video incorporato alla fine dell’articolo per una migliore qualità e dettaglio. Fonte: https://www.youtube.com/watch?v=k-RKSGbWLng (sostituito da https://www.youtube.com/watch?v=TwpLqTmvqVk)

Come nota il video, la renderizzazione neurale delle facce (inclusi i deepfake) può produrre occhi e interni della bocca più realistici di quanto il CGI sia in grado di fare, mentre le texture facciali guidate da CGI sono più coerenti e adatte per la produzione di effetti visivi di livello cinematografico.

Pertanto, Disney sta sperimentando l’utilizzo del generatore neurale NVIDIA StyleGan2 per gestire le caratteristiche circostanti di un viso e gli elementi “vitali” come gli occhi, mentre sovrappongono le texture facciali CGI coerenti e gli elementi correlati nel risultato.

Dal video (vedere la fine dell'articolo), il concetto architettonico dell'approccio ibrido di Disney, dove una mesh CGI di stile vecchia scuola, del tipo utilizzato per ricreare 'giovane' Carrie Fisher e il defunto Peter Cushing per Rogue One (2016), viene integrata in ambienti facciali renderizzati neuralmente.

Dal video (vedere la fine dell’articolo), il concetto architettonico dell’approccio ibrido di Disney, dove una mesh CGI di stile vecchia scuola, del tipo utilizzato per ricreare ‘giovane’ Carrie Fisher e il defunto Peter Cushing per Rogue One (2016), viene integrata in ambienti facciali renderizzati neuralmente.

Il video fa un riferimento tacito alla critica frequente dell’inautenticità e dell’effetto “valle inquietante” della ricreazione CGI dell’attore britannico defunto Peter Cushing in Rogue One (2016), ammettendo:

‘[C’è] ancora un grande divario tra ciò che le persone possono catturare e renderizzare facilmente e i doppi digitali fotorealistici finali, completi di capelli, occhi e interno della bocca. Per colmare questo divario, di solito è necessario molto lavoro manuale da parte di artisti esperti.’

In realtà, anche i sistemi di cattura facciale più moderni non tentano nemmeno di ricreare occhi, interni della bocca o capelli, che hanno problemi di autenticità in tali tecniche (occhi) o di coerenza temporale (capelli).

Il video illustra ciò che gli artisti VFX otterranno dopo una sessione di cattura facciale moderna. Occhi, capelli, barba e interni della bocca dovranno essere gestiti da team separati nella pipeline di produzione.

Il video illustra ciò che gli artisti VFX otterranno dopo una sessione di cattura facciale moderna. Occhi, capelli, barba e interni della bocca dovranno essere gestiti da team separati nella pipeline di produzione, in aggiunta alla texture e all’illuminazione.

Controllo dell’Illuminazione

L’approccio ibrido è anche un vantaggio per la ri-illuminazione – una sfida notevole per la renderizzazione neurale delle facce, poiché le sovrapposizioni di pelle CGI possono essere più facilmente ri-illuminate.

Una versione animata dell'approccio CGI/Neurale.

Una versione animata dell’approccio CGI/Neurale.

In ambienti più impegnativi, come le riprese esterne, i ricercatori hanno sviluppato un metodo di inpainting attorno a una sorta di zona demilitarizzata che circonda la persona “creata”.

Un margine nero viene generato per consentire una 'tela' per l'inpainting delle parti esterne dell'identità e l'integrazione della pelle CGI nel risultato combinato CGI/neurale.

Un margine nero viene generato per consentire una ‘tela’ per l’inpainting delle parti esterne dell’identità e l’integrazione della pelle CGI nel risultato combinato CGI/neurale.

Il video nota:

‘[La] renderizzazione neurale non corrisponde perfettamente alla costrizione di sfondo. – è solo destinata a essere una guida, poiché l’ottimizzazione per componenti umani realistici come capelli, occhi e denti è l’obiettivo principale. Più impegnativo è cercare di mantenere un’identità coerente, cambiando l’illuminazione dell’ambiente.’

Creazione di Mesh CGI da Renderizzazioni Neurali

Il team di ricerca ha anche sviluppato un autoencoder variazionale addestrato su un (non specificato) grande database di immagini facciali 3D, e afferma che può produrre mesh facciali 3D “casuali ma plausibili” dai dati di verità.

Ci sono limitazioni per questa ricerca da superare, tra cui la difficoltà di mantenere i capelli coerenti temporalmente nelle renderizzazioni neurali, e il video (vedere sotto) mostra diversi esempi di capelli che mutano rapidamente in un giro coerente attorno a un viso CGI/neurale.

La coerenza temporale nella renderizzazione neurale del video è un problema molto più ampio di quello di Disney, e sembra probabile che le iterazioni successive di questo sistema possano ricorrere all’aggiunta di capelli “in post”, o ad altri approcci possibili per la generazione di capelli rispetto a sperare che un nuovo approccio neurale lo risolva eventualmente.

Utilizzi per la Generazione di Dataset

Il metodo è proposto anche come un metodo potenziale per la generazione di dati sintetici e l’arricchimento del paesaggio delle immagini facciali, che negli ultimi anni è diventato pericolosamente monotono.

Disney prevede che la nuova tecnica popoli i dataset di immagini facciali.

Disney prevede che la nuova tecnica popoli i dataset di immagini facciali.

‘[Ogni] risultato fotorealistico che generiamo ha una geometria sottostante e mappe di aspetto, renderizzate da punti di vista della camera sconosciuti con illuminazione nota. Queste informazioni di “verità” possono essere vitali per l’addestramento di applicazioni a valle, come la ricostruzione facciale 3D monocolare, il riconoscimento facciale o la comprensione della scena. E quindi ogni risultato di rendering può essere considerato un campione di dati, e possiamo generare molte variazioni di molte persone diverse.

‘Inoltre, anche per una sola persona renderizzata in una sola espressione con un solo punto di vista e illuminazione, possiamo generare variazioni casuali del rendering fotorealistico variando il seed di randomizzazione durante l’ottimizzazione.’

I ricercatori notano che questa diversità di output configurabile potrebbe essere utile nell’addestramento di applicazioni di riconoscimento facciale, concludendo:

‘[Il] nostro metodo è in grado di sfruttare la tecnologia attuale per la cattura, la modellazione e la renderizzazione della pelle facciale, e creare automaticamente renderizzazioni facciali fotorealistici che corrispondono all’identità, all’espressione e alla configurazione della scena desiderate. Questo approccio ha applicazioni e renderizzazione facciale per il cinema e l’intrattenimento, risparmiando lavoro manuale agli artisti e anche per la generazione di dati in diversi campi del deep learning.’

Per un’analisi più approfondita del nuovo approccio, vedere il video di 10 minuti pubblicato oggi:

 * Il link originale del video è stato sostituito con un altro apparentemente identico 8 ore dopo la pubblicazione di questo articolo. Ho cambiato tutti i link rilevanti, poiché non c’è traccia del video originale.

 

8:24 GMT+2 – Sostituito il video, poiché è stato sostituito dal canale YouTube di Disney Research per qualche ragione.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.