Seguici sui social

Intelligenza Artificiale

GAN come Face Renderer per CGI 'tradizionale'

mm

Opinione Quando i Generative Adversarial Networks (GAN) hanno dimostrato per la prima volta la loro capacità di riprodursi in modo sbalorditivo realistico Volti 3D, l'avvento ha innescato una corsa all'oro per il potenziale inespresso dei GAN per creare video temporalmente coerenti con volti umani.

Da qualche parte nello spazio latente della GAN, sembrava che ci fosse devono obbligatoriamente: essere ordine e razionalità nascosti - uno schema di nascente logica semantica, sepolto nei codici latenti, che consentirebbe a un GAN di generare visualizzazioni multiple coerenti e interpretazioni multiple (come i cambiamenti di espressione) del stesso faccia - e successivamente offrire un metodo video deepfake temporalmente convincente che farebbe saltare autoencoder fuori dall'acqua.

Un output ad alta risoluzione sarebbe banale, rispetto agli ambienti a bassa risoluzione simili a baraccopoli in cui i vincoli della GPU costringono DeepFaceLab e FaceSwap a funzionare, mentre la "zona di scambio" di un volto (nei flussi di lavoro degli autoencoder) diventerebbe la "zona di creazione" di una GAN, informata da una manciata di immagini di input o anche da una sola immagine.

Non ci sarebbe più alcuna discrepanza tra le facce 'swap' e 'host', perché il interezza dell'immagine verrebbe generata da zero, compresi i capelli, le linee della mascella e le estremità più esterne dei lineamenti del viso, che spesso si rivelano una sfida per i deepfake autoencoder "tradizionali".

L'inverno del video facciale GAN

Come è emerso, non sarebbe stato così facile. In definitiva, sbrogliamento si è rivelata la questione centrale e rimane la sfida principale. Come puoi mantenere un'identità facciale distinta e cambiarne la posa o l'espressione senza raccogliere un corpus di migliaia di immagini di riferimento che insegnano a una rete neurale cosa succede quando questi cambiamenti vengono messi in atto, come fanno così faticosamente i sistemi di codifica automatica?

Piuttosto, il pensiero successivo nella ricerca sull'enactment facciale e sulla sintesi del GAN ​​era che un'identità di input potesse forse essere soggetta a teleologiche, generiche, modellato trasformazioni che non sono specifiche dell'identità. Un esempio di ciò sarebbe applicare un'espressione a un volto GAN che non era presente in nessuna delle immagini di quella persona di cui il GAN ​​è a conoscenza.

Dal documento del 2022 Tensor-based Emotion Editing in the StyleGAN Latent Space, le espressioni basate su modelli vengono applicate a un volto di input dal set di dati FFHQ. Fonte: https://arxiv.org/pdf/2205.06102.pdf

Dal documento del 2022 Tensor-based Emotion Editing in the StyleGAN Latent Space, le espressioni basate su modelli vengono applicate a un volto di input dal set di dati FFHQ. Fonte: https://arxiv.org/pdf/2205.06102.pdf

È ovvio che un approccio "taglia unica" non può coprire la diversità delle espressioni facciali uniche di ogni individuo. Dobbiamo chiederci se un sorriso unico come quello di Jack Nicholson o Willem Dafoe possa mai ricevere un'interpretazione fedele sotto l'influenza di tali codici latenti di "espressione media".

Chi è questo affascinante sconosciuto latino? Sebbene il metodo GAN produca un volto più realistico e ad alta risoluzione, la trasformazione non è informata da più immagini del mondo reale dell'attore, come nel caso di DeepFaceLab, che si allena ampiamente e spesso con una certa spesa su un database di migliaia di tali immagini. Qui (sullo sfondo) un modello DeepFaceLab viene importato in DeepFaceLive, un'implementazione in streaming del popolare e controverso software. Gli esempi sono tratti da https://www.youtube.com/watch?v=9tr35y-yQRY (2022) e https://arxiv.org/pdf/2205.06102.pdf.

Chi è questo affascinante sconosciuto latino? Sebbene il metodo GAN produca un volto più "realistico" e ad alta risoluzione, la trasformazione non si basa su molteplici immagini reali dell'attore, come nel caso di DeepFaceLab, che si allena ampiamente su un database di migliaia di tali immagini, e di conseguenza la somiglianza risulta compromessa. Qui (sfondo) un modello DeepFaceLab viene importato in DeepFace dal vivo, un'implementazione in streaming del popolare e controverso software. Gli esempi sono tratti da https://www.youtube.com/watch?v=9tr35y-yQRY (2022) e https://arxiv.org/pdf/2205.06102.pdf.

Negli ultimi anni sono stati proposti numerosi editor di espressioni facciali GAN, la maggior parte di essi confrontarsi con identità sconosciute, dove la fedeltà delle trasformazioni è impossibile da conoscere per il lettore occasionale, poiché si tratta di volti non familiari.

Identità oscure trasformate nell'offerta del 2020 Cascade-EF-GAN. Fonte: https://arxiv.org/pdf/2003.05905.pdf

Identità oscure trasformate nell'offerta del 2020 Cascade-EF-GAN. Fonte: https://arxiv.org/pdf/2003.05905.pdf

Forse il face editor GAN che ha riscosso più interesse (e citazioni) negli ultimi tre anni lo è InterfacciaGAN, che può eseguire attraversamenti spaziali latenti in codici latenti relativi a posa (angolo della telecamera/viso), espressione, età, razza, genere e altre qualità essenziali.

Le capacità di "morphing" in stile anni '1980 di InterFaceGAN e framework simili sono principalmente un modo per illustrare il percorso verso la trasformazione, quando un'immagine viene riproiettata attraverso un apposito codice latente (come "età"). In termini di produzione di filmati video con continuità temporale, tali schemi sono stati finora definiti "disastri impressionanti".

Se a questo si aggiunge il difficoltà di creare capelli temporalmente coerentie il fatto che la tecnica di esplorazione/manipolazione del codice latente non ha linee guida temporali innate con cui lavorare (ed è difficile sapere come inserire tali linee guida in un framework progettato per accogliere e generare immagini fisse, e che non ha disposizioni native per l'output video), potrebbe essere logico concludere che GAN non è All You Need™ per la sintesi video facciale.

Pertanto, gli sforzi successivi hanno ceduto miglioramenti incrementali nello sbrogliamento, mentre altri hanno integrato altre convenzioni nella visione artificiale come "livello di guida", come l'uso della segmentazione semantica come meccanismo di controllo alla fine del 2021 carta SemanticStyleGAN: Apprendimento dei precedenti generativi compositivi per la sintesi e l'editing di immagini controllabili.

La segmentazione semantica come metodo di strumentalità dello spazio latente in SemanticStyleGAN. Fonte: https://semanticstylegan.github.io/

La segmentazione semantica come metodo di strumentalità dello spazio latente in SemanticStyleGAN. Fonte: https://semanticstylegan.github.io/

Guida parametrica

La comunità di ricerca sulla sintesi facciale GAN si sta orientando sempre più verso l'uso di volti CGI parametrici "tradizionali" come metodo per guidare e mettere ordine negli imponenti ma indisciplinati codici latenti nello spazio latente di una GAN.

Sebbene i primitivi facciali parametrici siano stati un punto fermo della ricerca sulla visione artificiale per oltre vent'anni, l'interesse per questo approccio è cresciuto di recente, con l'aumento dell'uso del modello lineare multi-persona con skin (SMPL) Primitive CGI, un approccio sperimentato dal Max Planck Institute e dall'ILM, e da allora migliorato con il regressore del corpo umano articolato addestrato sparso (STAR) struttura.

SMPL (in questo caso una variante chiamata SMPL-X) può imporre una mesh parametrica CGI che si accorda con la posa stimata (comprese le espressioni, se necessario) dell'intero corpo umano raffigurato in un'immagine, consentendo l'esecuzione di nuove operazioni su l'immagine utilizzando la mesh parametrica come linea guida volumetrica o percettiva. Fonte: https://arxiv.org/pdf/1904.05866.pdf

SMPL (in questo caso una variante chiamata SMPL-X) può imporre una mesh parametrica CGI che si accordi con la posa stimata (comprese le espressioni, se necessario) dell'intero corpo umano rappresentato in un'immagine, consentendo di eseguire nuove operazioni sull'immagine utilizzando la mesh parametrica come volumetrico o percettivo orientamento. Fonte: https://arxiv.org/pdf/1904.05866.pdf

Lo sviluppo più acclamato in questa linea è stato quello della Disney del 2019 Rendering con stile iniziativa che ha unito l'uso delle tradizionali mappe di texture con immagini generate da GAN, nel tentativo di creare un output animato migliorato in stile "deepfake".

Il vecchio incontra il nuovo, nell'approccio ibrido della Disney ai deepfake generati da GAN. Fonte: https://www.youtube.com/watch?v=TwpLqTmvqVk

Il vecchio incontra il nuovo nell'approccio ibrido di Disney ai deepfake generati da GAN. Fonte: https://www.youtube.com/watch?v=TwpLqTmvqVk

L'approccio Disney impone sfaccettature CGI renderizzate tradizionalmente in una rete StyleGAN2 per "riprodurre" soggetti facciali umani in "aree problematiche", dove la coerenza temporale è un problema per la generazione video, come ad esempio la consistenza della pelle.

Il flusso di lavoro Rendering con stile.

Il flusso di lavoro Rendering con stile.

Poiché la testa CGI parametrica che guida questo processo può essere modificata e modificata per adattarsi all'utente, il volto generato da GAN è in grado di riflettere tali cambiamenti, inclusi i cambiamenti di posa ed espressione della testa.

Sebbene progettati per sposare la strumentalità della CGI con il realismo naturale dei volti GAN, alla fine, i risultati dimostrano il peggio di entrambi i mondi, e ancora non riescono a mantenere coerente la trama dei capelli e persino il posizionamento delle caratteristiche di base:

Un nuovo tipo di uncanny valley emerge da Rendering with Style, anche se il principio ha ancora del potenziale.

Un nuovo tipo di uncanny valley emerge da Rendering with Style, anche se il principio ha ancora del potenziale.

I 2020 paesi carta StyleRig: Rigging StyleGAN per il controllo 3D sulle immagini verticali adotta un approccio sempre più diffuso, con l'utilizzo di modelli tridimensionali di volti morphable (3DMM) come proxy per alterare le caratteristiche in un ambiente StyleGAN, in questo caso attraverso una nuova rete di rigging chiamata RigNet:

I 3DMM fungono da proxy per le interpretazioni dello spazio latente in StyleRig. Fonte: https://arxiv.org/pdf/2004.00121.pdf

I 3DMM fungono da proxy per le interpretazioni dello spazio latente in StyleRig. Fonte: https://arxiv.org/pdf/2004.00121.pdf

Tuttavia, come di consueto con queste iniziative, i risultati ottenuti finora sembrano limitati a minime manipolazioni delle pose e a cambiamenti "non informati" di espressione/affetto.

StyleRig migliora il livello di controllo, anche se i capelli temporalmente coerenti rimangono una sfida irrisolta. Fonte:

StyleRig migliora il livello di controllo, anche se i capelli temporalmente coerenti rimangono una sfida irrisolta. Fonte: https://www.youtube.com/watch?v=eaW_P85wQ9k

Risultati simili possono essere trovati da Mitsubishi Research MOST-GAN, un 2021 carta che utilizza 3DMM non lineari come architettura di districamento, ma anche lotte per ottenere un movimento dinamico e coerente.

L'ultima ricerca per tentare la strumentalità e il districamento è Rievocazione dei volti One-Shot su Megapixel, che utilizza nuovamente le testine parametriche 3DMM come interfaccia amichevole per StyleGAN.

Nel flusso di lavoro MegaFR di One-Shot Face Reenactment, la rete esegue la sintesi facciale combinando un'immagine invertita del mondo reale con parametri presi da un modello 3DMM renderizzato. Fonte: https://arxiv.org/pdf/2205.13368.pdf

Nel flusso di lavoro MegaFR di One-Shot Face Reenactment, la rete esegue la sintesi facciale combinando un'immagine invertita del mondo reale con parametri presi da un modello 3DMM renderizzato. Fonte: https://arxiv.org/pdf/2205.13368.pdf

OSFR appartiene a una classe crescente di editor di volti GAN che cercano di sviluppare flussi di lavoro di editing lineare in stile Photoshop/After Effects in cui l'utente può inserire un'immagine desiderata su cui applicare le trasformazioni, piuttosto che cercare nello spazio latente codici latenti relativi a un'identità.

Ancora una volta, le espressioni parametriche rappresentano un metodo generale e non personalizzato per iniettare l'espressione, portando a manipolazioni che sembrano "strane" a modo loro, non sempre positivo.

Espressioni iniettate in OSFR.

Espressioni iniettate in OSFR.

Come i lavori precedenti, OSFR può dedurre pose quasi originali da una singola immagine e anche eseguire la "frontalizzazione", dove un'immagine in posa decentrata viene tradotta in una foto segnaletica:

Immagini segnaletiche originali (sopra) e dedotte da una delle implementazioni di OSFR dettagliate nel nuovo documento.

Immagini segnaletiche originali (sopra) e dedotte da una delle implementazioni di OSFR dettagliate nel nuovo documento.

In pratica, questo tipo di inferenza è simile ad alcuni dei principi di fotogrammetria che sono alla base Campi di radianza neurale (NeRF), tranne per il fatto che la geometria qui deve essere definita da una singola foto, piuttosto che dai 3-4 punti di vista che consentono a NeRF di interpretare le pose interstiziali mancanti e creare scene 3D neurali esplorabili con esseri umani.

(Tuttavia, NeRF non è nemmeno All You Need™, poiché ha quasi insieme di posti di blocco completamente diversi ai GAN in termini di produzione di sintesi video facciale)

GAN ha un posto nella sintesi video facciale?

Ottenere espressioni dinamiche e pose fuori distribuzione da una singola immagine sorgente sembra essere un'ossessione alchemica nella ricerca sulla sintesi facciale GAN al momento, principalmente perché le GAN sono l'unico metodo attualmente in grado di produrre volti neurali ad alta risoluzione e relativamente alta fedeltà: sebbene i framework deepfake autoencoder possano addestrarsi su una moltitudine di pose ed espressioni del mondo reale, devono operare a risoluzioni di input/output limitate dalla VRAM e richiedono un "host"; mentre NeRF è similmente vincolato e, a differenza degli altri due approcci, attualmente non ha metodologie consolidate per modificare le espressioni facciali e soffre di una modificabilità limitata in generale.

Sembra che l'unica via per un sistema di sintesi facciale CGI/GAN accurato sia quella di una nuova iniziativa volta a trovare un modo per assemblare un'entità di identità multi-foto all'interno dello spazio latente, in cui un codice latente per l'identità di una persona non deve attraversare tutto lo spazio latente per sfruttare parametri di posa non correlati, ma può fare riferimento alle proprie immagini correlate (del mondo reale) come riferimenti per le trasformazioni.

Anche in tal caso, o anche se un'intera rete StyleGAN fosse addestrata su un set di volti a identità singola (simile ai set di addestramento utilizzati dagli autocodificatori), la logica semantica mancante dovrebbe comunque essere fornita da tecnologie aggiuntive come segmentazione semantica o facce parametriche 3DMM, che, in uno scenario del genere, avrebbero almeno più materiale su cui lavorare.

 

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai