mozzicone Il nuovo metodo Deepfake risolve il problema "Face Host" - Unite.AI
Seguici sui social

Intelligenza Artificiale

Il nuovo metodo Deepfake risolve il problema del "Face Host".

mm
aggiornato on

Nonostante diversi anni di iperbole mediatica sul potenziale delle immagini deepfake di minare la nostra fede di lunga data nell'autenticità delle riprese video, tutti i metodi attualmente popolari si basano sulla ricerca di "host di volti" che sono sostanzialmente simili nella forma al volto target.

Laddove il filmato originale presenta un volto largo, ma il soggetto di destinazione ha un volto stretto, i risultati sono sempre stati problematici, perché un tale trasferimento comporta il taglio di parte del volto originale e la ricostruzione dello sfondo ora esposto. I pacchetti attuali come DeepFaceLab e FaceSwap sono in grado di produrre risultati limitati quando la configurazione è invertita (stretta>larga), ma non hanno la possibilità di affrontare in modo convincente questo scenario.

Ora, una collaborazione tra Tencent e l'Università cinese di Xiamen ha sviluppato un nuovo approccio, intitolato HifiFace, progettato per colmare questa carenza.

Due deepfake di HifiFace, il primo di Anne Hathaway, in cui si ottiene una buona somiglianza nonostante la forma del viso ospite incompatibile. HifiFace si comporta bene anche su bersagli con gli occhiali, tradizionalmente un ostacolo nei deepfake. Fonte: https://arxiv.org/pdf/2106.09965.pdf

Due deepfake HifiFace, il primo di Anne Hathaway, in cui si ottiene una buona somiglianza nonostante la forma del viso dell'ospite incompatibile. HifiFace si comporta bene anche sugli obiettivi con gli occhiali, tradizionalmente un ostacolo nei deepfake. Fonte: https://arxiv.org/pdf/2106.09965.pdf

Rimodellamento di un volto Deepfake

Approcci precedenti, come quelli del 2019 Soggetto Agnostico Scambio di volti e rievocazione storica (FGAN), sono dipesi da Raccordo 3DMM (3D Morphable Models) o altre metodologie basate sul riconoscimento o trasformazione dei punti di riferimento facciali, in cui i lineamenti facciali del viso da "sovrascrivere" dettano praticamente i limiti dello scambio:

Fonte: https://github.com/Yinghao-Li/3DMM-fitting

Rilevamento dei punti di riferimento facciali 3DMM. Fonte: https://github.com/Yinghao-Li/3DMM-fitting

Sebbene i metodi concorrenti abbiano attinto a caratteristiche derivate dalle reti di riconoscimento facciale, queste sono principalmente finalizzate a ricostituire la trama piuttosto che la struttura, e analogamente producono un effetto "simile a una maschera" nei casi in cui la faccia dell'ospite non è del tutto compatibile (cioè i limiti e la forma dell'attaccatura dei capelli, della mascella e degli zigomi).

Per affrontare questi problemi, i ricercatori cinesi, con sede nel Media Analytics and Computing Lab presso il Dipartimento di Intelligenza Artificiale dell'università, hanno sviluppato una rete end-to-end che regredisce i coefficienti del bersaglio e della faccia sorgente utilizzando un modello di ricostruzione 3D, che viene quindi ricombinato come informazioni sulla forma e concatenato con informazioni sul vettore di identità da una rete di riconoscimento facciale.

Questi dati geometrici vengono quindi inseriti in un modello codificatore-decodificatore come informazioni strutturali, combinandosi con l'espressione e la disposizione del volto bersaglio, che vengono sfruttate come fonti ausiliarie per un trasferimento accurato.

Fusione facciale semantica

Inoltre, HifiFace include un componente Semantic Facial Fusion (SFF), che utilizza una funzionalità di basso livello nel codificatore per preservare le informazioni spaziali e sulla trama, senza sacrificare l'identità dell'immagine di destinazione. Le caratteristiche del codificatore e del decodificatore sono integrate in una maschera adattativa appresa e le informazioni di base si fondono nell'output mediante la maschera facciale appresa.

HifiFace in azione. Fonte: https://johann.wang/HifiFace/

HifiFace in azione. Fonte: https://johann.wang/HifiFace/

In questo modo, HifiFace si discosta dall'uso dei confini della faccia del materiale originale come limite rigido, utilizzando la segmentazione semantica della faccia dilatata, in cui il modello può eseguire una migliore fusione adattiva sui confini del bordo della faccia.

Due approcci precedenti (in alto e in basso a sinistra) e la nuova architettura HifiFace, che consiste in un codificatore, un decodificatore, un estrattore di identità con riconoscimento della forma 3D e un modulo SFF.

Due approcci precedenti (in alto e in basso a sinistra) e la nuova architettura HifiFace, che consiste in un codificatore, un decodificatore, un estrattore di identità con riconoscimento della forma 3D e un modulo SFF.

In un confronto con i precedenti metodi FSGAN, SimSwap ed FaceShifter, HifiFace dimostra una ricostruzione superiore della forma del viso, poiché non approssima elementi "fantasma" in cui le delimitazioni facciali confondono l'identità>mappatura dell'identità, ma li ricostruisce definitivamente.

Testing

I ricercatori hanno implementato il sistema utilizzando il VGGFace2 e il DeepGlint Celebrità asiatica set di dati. I volti sono stati allineati tramite 5 punti di riferimento esterni e ritagliati nuovamente a 256 × 256 pixel. È stata utilizzata anche una rete di miglioramento del ritratto per generare una versione da 512 × 512 pixel, per un modello aggiuntivo ad alta risoluzione. Il modello è stato addestrato sotto Adam.

Sebbene FaceShifter mantenga bene l'identità, non può affrontare problemi come espressione, colore e occlusione con la stessa efficacia di HifiFace e ha una struttura di rete più complessa. FSGAN ha problemi nel trasferire l'illuminazione dalla sorgente all'obiettivo.

I ricercatori usano FaceForensics ++ per confronti quantitativi, campionando dieci fotogrammi ciascuno in un batch di video convertiti attraverso i metodi concorrenti e scoprendo che HifiFace ha ottenuto un punteggio di recupero ID superiore. Nel testare una serie di altri fattori, come la qualità dell'immagine, i ricercatori hanno anche scoperto che il loro metodo ha superato le metodologie rivali.

I lineamenti facciali di Benedict Cumberbatch sono riprodotti fedelmente.

I lineamenti facciali di Benedict Cumberbatch sono riprodotti fedelmente.

Il lavoro rappresenta un ulteriore passo verso l'astrazione del materiale originale in modo che sia solo un modello approssimativo in cui possono essere trasferite identità accurate. Alcuni degli attuali pacchetti FOSS, incluso DeepFaceLab, presentano funzionalità nascenti per la sostituzione dell'intera testa, ma, come HifiFace, questi non tengono conto dei capelli e sono più efficaci nel "costruire" un volto piuttosto che nel cesellarlo per abbinarlo una sorgente di destinazione desiderata.