Angolo di Anderson

Un Nuovo e Più Semplice Metodo di Deepfake che Supera gli Approcci Precedenti

mm

Una collaborazione tra un gruppo di ricerca cinese di intelligenza artificiale e ricercatori statunitensi ha sviluppato ciò che potrebbe essere la prima vera innovazione nella tecnologia dei deepfake dal momento in cui il fenomeno è emerso quattro anni fa.

Il nuovo metodo può eseguire scambi di volti che superano tutti gli altri framework esistenti nei test percettivi standard, senza dover raccogliere e curare esaurientemente grandi set di dati dedicati e addestrarli per fino a una settimana per una sola identità. Per gli esempi presentati nel nuovo articolo, i modelli sono stati addestrati sull’intero di due popolari set di dati di celebrità, su un solo GPU NVIDIA Tesla P40 per circa tre giorni.

Video completo incorporato alla fine di questo articolo. In questo campione da un video nei materiali supplementari per il nuovo articolo, il volto di Scarlett Johansson è trasferito sul video sorgente. CihaNet rimuove il problema della maschera di bordo quando si esegue uno scambio, formando e attuando relazioni più profonde tra le identità sorgente e di destinazione, significando la fine dei 'confini ovvi' e altri glitch di sovrapposizione che si verificano negli approcci tradizionali di deepfake. Fonte: https://mitchellx.github.io/#video

Video completo disponibile alla fine di questo articolo. In questo campione da un video nei materiali supplementari forniti da uno degli autori del nuovo articolo, il volto di Scarlett Johansson è trasferito sul video sorgente. CihaNet rimuove il problema della maschera di bordo quando si esegue uno scambio, formando e attuando relazioni più profonde tra le identità sorgente e di destinazione, significando la fine dei ‘confini ovvi’ e altri glitch di sovrapposizione che si verificano negli approcci tradizionali di deepfake. Fonte: Fonte: https://mitchellx.github.io/#video

Il nuovo approccio rimuove la necessità di ‘incollare’ l’identità trapiantata in modo grossolano nel video di destinazione, che spesso porta a artefatti che appaiono dove il volto falso finisce e il volto reale sottostante inizia. Invece, vengono utilizzate ‘mappe di allucinazione’ per eseguire una mescolanza più profonda di aspetti visivi, poiché il sistema separa l’identità dal contesto molto più efficacemente dei metodi attuali, e quindi può fondere l’identità di destinazione a un livello più profondo.

Dall'articolo. Le trasformazioni CihaNet sono facilitate attraverso mappe di allucinazione (riga inferiore). Il sistema utilizza informazioni di contesto (ad esempio direzione del volto, capelli, occhiali e altre occlusioni, ecc.) interamente dall'immagine in cui verrà sovrapposta la nuova identità, e informazioni di identità facciale interamente dalla persona che verrà inserita nell'immagine. Questa capacità di separare il volto dal contesto è critica per il successo del sistema. Fonte: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Dall’articolo. Le trasformazioni CihaNet sono facilitate attraverso mappe di allucinazione (riga inferiore). Il sistema utilizza informazioni di contesto (ad esempio direzione del volto, capelli, occhiali e altre occlusioni, ecc.) interamente dall’immagine in cui verrà sovrapposta la nuova identità, e informazioni di identità facciale interamente dalla persona che verrà inserita nell’immagine. Questa capacità di separare il volto dal contesto è critica per il successo del sistema. Fonte: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

In effetti, la nuova mappa di allucinazione fornisce un contesto più completo per lo scambio, rispetto alle maschere rigide che spesso richiedono una curation estensiva (e nel caso di DeepFaceLab, addestramento separato) mentre forniscono flessibilità limitata in termini di incorporazione reale delle due identità.

Dai campioni forniti nei materiali supplementari, utilizzando sia il set di dati FFHQ che Celeb-A HQ, attraverso VGGFace e Forensics++. Le prime due colonne mostrano le immagini selezionate casualmente (reali) da scambiare. Le quattro colonne successive mostrano i risultati dello scambio utilizzando i quattro metodi più efficaci attualmente disponibili, mentre l’ultima colonna mostra il risultato da CihaNet. Il repository FaceSwap è stato utilizzato, anziché il più popolare DeepFaceLab, poiché entrambi i progetti sono fork dell’originale codice del 2017 di Deepfakes su GitHub. Sebbene ogni progetto abbia aggiunto modelli, tecniche, interfacce utente diverse e strumenti supplementari, il codice sottostante che rende possibili i deepfake non è mai cambiato e rimane comune a entrambi. Fonte: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

L’articolo, intitolato Rete di allucinazione di contesto e identità a una sola fase, è stato scritto da ricercatori affiliati a JD AI Research e all’Università del Massachusetts Amherst, e è stato supportato dal Programma nazionale di R&D della Cina con il numero di sovvenzione 2020AAA0103800. È stato presentato alla 29a Conferenza internazionale ACM sui multimediali, il 20-24 ottobre, a Chengdu, Cina.

Nessun Bisogno di ‘Parità Frontale’

Sia il software di deepfake più popolare attuale, DeepFaceLab, che il fork concorrente FaceSwap, eseguono workflow tortuosi e spesso curati manualmente per identificare la direzione in cui è inclinato un volto, quali ostacoli sono presenti e devono essere presi in considerazione (ancora una volta, manualmente), e devono affrontare molti altri fastidiosi impedimenti (inclusa l’illuminazione) che rendono il loro utilizzo lontano dall’esperienza ‘punta e clic’ inaccuratamente rappresentata nei media fin dall’avvento dei deepfake.

Al contrario, CihaNet non richiede che due immagini siano rivolte direttamente alla telecamera per estrarre e sfruttare informazioni di identità utili da un’immagine singola.

In questi esempi, una serie di software di deepfake concorrenti sono stati sfidati con il compito di scambiare volti che non solo sono dissimili in identità, ma che non sono rivolti nella stessa direzione. Il software derivato dal repository originale di deepfakes (come il molto popolare DeepFaceLab e FaceSwap, rappresentato sopra) non può gestire la disparità negli angoli tra le due immagini da scambiare (vedi terza colonna). Nel frattempo, CihaNet può astrare correttamente l'identità, poiché la 'posa' del volto non è intrinsecamente parte delle informazioni di identità.

In questi esempi, una serie di software di deepfake concorrenti sono stati sfidati con il compito di scambiare volti che non solo sono dissimili in identità, ma che non sono rivolti nella stessa direzione. Il software derivato dal repository originale di deepfakes (come il molto popolare DeepFaceLab e FaceSwap, rappresentato sopra) non può gestire la disparità negli angoli tra le due immagini da scambiare (vedi terza colonna). Nel frattempo, CihaNet può astrare correttamente l’identità, poiché la ‘posa’ del volto non è intrinsecamente parte delle informazioni di identità.

Architettura

Il progetto CihaNet, secondo gli autori, è stato ispirato dalla collaborazione del 2019 tra Microsoft Research e Peking University, chiamata FaceShifter, sebbene abbia apportato alcune modifiche critiche all’architettura di base del metodo più vecchio.

FaceShifter utilizza due reti di normalizzazione di istanza adattiva (AdaIN) per gestire le informazioni di identità, che vengono poi trasposte nell’immagine di destinazione attraverso una maschera, in un modo simile al software di deepfake attualmente popolare (e con tutte le relative limitazioni), utilizzando una rete aggiuntiva HEAR-Net (che include un sottorete addestrato separatamente su ostacoli di occlusione – un ulteriore livello di complessità).

Invece, la nuova architettura utilizza direttamente queste informazioni ‘contestuali’ per il processo trasformativo stesso, attraverso un’operazione di normalizzazione di istanza adattiva a due passaggi (C-AdaIN), che fornisce coerenza di contesto (ad esempio pelle del viso e occlusioni) delle aree rilevanti per l’identità.

Il secondo sottorete cruciale per il sistema è chiamato Swapping Block (SwapBlk), che genera una funzione integrata dal contesto dell’immagine di riferimento e dalle informazioni di ‘identità’ incorporate nell’immagine sorgente, bypassando le multiple fasi necessarie per realizzare ciò con i metodi convenzionali attuali.

Per aiutare a distinguere tra contesto e identità, viene generata una mappa di allucinazione per ogni livello, che sostituisce una maschera di segmentazione morbida, e agisce su una gamma più ampia di funzionalità per questa parte critica del processo di deepfake.

Man mano che il valore della mappa di allucinazione (rappresentato a destra) cresce, emerge un percorso più chiaro tra le identità.

Man mano che il valore della mappa di allucinazione (rappresentato a destra) cresce, emerge un percorso più chiaro tra le identità.

In questo modo, l’intero processo di scambio viene eseguito in una sola fase e senza post-elaborazione.

Dati e Test

Per provare il sistema, i ricercatori hanno addestrato quattro modelli su due set di dati di immagini aperte e variegate – CelebA-HQ e il set di dati Flickr-Faces-HQ di NVIDIA (FFHQ), ciascuno contenente 30.000 e 70.000 immagini rispettivamente.

Nessuna potatura o filtraggio è stato eseguito su questi set di dati di base. In ogni caso, i ricercatori hanno addestrato l’intero set di dati su un solo GPU Tesla per tre giorni, con un tasso di apprendimento di 0,0002 su ottimizzazione Adam.

Quindi, hanno reso una serie di scambi casuali tra le migliaia di personalità presenti nei set di dati, senza considerare se i volti fossero simili o anche abbinati per genere, e hanno confrontato i risultati di CihaNet con l’output di quattro framework di deepfake leader: FaceSwap (che sostituisce il più popolare DeepFaceLab, poiché condivide una base di codice nel repository originale del 2017 che ha portato i deepfake nel mondo); il già menzionato FaceShifter; FSGAN; e SimSwap.

Nel confrontare i risultati tramite VGG-Face, FFHQ, CelebA-HQ e FaceForensics++, gli autori hanno trovato che il loro nuovo modello ha superato tutti i modelli precedenti, come indicato nella tabella seguente.

I tre metriche utilizzate per valutare i risultati sono state la somiglianza strutturale (SSIM), errore di stima della posa e accuratezza di recupero dell’identità, che è calcolata in base alla percentuale di coppie recuperate con successo.

I ricercatori sostengono che CihaNet rappresenta un approccio superiore in termini di risultati qualitativi, e un notevole progresso rispetto allo stato attuale dell’arte nelle tecnologie di deepfake, rimuovendo l’onere di architetture di maschera estensive e laboriose, e raggiungendo una separazione più utile e azionabile dell’identità dal contesto.

Dai un’occhiata qui sotto per vedere altri esempi video della nuova tecnica. Puoi trovare il video completo qui.

Dai materiali supplementari per il nuovo articolo, CihaNet esegue lo scambio di volti su diverse identità. Fonte: https://mitchellx.github.io/#video

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.