Intelligenza Artificiale
Un metodo Deepfake nuovo e più semplice che supera gli approcci precedenti

Una collaborazione tra un gruppo di ricerca cinese sull’intelligenza artificiale e ricercatori con sede negli Stati Uniti ha sviluppato quella che potrebbe essere la prima vera innovazione nella tecnologia dei deepfake da quando il fenomeno è emerso quattro anni fa.
Il nuovo metodo può eseguire facewaps che superano tutti gli altri framework esistenti su test percettivi standard, senza la necessità di raccogliere e curare in modo esaustivo grandi set di dati dedicati e addestrarli fino a una settimana per una sola identità. Per gli esempi presentati nel nuovo documento, i modelli sono stati addestrati sul interezza di due famosi set di dati di celebrità, su una GPU NVIDIA Tesla P40 per circa tre giorni.

Video completo disponibile alla fine di questo articolo. In questo esempio tratto da un video incluso nei materiali supplementari forniti da uno degli autori del nuovo articolo, il volto di Scarlett Johansson viene trasferito sul video sorgente. CihaNet elimina il problema del mascheramento dei bordi durante lo scambio, creando e realizzando relazioni più profonde tra le identità sorgente e target, ponendo fine ai "confini evidenti" e ad altri problemi di sovrapposizione che si verificano nei tradizionali approcci deepfake. Fonte: Fonte: https://mitchellx.github.io/#video
Il nuovo approccio elimina la necessità di "incollare" grossolanamente l'identità trapiantata nel video di destinazione, il che spesso porta a risultati rivelatori. artefatti che appaiono dove finisce il volto falso e inizia quello reale, quello sottostante. Piuttosto, le "mappe allucinatorie" vengono utilizzate per ottenere una più profonda commistione di sfaccettature visive, perché il sistema separa l'identità dal contesto in modo molto più efficace rispetto ai metodi attuali, e quindi può fondere l'identità target a un livello più profondo.

Dalla carta. Le trasformazioni di CihaNet sono facilitate attraverso mappe di allucinazioni (riga in basso). Il sistema utilizza le informazioni di contesto (ad es. direzione del viso, capelli, occhiali e altre occlusioni, ecc.) interamente dall'immagine in cui verrà sovrapposta la nuova identità e le informazioni sull'identità facciale interamente dalla persona che deve essere inserita nell'immagine. Questa capacità di separare il volto dal contesto è fondamentale per il successo del sistema. Fonte: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
In effetti la nuova mappa dell'allucinazione fornisce un contesto più completo per lo scambio, al contrario delle dure maschere che spesso richiedono un'estesa cura (e nel caso di DeepFaceLab, formazione separata), pur fornendo una flessibilità limitata in termini di incorporazione reale delle due identità.

Dai campioni forniti nei materiali supplementari, utilizzando i set di dati FFHQ e Celeb-A HQ, attraverso VGGFace e Forensics++. Le prime due colonne mostrano le immagini (reali) selezionate casualmente da scambiare. Le quattro colonne seguenti mostrano i risultati dello scambio utilizzando i quattro metodi più efficaci attualmente disponibili, mentre l'ultima colonna mostra il risultato di CihaNet. È stato utilizzato il repository FaceSwap, piuttosto che il più popolare DeepFaceLab, poiché entrambi i progetti sono fork del codice Deepfakes originale del 2017 su GitHub. Sebbene da allora ogni progetto abbia aggiunto modelli, tecniche, interfacce utente diverse e strumenti supplementari, il codice sottostante che rende possibili i deepfake non è mai cambiato e rimane comune a entrambi. Fonte: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
. carta, dal titolo Rete di allucinazioni di contesto e identità a uno stadio, è stato scritto da ricercatori affiliati a JD AI Research e all'Università del Massachusetts Amherst ed è stato sostenuto dal National Key R&D Program of China con il Grant No. 2020AAA0103800. È stato presentato alla 29a Conferenza Internazionale ACM sul Multimedia, dal 20 al 24 ottobre, a Chengdu, in Cina.
Non c'è bisogno di parità "faccia a faccia"
Sia il software deepfake più diffuso al momento, DeepFaceLab, sia il fork concorrente FaceSwap, eseguono flussi di lavoro tortuosi e spesso curati manualmente per identificare in che modo è inclinato un volto, quali ostacoli ci sono sul percorso di cui bisogna tenere conto (di nuovo, manualmente) e devono far fronte a molti altri fastidiosi impedimenti (tra cui l'illuminazione) che rendono il loro utilizzo ben lontano dall'esperienza "punta e clicca" rappresentata in modo impreciso dai media dall'avvento dei deepfake.
Al contrario, CihaNet non richiede che due immagini siano rivolte direttamente verso la telecamera per estrarre e sfruttare utili informazioni sull'identità da una singola immagine.

In questi esempi, una serie di software deepfake si trova ad affrontare il compito di scambiare volti non solo dissimili nell'identità, ma anche rivolti in direzioni diverse. I software derivati dal repository originale dei deepfake (come i popolarissimi DeepFaceLab e FaceSwap, illustrati sopra) non riescono a gestire la disparità di angolazione tra le due immagini da scambiare (vedi terza colonna). Nel frattempo, CihaNet può astrarre correttamente l'identità, poiché la "posa" del volto non è intrinsecamente parte delle informazioni sull'identità.
Architettura
Il progetto CihaNet, secondo gli autori, è stato ispirato dalla collaborazione del 2019 tra Microsoft Research e Peking University, chiamata FaceShifter, sebbene apporti alcune modifiche notevoli e critiche all'architettura di base del metodo precedente.
FaceShifter utilizza due Normalizzazione istanza adattiva (AdaIN) reti per gestire le informazioni sull'identità, i cui dati vengono poi trasposti nell'immagine target tramite una maschera, in un modo simile all'attuale popolare software deepfake (e con tutte le relative limitazioni), utilizzando un ulteriore SENTIRE-Net (che include una sottorete addestrata separatamente addestrata sugli ostacoli di occlusione - un ulteriore livello di complessità).
Al contrario, la nuova architettura utilizza direttamente queste informazioni "contestuali" per il processo di trasformazione stesso, tramite un'operazione C-AdaIN (Cascading Adaptive Instance Normalization) in due fasi, che garantisce la coerenza del contesto (ad esempio pelle del viso e occlusioni) delle aree rilevanti per l'ID.
La seconda sottorete fondamentale per il sistema è denominata Swapping Block (SwapBlk), che genera una funzionalità integrata dal contesto dell'immagine di riferimento e dalle informazioni di "identità" incorporate nell'immagine sorgente, bypassando le molteplici fasi necessarie per realizzare questo risultato con i mezzi attuali convenzionali.
Per aiutare a distinguere tra contesto e identità, a mappa delle allucinazioni viene generato per ogni livello, sostituendo una maschera di segmentazione soft e agendo su una gamma più ampia di funzionalità per questa parte critica del processo deepfake.

Man mano che il valore della mappa dell'allucinazione (nella foto in basso a destra) cresce, emerge un percorso più chiaro tra le identità.
In questo modo, l'intero processo di scambio viene realizzato in un'unica fase e senza post-elaborazione.
Dati e test
Per provare il sistema, i ricercatori hanno addestrato quattro modelli su due set di dati di immagini aperte molto popolari e variegati: CelebA-HQ e il set di dati Flickr-Faces-HQ di NVIDIA (FFHQ), ciascuno contenente rispettivamente 30,000 e 70,000 immagini.
Su questi set di dati di base non è stata eseguita alcuna potatura o filtraggio. In ogni caso, i ricercatori hanno addestrato l'intero set di dati sulla singola GPU Tesla per tre giorni, con un tasso di apprendimento di 0.0002 sull'ottimizzazione di Adam.
Hanno quindi effettuato una serie di scambi casuali tra le migliaia di personalità presenti nei set di dati, senza considerare se i volti fossero simili o addirittura identici per genere, e hanno confrontato i risultati di CihaNet con quelli di quattro importanti framework deepfake: Cambia faccia (che sta per il più popolare DeepFaceLab, poiché condivide una base di codice radice nel file archivio originale del 2017 che ha portato i deepfake nel mondo); il già citato FaceShifter; FGAN, E SimSwap.
Confrontando i risultati tramite VGG-Faccia, FFHQ, CelebA-HQ e FaceForensics ++, gli autori hanno scoperto che il loro nuovo modello ha superato tutti i modelli precedenti, come indicato nella tabella sottostante.

Le tre metriche utilizzate per valutare i risultati erano la somiglianza strutturale (SSI), errore di stima della posa e Precisione del recupero dell'ID, che viene calcolato in base alla percentuale di coppie recuperate correttamente.
I ricercatori sostengono che CihaNet rappresenti un approccio superiore in termini di risultati qualitativi e un notevole progresso rispetto all'attuale stato dell'arte nelle tecnologie deepfake, rimuovendo il fardello di architetture e metodologie di mascheramento estese e laboriose e ottenendo un risultato più utile e la separazione attuabile dell'identità dal contesto.
Dai un'occhiata qui sotto per vedere altri esempi video della nuova tecnica. Puoi trovare il video integrale Qui..
Dai materiali supplementari per il nuovo giornale, CihaNet esegue lo scambio di volti su varie identità. Fonte: https://mitchellx.github.io/#video














