Intelligenza artificiale

Un nuovo e più semplice metodo di Deepfake che supera gli approcci precedenti

Published November 10, 2021

Updated April 26, 2026

Martin Anderson

Una collaborazione tra un gruppo di ricerca di intelligenza artificiale cinese e ricercatori statunitensi ha sviluppato ciò che potrebbe essere la prima vera innovazione nella tecnologia dei deepfake dal momento in cui il fenomeno è emerso quattro anni fa.

Il nuovo metodo può eseguire faceswap che superano tutti gli altri framework esistenti nei test percettivi standard, senza la necessità di raccogliere e curare esaurientemente grandi set di dati dedicati e addestrarli per fino a una settimana per una sola identità. Per gli esempi presentati nel nuovo articolo, i modelli sono stati addestrati sull’intero di due popolari set di dati di celebrità, su un solo GPU NVIDIA Tesla P40 per circa tre giorni.

Full video embedded at the end of this article. In this sample from a video in supplementary materials for the new paper, Scarlett Johansson's face is transferred onto the source video. CihaNet removes the problem of edge-masking when performing a swap, by forming and enacting deeper relationships between the source and target identities, meaning an end to 'obvious borders' and other superimposition glitches that occur in traditional deepfake approaches. Source: https://mitchellx.github.io/#video

Full video available at the end of this article. In this sample from a video in supplementary materials provided by one of the authors of the new paper, Scarlett Johansson’s face is transferred onto the source video. CihaNet removes the problem of edge-masking when performing a swap, by forming and enacting deeper relationships between the source and target identities, meaning an end to ‘obvious borders’ and other superimposition glitches that occur in traditional deepfake approaches. Source: Source: https://mitchellx.github.io/#video

Il nuovo approccio rimuove la necessità di ‘incollare’ l’identità trapiantata in modo grossolano nel video di destinazione, che spesso porta a evidenti artefatti che appaiono dove il viso falso finisce e il viso reale sottostante inizia. Invece, vengono utilizzate ‘mappe di allucinazione’ per eseguire una mescolanza più profonda di aspetti visivi, poiché il sistema separa l’identità dal contesto in modo più efficace rispetto ai metodi attuali, e quindi può fondere l’identità di destinazione a un livello più profondo.

From the paper. CihaNet transformations are facilitated through hallucination maps (bottom row). The system uses context information (i.e. face direction, hair, glasses and other occlusions, etc.) entirely from the image into which the new identity will be superimposed, and facial identity information entirely from the person who is to be inserted into the image. This ability to separate face from context is critical to the success of the system. Source: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

In effetti, la nuova mappa di allucinazione fornisce un contesto più completo per lo scambio, rispetto alle maschere rigide che spesso richiedono una cura estensiva (e nel caso di DeepFaceLab, un addestramento separato) mentre forniscono flessibilità limitata in termini di incorporazione reale delle due identità.

From samples provided in the supplementary materials, using both the FFHQ and Celeb-A HQ datasets, across VGGFace and Forensics++. The first two columns show the randomly-selected (real) images to be swapped. The following four columns show the results of the swap using the four most effective methods currently available, while the final column shows the result from CihaNet. The FaceSwap repository has been used, rather than the more popular DeepFaceLab, since both projects are forks of the original 2017 Deepfakes code on GitHub. Though each project has since added models, techniques, diverse UIs and supplementary tools, the underlying code that makes deepfakes possible has never changed, and remains common to both. Source: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

L’articolo, intitolato One-stage Context and Identity Hallucination Network, è stato scritto da ricercatori affiliati a JD AI Research e all’Università del Massachusetts Amherst, e è stato supportato dal National Key R&D Program of China under Grant No. 2020AAA0103800. È stato presentato alla 29esima Conferenza internazionale ACM sui multimedia, il 20-24 ottobre, a Chengdu, Cina.

Nessuna necessità di ‘parità del viso’

Sia il software di deepfake più popolare attualmente, DeepFaceLab, che il fork concorrente FaceSwap, eseguono workflow tortuosi e spesso curati a mano per identificare in che direzione è rivolto un viso, quali ostacoli sono presenti che devono essere presi in considerazione (ancora una volta, manualmente), e devono affrontare molti altri fastidiosi ostacoli (inclusa l’illuminazione) che rendono il loro utilizzo ben lontano dall’esperienza ‘point-and-click’ inaccuratamente rappresentata nei media dal momento dell’avvento dei deepfake.

Al contrario, CihaNet non richiede che due immagini siano rivolte direttamente alla telecamera per estrarre e sfruttare informazioni di identità utili da una sola immagine.

In these examples, a suite of deepfake software contenders are challenged with the task of swapping faces that are not only dissimilar in identity, but which are not facing the same way. Software derived from the original deepfakes repository (such as the hugely popular DeepFaceLab and FaceSwap, pictured above) cannot handle the disparity in angles between the two images to be swapped (see third column). Meanwhile, CihaNet can abstract the identity correctly, since the ‘pose’ of the face is not intrinsically part of the identity information.

Architettura

Il progetto CihaNet, secondo gli autori, è stato ispirato dalla collaborazione del 2019 tra Microsoft Research e Peking University, chiamata FaceShifter, sebbene apporti alcune modifiche significative e critiche all’architettura di base del metodo più vecchio.

FaceShifter utilizza due reti di normalizzazione di istanza adattiva (AdaIN) per gestire le informazioni di identità, che vengono quindi trasposte nell’immagine di destinazione attraverso una maschera, in un modo simile ai software di deepfake attualmente popolari (e con tutte le relative limitazioni), utilizzando un’ulteriore HEAR-Net (che include un sottorete addestrato separatamente su ostacoli di occlusione – un ulteriore livello di complessità).

Invece, la nuova architettura utilizza direttamente queste informazioni ‘contestuali’ per il processo trasformativo stesso, attraverso un’operazione di normalizzazione di istanza adattiva a due passaggi (C-AdaIN), che fornisce la coerenza del contesto (ad esempio pelle del viso e occlusione) delle aree rilevanti per l’identità.

Il secondo sottorete cruciale per il sistema è chiamato Swapping Block (SwapBlk), che genera una funzione integrata dal contesto dell’immagine di riferimento e dalle informazioni di ‘identità’ incorporate dell’immagine sorgente, bypassando i molti stadi necessari per realizzare questo con i mezzi convenzionali attuali.

Per aiutare a distinguere tra contesto e identità, viene generata una mappa di allucinazione per ogni livello, che sostituisce una maschera di segmentazione morbida, e agisce su una gamma più ampia di funzioni per questa parte critica del processo di deepfake.

As the value of the hallucination map (pictured below right) grows, a clearer path between identities emerges.

In questo modo, l’intero processo di scambio viene eseguito in un’unica fase e senza post-elaborazione.

Dati e testing

Per provare il sistema, i ricercatori hanno addestrato quattro modelli su due set di dati di immagini molto popolari e variegati – CelebA-HQ e il set di dati Flickr-Faces-HQ di NVIDIA (FFHQ), ciascuno contenente 30.000 e 70.000 immagini rispettivamente.

Non è stata eseguita alcuna potatura o filtraggio su questi set di dati di base. In ogni caso, i ricercatori hanno addestrato l’intero set di dati su un solo GPU Tesla in tre giorni, con un tasso di apprendimento di 0,0002 su ottimizzazione Adam.

Hanno quindi reso una serie di scambi casuali tra le migliaia di personalità presenti nei set di dati, senza riguardo per il fatto che i visi fossero simili o anche abbinati per genere, e hanno confrontato i risultati di CihaNet con l’output di quattro framework di deepfake leader: FaceSwap (che rappresenta il più popolare DeepFaceLab, poiché condivide una base di codice nel repository originale del 2017 che ha portato i deepfake nel mondo); il già menzionato FaceShifter; FSGAN; e SimSwap.

Confrontando i risultati tramite VGG-Face, FFHQ, CelebA-HQ e FaceForensics++, gli autori hanno scoperto che il loro nuovo modello ha superato tutti i modelli precedenti, come indicato nella tabella seguente.

I tre metriche utilizzate per valutare i risultati sono state la somiglianza strutturale (SSIM), l’errore di stima della posa e l’accuratezza di recupero dell’identità, che viene calcolata in base alla percentuale di coppie recuperate con successo.

I ricercatori sostengono che CihaNet rappresenta un approccio superiore in termini di risultati qualitativi e un notevole progresso rispetto allo stato attuale dell’arte nella tecnologia dei deepfake, rimuovendo l’onere di architetture e metodologie di mascheramento estensivo e laborioso, e raggiungendo una separazione più utile e azionabile dell’identità dal contesto.

Guarda sotto per vedere ulteriori esempi video della nuova tecnica. Puoi trovare il video integrale qui.

From supplementary materials for the new paper, CihaNet performs faceswapping on various identities. Source: https://mitchellx.github.io/#video

Related Topics:China deepfake DeepFakes research

Martin Anderson

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.

Unite.AI

Un nuovo e più semplice metodo di Deepfake che supera gli approcci precedenti

Nessuna necessità di ‘parità del viso’

Architettura

Dati e testing

You may like