Kecerdasan buatan

Metode Deepfake Baru dan Lebih Sederhana yang Mengungguli Pendekatan Sebelumnya

Published November 10, 2021

Updated April 5, 2026

Martin Anderson

Kolaborasi antara grup penelitian AI Tiongkok dan peneliti AS telah mengembangkan apa yang mungkin menjadi inovasi pertama dalam teknologi deepfake sejak fenomena ini muncul empat tahun yang lalu.

Metode baru ini dapat melakukan faceswap yang mengungguli semua kerangka kerja lain yang ada pada tes perseptual standar, tanpa perlu mengumpulkan dan mengkurasi dataset khusus yang besar dan melatihnya selama hingga satu minggu untuk hanya satu identitas. Untuk contoh yang disajikan dalam makalah baru, model dilatih pada keseluruhan dari dua dataset selebriti populer, pada satu NVIDIA Tesla P40 GPU selama sekitar tiga hari.

Full video embedded at the end of this article. In this sample from a video in supplementary materials for the new paper, Scarlett Johansson's face is transferred onto the source video. CihaNet removes the problem of edge-masking when performing a swap, by forming and enacting deeper relationships between the source and target identities, meaning an end to 'obvious borders' and other superimposition glitches that occur in traditional deepfake approaches. Source: https://mitchellx.github.io/#video

Full video available at the end of this article. In this sample from a video in supplementary materials provided by one of the authors of the new paper, Scarlett Johansson’s face is transferred onto the source video. CihaNet removes the problem of edge-masking when performing a swap, by forming and enacting deeper relationships between the source and target identities, meaning an end to ‘obvious borders’ and other superimposition glitches that occur in traditional deepfake approaches. Source: Source: https://mitchellx.github.io/#video

Pendekatan baru ini menghilangkan kebutuhan untuk ‘menempel’ identitas yang ditransplantasikan secara kasar ke dalam video target, yang sering menghasilkan artefak yang muncul di mana wajah palsu berakhir dan wajah asli yang mendasarinya dimulai. Sebaliknya, ‘peta halusinasi’ digunakan untuk melakukan pencampuran yang lebih dalam dari aspek visual, karena sistem memisahkan identitas dari konteks jauh lebih efektif daripada metode saat ini, dan oleh karena itu dapat mencampur identitas target pada tingkat yang lebih mendalam.

From the paper. CihaNet transformations are facilitated through hallucination maps (bottom row). The system uses context information (i.e. face direction, hair, glasses and other occlusions, etc.) entirely from the image into which the new identity will be superimposed, and facial identity information entirely from the person who is to be inserted into the image. This ability to separate face from context is critical to the success of the system. Source: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Secara efektif, peta halusinasi baru ini menyediakan konteks yang lebih lengkap untuk pertukaran, sebagai lawan dari masker keras yang sering memerlukan kurasi yang luas (dan dalam kasus DeepFaceLab, pelatihan terpisah) sambil menyediakan fleksibilitas yang terbatas dalam hal inkorporasi nyata dari dua identitas.

From samples provided in the supplementary materials, using both the FFHQ and Celeb-A HQ datasets, across VGGFace and Forensics++. The first two columns show the randomly-selected (real) images to be swapped. The following four columns show the results of the swap using the four most effective methods currently available, while the final column shows the result from CihaNet. The FaceSwap repository has been used, rather than the more popular DeepFaceLab, since both projects are forks of the original 2017 Deepfakes code on GitHub. Though each project has since added models, techniques, diverse UIs and supplementary tools, the underlying code that makes deepfakes possible has never changed, and remains common to both. Source: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Makalah tersebut, berjudul One-stage Context and Identity Hallucination Network, ditulis oleh peneliti yang berafiliasi dengan JD AI Research, dan University of Massachusetts Amherst, dan didukung oleh National Key R&D Program of China under Grant No. 2020AAA0103800. Makalah ini diperkenalkan pada 29th ACM International Conference on Multimedia, pada tanggal 20-24 Oktober, di Chengdu, Tiongkok.

Tidak Perlu ‘Face-On’ Parity

Baik perangkat lunak deepfake paling populer saat ini, DeepFaceLab, dan fork FaceSwap, melakukan alur kerja yang rumit dan sering memerlukan kurasi manual untuk mengidentifikasi arah wajah, mengatasi hambatan (lagi-lagi secara manual), dan mengatasi banyak hambatan lainnya (termasuk pencahayaan) yang membuat penggunaannya jauh dari pengalaman ‘point-and-click’ yang digambarkan di media sejak munculnya deepfakes.

Sebaliknya, CihaNet tidak memerlukan bahwa dua gambar harus menghadap kamera secara langsung untuk mengekstrak dan mengeksploitasi informasi identitas yang berguna dari satu gambar.

In these examples, a suite of deepfake software contenders are challenged with the task of swapping faces that are not only dissimilar in identity, but which are not facing the same way. Software derived from the original deepfakes repository (such as the hugely popular DeepFaceLab and FaceSwap, pictured above) cannot handle the disparity in angles between the two images to be swapped (see third column). Meanwhile, CihaNet can abstract the identity correctly, since the ‘pose’ of the face is not intrinsically part of the identity information.

Arsitektur

Proyek CihaNet, menurut penulis, terinspirasi oleh kolaborasi 2019 antara Microsoft Research dan Peking University, yang disebut FaceShifter, meskipun membuat beberapa perubahan penting dan kritis pada arsitektur inti metode yang lebih lama.

FaceShifter menggunakan dua jaringan Adaptive Instance Normalization (AdaIN) untuk menangani informasi identitas, yang kemudian dipindahkan ke gambar target melalui masker, dengan cara yang serupa dengan perangkat lunak deepfake populer saat ini (dan dengan semua keterbatasannya), menggunakan jaringan HEAR-Net (yang mencakup sub-jaringan yang dilatih secara terpisah pada hambatan oklusi – lapisan kompleksitas tambahan).

Sebaliknya, arsitektur baru ini langsung menggunakan informasi ‘kontekstual’ ini untuk proses transformasi itu sendiri, melalui operasi Cascading Adaptive Instance Normalization (C-AdaIN) dua langkah, yang menyediakan konsistensi konteks (yaitu kulit wajah dan oklusi) dari area yang relevan dengan ID.

Sub-jaringan kedua yang penting bagi sistem ini disebut Blok Pertukaran (SwapBlk), yang menghasilkan fitur terintegrasi dari konteks gambar referensi dan informasi ‘identitas’ yang tertanam dari gambar sumber, melewati beberapa tahap yang diperlukan untuk mencapai ini dengan cara konvensional.

Untuk membantu membedakan antara konteks dan identitas, peta halusinasi dibuat untuk setiap tingkat, berdiri untuk masker segmentasi lunak, dan bertindak pada rentang fitur yang lebih luas untuk bagian kritis dari proses deepfake.

As the value of the hallucination map (pictured below right) grows, a clearer path between identities emerges.

Dengan cara ini, proses pertukaran seluruhnya dilakukan dalam satu tahap dan tanpa pemrosesan pasca.

Data dan Pengujian

Untuk mencoba sistem ini, peneliti melatih empat model pada dua dataset gambar terbuka yang sangat populer dan bervariasi – CelebA-HQ dan Dataset Flickr-Faces-HQ NVIDIA (FFHQ), masing-masing berisi 30.000 dan 70.000 gambar.

Tidak ada pemangkasan atau penyaringan yang dilakukan pada dataset dasar ini. Dalam setiap kasus, peneliti melatih keseluruhan dataset pada satu Tesla GPU selama tiga hari, dengan tingkat pembelajaran 0,0002 pada optimisasi Adam.

Mereka kemudian merender keluar serangkaian pertukaran acak di antara ribuan kepribadian yang ditampilkan dalam dataset, tanpa memperhatikan apakah wajah-wajah tersebut mirip atau bahkan cocok gender, dan membandingkan hasil CihaNet dengan output dari empat kerangka kerja deepfake terkemuka: FaceSwap (yang mewakili DeepFaceLab yang lebih populer, karena berbagi basis kode di repository asli 2017 yang membawa deepfakes ke dunia); FaceShifter yang disebutkan sebelumnya; FSGAN; dan SimSwap.

Dalam membandingkan hasil melalui VGG-Face, FFHQ, CelebA-HQ dan FaceForensics++, penulis menemukan bahwa model baru mereka mengungguli semua model sebelumnya, sebagaimana ditunjukkan pada tabel di bawah.

Tiga metrik yang digunakan dalam mengevaluasi hasil adalah Kesamaan Struktural (SSIM), kesalahan estimasi pose dan akurasi pengambilan ID, yang dihitung berdasarkan persentase pasangan yang berhasil diambil.

Peneliti berpendapat bahwa CihaNet mewakili pendekatan yang lebih unggul dalam hal hasil kualitatif, dan kemajuan yang signifikan pada keadaan saat ini teknologi deepfake, dengan menghilangkan beban arsitektur dan metodologi masking yang luas dan memakan waktu, dan mencapai pemisahan yang lebih berguna dan dapat diaktifkan antara identitas dan konteks.

Lihat di bawah untuk melihat contoh video lebih lanjut dari teknik baru ini. Anda dapat menemukan video lengkap di sini.

From supplementary materials for the new paper, CihaNet performs faceswapping on various identities. Source: https://mitchellx.github.io/#video

Related Topics:China deepfake DeepFakes research

Martin Anderson

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.

Unite.AI

Metode Deepfake Baru dan Lebih Sederhana yang Mengungguli Pendekatan Sebelumnya

Tidak Perlu ‘Face-On’ Parity

Arsitektur

Data dan Pengujian

You may like