Kecerdasan buatan

Pemisahan Adalah Revolusi Deepfake Berikutnya

Published November 17, 2021

Updated April 28, 2026

Martin Anderson

Augmentasi data CGI sedang digunakan dalam proyek baru untuk mendapatkan kontrol yang lebih besar atas citra deepfake. Meskipun Anda masih belum bisa menggunakan kepala CGI untuk mengisi celah yang hilang dalam dataset wajah deepfake, gelombang penelitian baru tentang pemisahan identitas dari konteks berarti bahwa segera, Anda mungkin tidak perlu lagi.

Pencipta beberapa video deepfake viral paling sukses dalam beberapa tahun terakhir sangat memilih video sumber mereka, menghindari tembakan profil yang berkelanjutan (yaitu jenis foto wajah samping yang populer digunakan dalam prosedur penangkapan polisi), sudut tajam, dan ekspresi yang tidak biasa atau berlebihan. Semakin banyak, video demonstrasi yang diproduksi oleh pembuat deepfake viral adalah kompilasi yang diedit yang memilih ‘sudut’ dan ekspresi yang ‘paling mudah’ untuk deepfake.

Pada kenyataannya, target video yang paling mengakomodasi untuk menyisipkan deepfake selebriti adalah video di mana orang asli (yang identitasnya akan dihapus oleh deepfake) memandang langsung ke kamera, dengan rentang ekspresi yang minimal.

Sebagian besar deepfake populer dalam beberapa tahun terakhir menunjukkan subyek yang secara langsung menghadap kamera, dan baik hanya menampilkan ekspresi populer (seperti tersenyum), yang dapat dengan mudah diekstrak dari output paparazzi merah, atau (seperti dengan deepfake palsu Sylvester Stallone sebagai Terminator pada 2019, digambarkan di sebelah kiri), idealnya dengan tidak ada ekspresi sama sekali, karena ekspresi netral sangat umum, membuatnya mudah untuk dimasukkan ke dalam model deepfake.

Karena teknologi deepfake seperti DeepFaceLab dan FaceSwap melakukan pertukaran yang lebih sederhana dengan sangat baik, kita cukup terpesona oleh apa yang mereka capai sehingga kita tidak memperhatikan apa yang tidak mereka bisa lakukan, dan – sering – tidak bahkan mencoba:

Cuplikan dari video deepfake yang diakui где Arnold Schwarzenegger diubah menjadi Sylvester Stallone – kecuali jika sudutnya terlalu sulit. Profil tetap menjadi masalah yang berkelanjutan dengan pendekatan deepfake saat ini, sebagian karena perangkat lunak sumber terbuka yang digunakan untuk mendefinisikan pose wajah dalam kerangka deepfake tidak dioptimalkan untuk tampilan samping, tetapi terutama karena kekurangan bahan sumber yang sesuai dalam satu atau kedua dataset yang diperlukan. Source: https://www.youtube.com/watch?v=AQvCmQFScMA

Penelitian baru dari Israel mengusulkan metode baru menggunakan data sintetis, seperti kepala CGI, untuk membawa deepfaking ke tahun 2020-an, dengan benar-benar memisahkan identitas wajah (yaitu karakteristik wajah esensial dari ‘Tom Cruise’, dari semua sudut) dari konteksnya (yaitu memandang ke atas, memandang ke samping, mengerutkan kening, mengerutkan kening dalam kegelapan, alisan yang berkerut, mata tertutup, dll.).

Sistem baru ini secara terpisah memisahkan pose dan konteks (yaitu mengedipkan mata) dari pengkodean identitas individu, menggunakan data wajah sintetis yang tidak terkait (digambarkan di sebelah kiri). Pada baris atas, kita melihat ‘kedipan’ yang ditransfer ke identitas Barack Obama, dipicu oleh jalur nonlinier yang dipelajari dari ruang laten GAN, yang diwakili oleh gambar CGI di sebelah kiri. Pada baris di bawah, kita melihat sudut mulut yang diperpanjang ditransfer ke mantan presiden. Bagian bawah kanan, kita melihat kedua karakteristik tersebut diterapkan secara bersamaan. Source: https://arxiv.org/pdf/2111.08419.pdf

Ini bukanlah deepfake head-puppetry, sebuah teknik yang lebih cocok untuk avatar dan lip-synching wajah sebagian, dan yang memiliki potensi terbatas untuk transformasi video deepfake yang lengkap.

Melainkan, ini mewakili cara maju untuk pemisahan fundamental antara instrumentality (seperti ‘ubah sudut kepala’, ‘buat kerutan’) dari identitas, menawarkan jalur untuk sintesis gambar berbasis deepfake tingkat tinggi daripada ‘turunan’ berbasis sintesis gambar.

Makalah baru ini berjudul Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing, using Few Synthetic Samples, dan berasal dari peneliti di Technion – Israel Institute of Technology.

Untuk memahami apa yang dimaksud dengan pekerjaan ini, mari kita lihat bagaimana deepfake saat ini diproduksi di mana-mana, dari situs deepfake porn hingga Industrial Light and Magic (karena repositori sumber terbuka DeepFaceLab saat ini mendominasi baik ‘amatir’ maupun deepfaking profesional).

Apa yang Menghambat Teknologi Deepfake Saat Ini?

Deepfake saat ini dibuat dengan melatih model pembelajaran mesin encoder/decoder pada dua folder gambar wajah – orang yang ingin ‘dicat’ (dalam contoh sebelumnya, itu ‘Arnie’) dan orang yang ingin disisipkan ke dalam footage (Sly).

Contoh pose dan kondisi pencahayaan yang bervariasi di seluruh dua set wajah. Perhatikan ekspresi yang khas di akhir baris ketiga di kolom A, yang tidak mungkin memiliki ekivalen yang dekat di dataset lain.

Sistem encoder/decoder kemudian membandingkan setiap gambar di setiap folder dengan yang lain, mempertahankan, memperbaiki, dan mengulangi operasi ini selama ratusan ribu iterasi (sering selama seminggu), sampai memahami karakteristik esensial dari kedua identitas dengan cukup baik untuk menukarnya sesuka hati.

Untuk setiap orang yang ditukar dalam proses, apa yang dipelajari oleh arsitektur deepfake tentang identitas terjalin dengan konteks. Tidak bisa mempelajari dan menerapkan prinsip tentang pose generik ‘untuk baik dan selamanya’, tetapi perlu contoh yang melimpah dalam dataset pelatihan, untuk setiap identitas yang akan terlibat dalam pertukaran wajah.

Oleh karena itu, jika Anda ingin menukar dua identitas yang melakukan sesuatu yang lebih tidak biasa daripada hanya tersenyum atau memandang langsung ke kamera, Anda akan membutuhkan banyak contoh pose/identitas tersebut di seluruh dua set wajah:

Karena ID wajah dan karakteristik pose saat ini masih sangat terkait, keselarasan yang luas dari ekspresi, pose kepala, dan (sampai batas tertentu) pencahayaan diperlukan di seluruh dua dataset wajah untuk melatih model deepfake yang efektif pada sistem seperti DeepFaceLab. Semakin sedikit konfigurasi tertentu (seperti ‘tampilan samping/tersenyum/pencahayaan matahari’) yang ditampilkan di kedua set wajah, semakin tidak akurat itu akan dirender dalam video deepfake, jika diperlukan.

Jika set A mengandung pose yang tidak biasa, tetapi set B tidak memiliki pose tersebut, Anda hampir tidak beruntung; tidak peduli seberapa lama Anda melatih model, itu tidak akan pernah mempelajari untuk mereproduksi pose tersebut dengan baik antara identitas, karena hanya memiliki setengah informasi yang diperlukan saat dilatih.

Bahkan jika Anda memiliki gambar yang cocok, itu mungkin tidak cukup: jika set A memiliki pose yang cocok, tetapi dengan pencahayaan samping yang keras, dibandingkan dengan pencahayaan datar yang setara dengan pose yang sama di set wajah lain, kualitas pertukaran tidak akan sebaik jika kedua set wajah memiliki karakteristik pencahayaan yang sama.

Mengapa Data Langka

Kecuali Anda sering ditangkap, Anda mungkin tidak memiliki banyak foto profil samping. Setiap foto yang muncul, Anda mungkin membuangnya. Karena agen gambar melakukan hal yang sama, foto wajah profil samping sulit ditemukan.

Pembuat deepfake sering memasukkan beberapa salinan dari data profil samping yang terbatas yang mereka miliki untuk sebuah identitas dalam sebuah set wajah, hanya agar pose tersebut mendapatkan sedikit perhatian dan waktu selama pelatihan, bukan diabaikan sebagai outlier.

Tetapi ada banyak jenis foto wajah samping yang mungkin daripada yang mungkin tersedia untuk dimasukkan dalam sebuah dataset – tersenyum, mengerutkan kening, berteriak, menangis, pencahayaan yang gelap, meremehkan, bosan, gembira, pencahayaan kilat, memandang ke atas, memandang ke bawah, mata terbuka, mata tertutup… dan seterusnya. Setiap pose ini, dalam kombinasi yang berbeda, mungkin diperlukan dalam video deepfake target.

Dan itu hanya profil. Berapa banyak foto yang Anda miliki dari diri Anda sendiri yang memandang langsung ke atas? Apakah Anda memiliki cukup untuk mewakili 10.000 ekspresi yang mungkin yang mungkin Anda kenakan sambil mempertahankan pose yang tepat dari sudut kamera yang tepat, mencakup setidaknya beberapa satu juta lingkungan pencahayaan yang mungkin?

Kemungkinan besar, Anda tidak memiliki satupun foto dari diri Anda sendiri yang memandang ke atas. Dan itu hanya dua sudut dari ratusan yang diperlukan untuk cakupan penuh.

Bahkan jika memungkinkan untuk menghasilkan cakupan penuh wajah dari semua sudut di bawah berbagai kondisi pencahayaan, dataset yang dihasilkan akan terlalu besar untuk dilatih, dalam urutan ratusan ribu gambar; dan bahkan jika itu dapat dilatih, sifat proses pelatihan untuk kerangka deepfake saat ini akan membuang sebagian besar data tambahan tersebut demi fitur yang terbatas, karena kerangka saat ini adalah reduksionis, dan tidak sangat scalable.

Penggantian Sintetis

Sejak awal deepfake, pembuat deepfake telah bereksperimen dengan menggunakan citra gaya CGI, kepala yang dibuat dalam aplikasi 3D seperti Cinema4D dan Maya, untuk menghasilkan ‘pose yang hilang’.

Tidak ada AI yang diperlukan; seorang aktris dibuat ulang dalam program CGI tradisional, Cinema 4D, menggunakan mesh dan tekstur bitmapped – teknologi yang berasal dari tahun 1960-an, meskipun mencapai penggunaan yang luas hanya dari tahun 1990-an. Secara teori, model wajah ini dapat digunakan untuk menghasilkan data sumber deepfake untuk pose yang tidak biasa, gaya pencahayaan, dan ekspresi wajah. Dalam kenyataan, itu telah terbatas atau tidak berguna dalam deepfaking, karena ‘kepalsuan’ dari render cenderung bocor dalam video yang ditukar. Source: This article author’s image at https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Metode ini umumnya ditinggalkan lebih awal oleh praktisi deepfake baru, karena meskipun dapat menyediakan pose dan ekspresi yang tidak tersedia, penampilan sintetis dari wajah CGI biasanya bocor ke dalam pertukaran karena keterjalinan ID dan informasi kontekstual/semantik.

Ini dapat menyebabkan kilasan wajah ‘lembah yang tidak nyaman’ dalam video deepfake yang sebaliknya cukup meyakinkan, karena algoritma mulai mengandalkan data yang hanya tersedia untuk pose atau ekspresi yang tidak biasa – wajah palsu yang jelas.

Di antara subjek paling populer untuk pembuat deepfake, algoritma deepfake 3D untuk aktris Australia Margot Robbie disertakan dalam instalasi default DeepFaceLive, versi DeepFaceLab yang dapat melakukan deepfake dalam siaran langsung, seperti sesi webcam. Versi CGI, seperti yang digambarkan di atas, dapat digunakan untuk mendapatkan pose ‘hilang’ yang tidak biasa dalam dataset deepfake. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Wajah CGI sebagai Pedoman Konseptual yang Terpisah

Sebaliknya, metode Delta-GAN Encoder (DGE) baru dari peneliti Israel lebih efektif, karena informasi pose dan kontekstual dari gambar CGI telah sepenuhnya dipisahkan dari ‘identitas’ target.

Kita dapat melihat prinsip ini dalam aksi di gambar di bawah, di mana berbagai orientasi kepala telah diperoleh dengan menggunakan citra CGI sebagai pedoman. Karena fitur identitas tidak terkait dengan fitur kontekstual, tidak ada bocoran baik dari penampilan sintetis yang terlihat palsu dari wajah CGI, maupun dari identitas yang digambarkan di dalamnya:

Dengan metode baru, Anda tidak perlu menemukan tiga gambar sumber yang terpisah untuk melakukan deepfake dari beberapa sudut – Anda hanya perlu memutar kepala CGI, yang fitur abstrak tingkat tinggi diterapkan pada identitas tanpa kebocoran informasi ID.

Delta-GAN-Encoder. Kelompok atas kiri: sudut gambar sumber dapat diubah dalam satu detik untuk menghasilkan gambar sumber baru, yang tercermin dalam output; kelompok atas kanan: pencahayaan juga dipisahkan dari identitas, memungkinkan superimposisi gaya pencahayaan; kelompok kiri bawah: beberapa detail wajah diubah untuk membuat ekspresi ‘sedih’; kelompok kanan bawah: satu detail ekspresi wajah tunggal diubah, sehingga mata berkedip.

Pemisahan identitas dan konteks ini dicapai pada tahap pelatihan. Pipa untuk arsitektur deepfake baru mencari vektor laten dalam Generative Adversarial Network (GAN) pra-terlatih yang cocok dengan gambar yang akan diubah – sebuah metodologi Sim2Real yang membangun pada proyek 2018 dari bagian penelitian AI IBM.

Peneliti mengamati:

‘Dengan hanya beberapa sampel, yang berbeda oleh atribut tertentu, satu dapat mempelajari perilaku yang terpisahkan dari model generatif yang terjalin sebelumnya. Tidak perlu sampel dunia nyata yang tepat untuk mencapai tujuan tersebut, yang tidak perlu dicapai.

‘Dengan menggunakan sampel data yang tidak realistis, tujuan yang sama dapat dicapai berkat memanfaatkan semantik vektor laten yang dikodekan. Menerapkan perubahan yang diinginkan ke sampel data yang ada dapat dilakukan tanpa eksplorasi perilaku ruang laten yang eksplisit.’

Peneliti memperkirakan bahwa prinsip-prinsip dasar pemisahan yang dijelajahi dalam proyek ini dapat dipindahkan ke domain lain, seperti simulasi arsitektur interior, dan bahwa metode Sim2Real yang diadopsi untuk Delta-GAN-Encoder akhirnya dapat memungkinkan instrumentality deepfake berdasarkan sketsa, bukan input gaya CGI.

Bisa dibilang bahwa seberapa besar sistem Israel baru ini mungkin atau mungkin tidak dapat mensintesis video deepfake adalah jauh menos signifikan daripada kemajuan yang telah dibuat dalam pemisahan konteks dari identitas, dalam proses memperoleh kontrol yang lebih besar atas ruang laten GAN.

Pemisahan adalah bidang penelitian yang aktif dalam sintesis gambar; pada Januari 2021, penelitian yang dipimpin oleh Amazon paper menunjukkan kontrol pose dan pemisahan yang serupa, dan pada 2018 sebuah paper dari Shenzhen Institutes of Advanced Technology di Chinese Academy of Sciences membuat kemajuan dalam menghasilkan sudut pandang sewenang-wenang dalam GAN.