Kecerdasan buatan

Fajar Emosi Deepfaked

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Peneliti telah mengembangkan teknik pembelajaran mesin baru untuk mengimposkan emosi baru secara sewenang-wenang pada wajah dalam video, dengan memanfaatkan teknologi yang ada yang baru-baru ini muncul sebagai solusi untuk mencocokkan gerakan bibir dengan dubbing bahasa asing.

Penelitian ini merupakan kolaborasi yang setara antara Universitas Northeastern di Boston dan Media Lab di MIT, dan berjudul Invertable Frowns: Video-to-Video Facial Emotion Translation. Meskipun peneliti mengakui bahwa kualitas awal hasilnya harus dikembangkan melalui penelitian lebih lanjut, mereka mengklaim bahwa teknik, yang disebut Wav2Lip-Emotion, adalah yang pertama dari jenisnya untuk secara langsung mengatasi modifikasi ekspresi video penuh melalui teknik jaringan saraf.

Kode dasar telah dirilis di GitHub, meskipun checkpoint model akan ditambahkan ke repositori sumber terbuka kemudian, penulis berjanji.

Di sebelah kiri, bingkai ‘sedih’ dari video sumber. Di sebelah kanan, bingkai ‘gembira’. Di tengah adalah dua pendekatan baru untuk mensintesis emosi alternatif – baris atas: wajah yang sepenuhnya tertutup masker di mana seluruh permukaan ekspresi telah digantikan; baris bawah: metode Wav2Lip yang lebih tradisional, yang hanya menggantikan bagian bawah wajah. Sumber: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Video Tunggal sebagai Data Sumber

Secara teori, manipulasi seperti itu dapat diperoleh sekarang melalui pelatihan penuh pada repositori deepfake tradisional seperti DeepFaceLab atau FaceSwap. Namun, alur kerja standar akan melibatkan menggunakan identitas alternatif untuk ‘target’ identitas, seperti aktor yang meniru target, yang ekspresinya sendiri akan ditransfer ke individu lain, bersama dengan sisa penampilan. Selain itu, teknik penggantian suara deepfake biasanya diperlukan untuk menyelesaikan ilusi.

Lebih lanjut, mengubah ekspresi target1>target1 dalam video sumber tunggal di bawah kerangka kerja populer ini akan melibatkan mengubah vektor penyelarasan wajah dengan cara yang arsitektur ini tidak dapat memfasilitasi saat ini.

Wav2Lip-Emotion mempertahankan sinkronisasi bibir dari dialog audio video asli sambil mengubah ekspresi yang terkait.

Sebagai gantinya, Wav2Lip-Emotion secara efektif mencari untuk ‘menyalin dan menempel’ ekspresi yang terkait emosi dari satu bagian video dan menggantinya ke titik lain, dengan kemiskinan data sumber yang dipaksakan yang dimaksudkan untuk menawarkan metode manipulasi ekspresi yang lebih rendah-upaya.

Model offline bisa dikembangkan kemudian yang dilatih pada video alternatif dari pembicara, menghilangkan kebutuhan untuk satu video yang berisi ‘palet’ keadaan ekspresi untuk memanipulasi video.

Tujuan Potensial

Penulis menyarankan sejumlah aplikasi untuk modifikasi ekspresi, termasuk filter video langsung untuk mengkompensasi efek PTSD dan palsy wajah. Makalah tersebut mengamati:

‘Individu dengan atau tanpa ekspresi wajah yang terhambat mungkin mendapat manfaat dari menyetel ekspresi mereka sendiri untuk lebih sesuai dengan keadaan sosial mereka. Seseorang mungkin ingin mengubah ekspresi dalam video yang ditunjukkan kepada mereka. Pembicara mungkin berteriak satu sama lain selama konferensi video, tetapi tetap ingin mengumpulkan konten dalam pertukaran mereka tanpa ekspresi yang tidak menyenangkan. Atau sutradara film mungkin ingin meningkatkan atau mengurangi ekspresi aktor.’

Karena ekspresi wajah adalah indikator kunci dan inti dari niat, bahkan di mana mungkin menggores kata-kata yang diucapkan, kemampuan untuk mengubah ekspresi juga menawarkan, sampai batas tertentu, kemampuan untuk mengubah bagaimana komunikasi diterima.

Pekerjaan Sebelumnya

Minat dalam perubahan ekspresi pembelajaran mesin kembali setidaknya ke 2012, ketika kolaborasi antara Adobe, Facebook, dan Rutgers University mengusulkan metode untuk mengubah ekspresi dengan menggunakan pendekatan rekonstruksi geometri 3D berbasis Tensor, yang dengan susah payah mengimposkan mesh CGI ke setiap bingkai video target untuk menghasilkan perubahan.

Penelitian Adobe/Facebook 2012 memanipulasi ekspresi dengan mengimposkan perubahan CGI tradisional pada video. Ekspresi dapat ditingkatkan atau ditekan. Sumber: https://yfalan.github.io/files/papers/FeiYang_CV2Lip-Emotion012.pdf

Meskipun hasilnya menjanjikan, teknik ini membebani dan sumber daya yang dibutuhkan sangat besar. Pada saat itu, CGI jauh lebih maju daripada pendekatan berbasis penglihatan komputer untuk manipulasi ruang fitur langsung dan piksel.

Lebih terkait dengan makalah baru adalah MEAD, dataset dan model generasi ekspresi yang dirilis pada 2020, yang dapat menghasilkan video ‘talking-head’, meskipun tanpa tingkat kesophistikasian yang dapat diperoleh dengan memodifikasi video sumber langsung.

Generasi ekspresi dengan MEAD 2020, kolaborasi antara SenseTime Research, Carnegie Mellon, dan tiga universitas Tiongkok. Sumber: https://wywu.github.io/projects/MEAD/MEAD.html

Pada 2018, makalah lain, berjudul GANimation: Anatomically-aware Facial Animation from a Single Image, muncul sebagai kolaborasi penelitian akademis AS/Spanyol, dan menggunakan Jaringan Adversarial Generatif untuk meningkatkan atau mengubah ekspresi dalam gambar diam saja.

Mengubah ekspresi dalam gambar diam dengan GANimation. Sumber: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Sebagai gantinya, proyek baru ini didasarkan pada Wav2Lip, yang mengumpulkan perhatian pada 2020 dengan menawarkan metode potensial untuk menyelaraskan kembali gerakan bibir untuk mengakomodasi input ucapan atau nyanyian baru yang tidak pernah ada dalam video asli.

Arsitektur Wav2Lip asli dirilis di GitHub. Untuk menyesuaikan Wav2Lip dengan tugas perubahan ekspresi, peneliti ‘menghaluskan’ arsitektur pada dataset MEAD yang disebutkan di atas.

MEAD terdiri dari 40 jam video yang menampilkan 60 aktor membaca kalimat yang sama sambil melakukan berbagai ekspresi wajah. Aktor berasal dari 15 negara berbeda dan menawarkan berbagai karakteristik internasional yang bertujuan untuk membantu proyek (dan proyek turunan) untuk menghasilkan sintesis ekspresi yang dapat diterapkan dan umum.

Pada saat penelitian, MEAD hanya merilis bagian pertama dari dataset, yang menampilkan 47 individu yang melakukan ekspresi seperti ‘marah’, ‘jijik’, ‘takut’, ‘hina’, ‘gembira’, ‘sedih’, dan ‘terkejut’. Dalam debut awal ini, peneliti membatasi ruang lingkup proyek untuk mengimposkan atau mengubah emosi ‘gembira’ dan ‘sedih’, karena ini adalah yang paling mudah dikenali.

Metode dan Hasil

Arsitektur Wav2Lip asli hanya menggantikan bagian bawah wajah, sedangkan Wav2Lip-Emotion juga bereksperimen dengan masker penggantian wajah penuh dan sintesis ekspresi. Oleh karena itu, peneliti perlu memodifikasi metode evaluasi yang ada, karena ini tidak dirancang untuk konfigurasi wajah penuh.

Penulis memperbaiki kode asli dengan mempertahankan input audio asli, mempertahankan konsistensi gerakan bibir.

Elemen generator menampilkan pengkode identitas, pengkode ucapan, dan pengode wajah, sesuai dengan pekerjaan sebelumnya. Elemen ucapan dikodekan secara tambahan sebagai konvolusi 2D yang ditumpuk yang kemudian dikonkatenasikan ke bingkai yang terkait.

Selain elemen generatif, arsitektur yang dimodifikasi menampilkan tiga komponen diskriminator utama, yang menargetkan kualitas sinkronisasi bibir, elemen tujuan emosi, dan tujuan kualitas visual yang dilatih secara adversarial.

Untuk rekonstruksi wajah penuh, pekerjaan Wav2Lip asli tidak memiliki preseden, dan oleh karena itu modelnya dilatih dari awal. Untuk pelatihan wajah bagian bawah (setengah-masker), peneliti melanjutkan dari checkpoint yang disertakan dalam kode Wav2Lip asli.

Selain evaluasi otomatis, peneliti menggunakan opini yang diberikan oleh platform layanan semi-otomatis. Pekerja umumnya menilai output dengan tinggi dalam hal mengenali emosi yang diimposkan, sambil hanya melaporkan evaluasi ‘moderat’ untuk kualitas gambar.

Penulis menyarankan bahwa, selain memperbaiki kualitas video yang dihasilkan dengan penyempurnaan lebih lanjut, iterasi masa depan dari pekerjaan ini bisa mencakup berbagai emosi yang lebih luas, dan bahwa pekerjaan ini juga bisa diterapkan di masa depan pada data sumber yang diberi label atau diinferensikan secara otomatis dan dataset, yang pada akhirnya akan mengarah pada sistem yang autentik di mana emosi dapat ditekan atau dinaikkan sesuai keinginan pengguna, atau pada akhirnya digantikan oleh emosi yang berbeda dalam hal video sumber asli.