Terhubung dengan kami

Kecerdasan Buatan

Deteksi Deepfake Berdasarkan Sifat Biometrik Asli Manusia

mm
Gambar diproduksi oleh deepfaker di DeepFaceLab Discord Channel
Gambar diproduksi oleh deepfaker di DeepFaceLab Discord Channel

Sebuah makalah baru dari para peneliti di Italia dan Jerman mengusulkan metode untuk mendeteksi video deepfake berdasarkan wajah biometrik dan perilaku suara, daripada artefak yang dibuat oleh sistem sintesis wajah, solusi watermarking yang mahal, atau pendekatan lain yang lebih berat.

Framework ini membutuhkan input 10 atau lebih video non-palsu subjek yang bervariasi. Namun, itu tidak perlu dilatih, dilatih ulang, atau ditambah secara khusus pada video per kasus, karena model yang tergabung telah mengabstraksi kemungkinan jarak vektor antara video asli dan palsu dengan cara yang dapat diterapkan secara luas.

Pembelajaran kontrastif mendukung pendekatan POI-Forensik. Vektor yang berasal dari materi sumber berdasarkan per kasus dibandingkan dengan vektor yang sama dalam video palsu potensial, dengan aspek dan ciri yang diambil dari komponen video dan audio dari rekaman yang berpotensi dipalsukan. Sumber: https://arxiv.org/pdf/2204.03083.pdf

Pembelajaran kontrastif mendukung pendekatan POI-Forensik. Vektor yang berasal dari materi sumber berdasarkan per kasus dibandingkan dengan vektor yang sama dalam video palsu potensial, dengan aspek dan ciri yang diambil dari komponen video dan audio dari rekaman yang berpotensi dipalsukan. Sumber: https://arxiv.org/pdf/2204.03083.pdf

Bergelar POI-Forensik, pendekatan ini bergantung pada isyarat gerakan dan audio yang unik untuk individu asli yang dipalsukan.

Meskipun sistem seperti itu dapat memungkinkan kerangka otentikasi 'pre-rendered' sepenuhnya otomatis untuk selebritas, politisi, influencer YouTube, dan orang lain yang banyak materi videonya tersedia, itu juga dapat diadaptasi ke dalam kerangka kerja di mana korban biasa teknologi deepfake berpotensi memiliki platform untuk membuktikan ketidakaslian serangan terhadapnya.

Visualisasi fitur yang diekstraksi dari video asli dan palsu di empat subjek dalam POI-Forensik, melalui kerangka kerja t-SNE.

Visualisasi fitur yang diekstraksi dari video asli dan palsu di empat subjek dalam POI-Forensik, melalui kerangka t-SNE.

Para penulis mengklaim bahwa POI-Forensik mencapai seni baru dalam deteksi deepfake. Di berbagai kumpulan data umum di bidang ini, kerangka kerja ini dilaporkan mencapai peningkatan skor AUC masing-masing sebesar 3%, 10%, dan 7% untuk video berkualitas tinggi, berkualitas rendah, dan 'menyerang'. Para peneliti berjanji untuk melepaskan kode segera.

Performa POI-Forensik melawan kerangka kerja SOTA saingan pDFDC, DeepFakeTIMIT, FakeAVCelebV2, dan KoDF. Pelatihan dalam setiap kasus dilakukan pada FaceForensics++, ID-Reveal dan metode penulis pada VoxCeleb2. Hasil mencakup video berkualitas tinggi dan rendah.

Performa POI-Forensik melawan kerangka kerja SOTA saingan PDFDC, DeepFakeTIMIT, PalsuAVCelebV2, dan KoDF. Pelatihan dalam setiap kasus dilakukan pada FaceForensics ++ dan penulis sendiri Pengungkapan ID di VoxCeleb2. Hasil mencakup video berkualitas tinggi dan rendah.

Para penulis menyatakan:

'Pelatihan dilakukan secara eksklusif pada video wajah berbicara nyata, sehingga detektor tidak bergantung pada metode manipulasi tertentu dan menghasilkan kemampuan generalisasi tertinggi. Selain itu, metode kami dapat mendeteksi serangan single-modality (audio-only, video-only) dan multi-modality (audio-video), dan kuat untuk video berkualitas rendah atau rusak dengan membangun hanya pada fitur semantik tingkat tinggi .'

Baru kertas, yang menggabungkan unsur-unsur dari beberapa penulis berbasis visi Pengungkapan ID proyek tahun 2021, berjudul Deteksi DeepFake Orang Menarik Audio-Visual, dan merupakan upaya bersama antara University of Federico II di Naples dan Technical University of Munich.

Perlombaan Senjata Deepfake

Untuk mengalahkan sistem deteksi seperti ini, sistem deepfake dan sintesis manusia akan membutuhkan kemampuan untuk setidaknya mensimulasikan isyarat biometrik visual dan audio dari target sintesis yang diinginkan – teknologi yang masih bertahun-tahun lagi, dan kemungkinan akan tetap berada dalam jangkauan sistem tertutup mahal dan berpemilik yang dikembangkan oleh perusahaan VFX, yang akan memiliki keuntungan dari kerja sama dan partisipasi target yang dimaksud (atau perkebunan mereka, dalam kasus simulasi orang yang meninggal).

Pendekatan penulis sebelumnya, ID-Reveal, berkonsentrasi sepenuhnya pada informasi visual. Sumber: https://arxiv.org/pdf/2012.02512.pdf

Pendekatan penulis sebelumnya, ID-Reveal, berkonsentrasi sepenuhnya pada informasi visual. Sumber: https://arxiv.org/pdf/2012.02512.pdf

Metode deepfake yang sukses dan populer seperti Tukar Muka dan Lab Wajah Dalam/hidup saat ini tidak memiliki kapasitas untuk membuat perkiraan biometrik granular seperti itu, dengan mengandalkan yang terbaik pada yang berbakat peniru kepada siapa identitas palsu itu dipaksakan, dan lebih sering lagi pada rekaman in-the-wild yang tepat dari orang-orang 'mirip'. Juga struktur kode inti 2017, yang memiliki sedikit modularitas dan yang tetap menjadi sumber upstream untuk DFL dan FaceSwap, membuat penambahan fungsionalitas semacam ini menjadi layak.

Dua paket deepfake dominan ini didasarkan pada autoencoder. Metode sintesis manusia alternatif dapat menggunakan Generative Adversarial Network (GAN) atau Neural Radiance Field (NeRF) pendekatan untuk menciptakan kembali identitas manusia; tetapi kedua lini penelitian ini memiliki pekerjaan bertahun-tahun ke depan bahkan untuk menghasilkan video manusia yang sepenuhnya fotorealistik.

Dengan pengecualian audio (suara palsu), simulasi biometrik berada jauh di bawah daftar tantangan yang dihadapi sintesis gambar manusia. Bagaimanapun, mereproduksi timbre dan kualitas lain dari suara manusia tidak mereproduksi keeksentrikannya dan 'bercerita', atau cara subjek sebenarnya menggunakan konstruksi semantik. Oleh karena itu, bahkan kesempurnaan simulasi suara yang dihasilkan AI tidak memecahkan potensi firewall keaslian biometrik.

Di Arxiv saja, ada beberapa strategi dan inovasi deteksi deepfake dirilis setiap minggu. Pendekatan terbaru telah bergantung pada Homogenitas Suara-Wajah, Histogram Pola Biner Lokal (FF-LBPH), persepsi manusia tentang audio deepfake, menganalisis batas muka, memperhitungkan degradasi video, dan 'Balistik Forensik' – di antara banyak lainnya.

analisis istogram adalah salah satu teknik terbaru yang ditawarkan untuk meningkatkan deteksi deepfake. Sumber: https://arxiv.org/pdf/2203.09928.pdf

Analisis histogram tersegmentasi adalah salah satu teknik terbaru yang ditawarkan untuk meningkatkan deteksi deepfake. Sumber: https://arxiv.org/pdf/2203.09928.pdf

Pendekatan, Data dan Arsitektur

POI-Forensik mengambil pendekatan multi-modal untuk verifikasi identitas, memanfaatkan biometrik lunak berdasarkan petunjuk visual dan audio. Framework ini menampilkan jaringan audio dan video terpisah, yang pada akhirnya memperoleh data vektor karakteristik yang dapat dibandingkan dengan fitur yang diekstrak sama dalam video deepfake potensial yang sedang dipelajari.

Arsitektur POI-Forensik.

Arsitektur konseptual POI-Forensik.

Analisis terpisah (audio atau video) dan fusi dapat dilakukan pada klip target, yang akhirnya sampai pada indeks kesamaan POI. Fungsi kerugian kontrastif yang digunakan didasarkan pada tahun 2021 kerjasama akademik antara Google Research, Universitas Boston, Snap Inc., dan MIT.

Basis dataset dibagi berdasarkan per identitas. 4608 identitas digunakan untuk pelatihan, dengan 512 sisanya untuk validasi. 500 identitas yang digunakan di FakeAVCelebV2 (kandidat pengujian, lihat di bawah) dikeluarkan untuk mendapatkan hasil yang tidak terpolarisasi.

Kedua jaringan dilatih selama 12 epoch dengan ukuran batch yang luar biasa besar yaitu 2304 batch per epoch, dengan setiap batch terdiri dari segmen video 8×8 – 8 segmen untuk 8 identitas berbeda. Pengoptimal Adam digunakan dengan dipisahkan penurunan berat badan dengan kecepatan belajar 10-4, dan peluruhan berat 0.01.

Pengujian dan Hasil

Kumpulan data deepfake yang diuji untuk proyek tersebut adalah pratinjau kumpulan data Tantangan Deteksi DeepFake, yang menampilkan pertukaran wajah di 68 subjek, dari mana 44 identitas dipilih yang memiliki lebih dari sembilan video terkait, dengan total 920 video asli dan 2925 video palsu; DeepFake-TIMIT, kumpulan data berbasis GAN yang menampilkan 320 video dari 32 subjek, dengan total 290 video asli dan 580 video palsu dengan durasi minimal empat detik; PalsuAVCelebV2, terdiri dari 500 video nyata dari Voxceleb2, dan sekitar 20,000 video palsu dari berbagai kumpulan data, yang ditambahkan dengan audio tiruan palsu SV2TTS untuk kompatibilitas; dan KoDF, kumpulan data deepfake Korea dengan 403 identitas yang dipalsukan melalui FaceSwap, DeepFaceLab, dan FSGAN, serta tiga Model Gerak Orde Pertama (FOMM).

Yang terakhir ini juga menampilkan sintesis wajah yang digerakkan oleh audio ATFHP, dan keluaran dari Wav2Bibir, dengan penulis menggunakan kumpulan data turunan yang menampilkan 276 video asli dan 544 video palsu.

Metrik yang digunakan termasuk area di bawah kurva karakteristik operasi penerima (AUC), dan perkiraan 'tingkat alarm palsu' 10%, yang akan menjadi masalah dalam kerangka kerja yang memasukkan dan melatih data palsu, tetapi kekhawatiran tersebut ditiadakan oleh fakta bahwa POI-Forensics hanya mengambil rekaman video asli sebagai inputnya.

Metode diuji terhadap Seferbekov detektor deepfake, yang meraih posisi pertama dalam Kaggle Deepfake Detection Tantangan; FTCN (Jaringan Konvolusi Sepenuhnya Temporal), sebuah kolaborasi antara Universitas Xiamen China dan Microsoft Research Asia; Forensik Bibir, karya bersama tahun 2021 antara Imperial College London dan Facebook; Dan Pengungkapan ID, proyek sebelumnya dari beberapa peneliti makalah baru, yang menghilangkan aspek audio, dan yang menggunakan Model Morphable 3D yang dikombinasikan dengan skenario permainan permusuhan untuk mendeteksi keluaran palsu.

Dalam hasil (lihat tabel sebelumnya di atas), POI-Forensik mengungguli pemimpin rujukan Seferbekov sebesar 2.5% dalam AUC, dan 1.5% dalam hal akurasi. Performa lebih kompetitif dibandingkan kumpulan data lain di kantor pusat.

Namun, pendekatan baru ini menunjukkan keunggulan yang menonjol atas semua metode referensi yang bersaing untuk video berkualitas rendah, yang tetap menjadi skenario yang paling mungkin di mana deepfake cenderung menipu pemirsa biasa, berdasarkan konteks 'dunia nyata'.

Para penulis menegaskan:

'Memang, dalam skenario yang menantang ini, hanya pendekatan berbasis identitas yang tetap memberikan kinerja yang baik, karena mereka mengandalkan fitur semantik tingkat tinggi, cukup kuat untuk gangguan gambar.'

Mempertimbangkan bahwa PIO-Forensik hanya menggunakan video nyata sebagai materi sumber, pencapaian tersebut dapat diperbesar, dan menunjukkan bahwa menggunakan ciri-ciri biometrik asli dari calon korban deepfake adalah jalan yang bermanfaat untuk keluar dari 'perang dingin artefak' antara perangkat lunak deepfake dan deteksi deepfake solusi.

Dalam tes terakhir, para peneliti menambahkan kebisingan permusuhan ke input, sebuah metode yang dapat diandalkan untuk mengelabui pengklasifikasi. Yang sekarang dimuliakan metode tanda gradien cepat masih terbukti sangat efektif, dalam hal ini.

Bisa ditebak, strategi serangan permusuhan menurunkan tingkat keberhasilan di semua metode dan kumpulan data, dengan AUC turun secara bertahap antara 10% hingga 38%. Namun, hanya POI-Forensik, dan metode ID-Reveal penulis sebelumnya yang mampu mempertahankan kinerja yang wajar di bawah skenario serangan ini, menunjukkan bahwa fitur tingkat tinggi yang terkait dengan biometrik lunak sangat tahan terhadap penghindaran deteksi deepfake.

Penulis menyimpulkan:

'Secara keseluruhan, kami yakin metode kami adalah batu loncatan pertama; khususnya, penggunaan fitur semantik tingkat tinggi adalah jalan masa depan yang menjanjikan untuk penelitian di masa depan. Selain itu, analisis multimodal dapat lebih diperkaya dengan memasukkan lebih banyak informasi dari domain lain seperti data tekstual.'

 

Pertama kali diterbitkan 8 April 2022.

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai