Kecerdasan buatan
Peneliti Mengidentifikasi Sifat Tangguh dari Deepfakes yang Dapat Membantu Deteksi Jangka Panjang

Sejak solusi deteksi deepfake pertama mulai muncul pada 2018, sektor penelitian visi komputer dan keamanan telah mencari untuk mendefinisikan sebuah karakteristik esensial dari video deepfake – sinyal yang bisa membuktikan resisten terhadap perbaikan dalam teknologi sintesis wajah populer (seperti paket deepfake berbasis autoencoder seperti DeepFaceLab dan FaceSwap, dan penggunaan Generative Adversarial Networks untuk merekayasa, mensimulasikan atau mengubah wajah manusia).
Banyak ‘tanda-tanda’, seperti kurangnya berkedip, menjadi usang karena perbaikan dalam deepfakes, sedangkan potensi penggunaan teknik provenance digital (seperti Content Authenticity Initiative yang dipimpin oleh Adobe) – termasuk pendekatan blockchain dan tanda air digital dari foto sumber potensial – baik memerlukan perubahan besar dan mahal pada tubuh gambar sumber yang ada di internet, atau else akan memerlukan upaya kooperatif yang signifikan di antara negara-negara dan pemerintah untuk menciptakan sistem pengawasan dan autentikasi.
Oleh karena itu, akan sangat berguna jika sebuah sifat dasar dan tangguh dapat ditemukan dalam konten gambar dan video yang menampilkan wajah manusia yang diubah, direkayasa, atau dipertukarkan identitas; sebuah karakteristik yang dapat diinferensikan langsung dari video palsu, tanpa verifikasi skala besar, pengkodean aset kriptografis, pemeriksaan konteks, evaluasi kemungkinan, rutinitas deteksi artifact, atau pendekatan lain yang membebani untuk deteksi deepfake.
Deepfakes dalam Bingkai
Sebuah kolaborasi penelitian baru antara Cina dan Australia percaya bahwa mereka telah menemukan ‘holy grail’ ini, dalam bentuk gangguan reguler.
Penulis telah merancang sebuah metode untuk membandingkan integritas spasial dan kontinuitas temporal dari video asli dengan yang mengandung konten deepfake, dan telah menemukan bahwa gangguan deepfake apa pun mengganggu reguleritas gambar, bagaimanapun tidak terlihat.
Ini sebagian karena proses deepfake memecah video target menjadi bingkai dan menerapkan efek model deepfake yang dilatih ke dalam setiap bingkai (substitusi). Distribusi deepfake populer bertindak dengan cara yang sama seperti animator, dalam hal ini, memberikan perhatian lebih pada autentikasi setiap bingkai daripada kontribusi setiap bingkai pada integritas spasial dan kontinuitas temporal keseluruhan video.

Dari makalah: A) Perbedaan antara jenis data. Di sini kita lihat bahwa gangguan p-fake mengubah kualitas spatio-temporal gambar dengan cara yang sama seperti deepfake, tanpa menggantikan identitas. B) Analisis noise dari tiga jenis data, menunjukkan bagaimana p-fake meniru gangguan deepfake. C) Visualisasi temporal dari tiga jenis data, dengan data asli menunjukkan integritas yang lebih besar dalam fluktuasi. D) visualisasi T-SNE dari fitur yang diekstrak untuk video asli, palsu, dan p-fake. Sumber: https://arxiv.org/pdf/2207.10402.pdf
Ini bukan cara codec video memperlakukan serangkaian bingkai ketika rekaman asli sedang dibuat atau diproses. Untuk menghemat ukuran file atau membuat video sesuai untuk streaming, sejumlah besar informasi dibuang oleh codec video. Bahkan pada pengaturan kualitas tertinggi, codec akan mengalokasikan bingkai kunci (variabel yang dapat diatur oleh pengguna) – gambar lengkap, hampir tidak terkompresi yang terjadi pada interval tertentu dalam video.
Bingkai antara bingkai kunci, sampai batas tertentu, diperkirakan sebagai varian dari bingkai, dan akan menggunakannya kembali sebanyak mungkin informasi dari bingkai kunci yang berdekatan, daripada menjadi bingkai lengkap dalam hak mereka sendiri.

Di sebelah kiri, bingkai kunci lengkap, atau ‘i-frame’, disimpan dalam video terkompresi, dengan biaya ukuran file; di sebelah kanan, bingkai antara ‘delta frame’ menggunakannya kembali bagian yang sesuai dari bingkai kunci yang lebih kaya data. Sumber: https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/
Dengan cara ini, blok (mengandung x jumlah bingkai, tergantung pada pengaturan bingkai kunci) secara argumentatif merupakan unit terkecil yang dipertimbangkan dalam video terkompresi yang khas, daripada bingkai individual apa pun. Bahkan bingkai kunci itu sendiri, yang dikenal sebagai i-frame, membentuk bagian dari unit tersebut.
Dalam hal animasi kartun tradisional, codec melakukan spesies in-betweening, dengan bingkai kunci yang beroperasi sebagai tiang tenda untuk bingkai antara yang dihasilkan, yang dikenal sebagai bingkai delta.

Dengan kontras, superimposisi deepfake memperhatikan perhatian dan sumber daya yang besar untuk setiap bingkai individual, tanpa mempertimbangkan konteks yang lebih luas dari bingkai, dan tanpa membuat akomodasi untuk cara kompresi dan pengkodean berbasis blok mempengaruhi karakteristik video ‘asli’.

Tampilan lebih dekat pada diskontinuitas antara kualitas temporal video asli (kiri), dan video yang sama ketika diganggu oleh deepfakes (kanan).
Meskipun beberapa deepfakers yang lebih baik menggunakan pemrosesan pasca yang luas, dalam paket seperti After Effects, dan meskipun distribusi DeepFaceLab memiliki kapasitas asli untuk menerapkan prosedur ‘pencampuran’ seperti motion blur, trik seperti itu tidak mempengaruhi ketidakcocokan antara kualitas spasial dan temporal antara video asli dan deepfake.
Makalah baru ini berjudul Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption, dan berasal dari peneliti di Tsinghua University, Departemen Teknologi Visi Komputer (VIS) di Baidu Inc., dan University of Melbourne
‘Palsu’ Video Palsu
Peneliti di balik makalah ini telah menggabungkan fungsionalitas penelitian ke dalam modul plug-and-play yang disebut Pseudo-fake Generator (P-fake Generator), yang mengubah video asli menjadi video palsu, dengan mengganggu mereka dengan cara yang sama seperti proses deepfake sebenarnya, tanpa melakukan operasi deepfake apa pun.
Tes menunjukkan bahwa modul dapat ditambahkan ke semua sistem deteksi deepfake yang ada dengan biaya sumber daya yang hampir nol, dan bahwa itu secara signifikan meningkatkan kinerjanya.
Penemuan ini dapat membantu mengatasi salah satu hambatan lain dalam penelitian deteksi deepfake: kurangnya dataset asli dan mutakhir. Karena generasi deepfake adalah proses yang rumit dan memakan waktu, komunitas telah mengembangkan sejumlah dataset deepfake selama lima tahun terakhir, banyak di antaranya sudah ketinggalan zaman.
Dengan mengisolasi gangguan reguler sebagai sinyal deepfake-agnostik untuk video yang diubah post-facto, metode baru ini memungkinkan untuk menghasilkan sampel dan dataset video yang tak terbatas yang fokus pada aspek deepfakes ini.

Tinjauan blok STE, di mana konvolusi temporal channel-wise digunakan sebagai pemicu untuk menghasilkan pengkodean yang ditingkatkan secara spatio-temporal, menghasilkan tanda tangan yang sama yang akan dihasilkan oleh deepfake yang sangat meyakinkan. Dengan metode ini, ‘palsu’ video palsu dapat dihasilkan yang memiliki karakteristik tanda tangan yang sama dengan video yang diubah, dan yang tidak bergantung pada distribusi tertentu, atau aspek-aspek yang mudah berubah seperti perilaku fitur atau artefak algoritma.
Tes
Peneliti melakukan eksperimen pada enam dataset yang terkenal digunakan dalam penelitian deteksi deepfake: FaceForensics++ (FF++); WildDeepFake; Deepfake Detection Challenge preview (DFDCP); Celeb-DF; Deepfake Detection (DFD); dan Face Shifter (FSh).
Untuk FF++, peneliti melatih model mereka pada dataset asli dan menguji setiap subset secara terpisah. Tanpa menggunakan bahan deepfake dalam pelatihan, metode baru ini dapat melampaui hasil state of the art.

Metode ini juga menduduki posisi teratas ketika dibandingkan dengan dataset FF++ C23 yang terkompresi, yang menyediakan contoh yang menampilkan artefak kompresi yang kredibel dalam lingkungan tampilan deepfake dunia nyata.

Penulis mengomentari:
‘Kinerja dalam FF++ memvalidasi kelayakan ide utama kita, sedangkan generalisasi masih menjadi masalah besar dalam metode deteksi deepfake yang ada, karena kinerja tidak dijamin ketika diuji pada deepfakes yang dihasilkan oleh teknik yang tidak terlihat.
‘Pertimbangkan lebih lanjut kenyataan perlombaan senjata antara detektor dan pembuat deepfake, generalisasi adalah kriteria penting untuk mengukur efektivitas metode deteksi di dunia nyata.’
Meskipun peneliti melakukan sejumlah sub-tes (lihat makalah untuk detail) sekitar ‘ketahanan’, dan mengubah jenis video input (yaitu asli, palsu, p-fake, dll.), hasil yang paling menarik adalah dari tes untuk kinerja antar-dataset.
Untuk ini, penulis melatih model mereka pada versi ‘dunia nyata’ c23 dari FF++, dan mengujinya melawan empat dataset, mendapatkan, menurut penulis, kinerja yang unggul di semua dataset.

Hasil dari tantangan antar-dataset. Makalah ini mencatat bahwa SBI menggunakan pendekatan yang serupa dengan pendekatan penulis, sedangkan, menurut klaim peneliti, p-fake menunjukkan kinerja yang lebih baik untuk gangguan reguleritas spatio-temporal.
Makalah ini menyatakan:
‘Pada Deepwild yang paling menantang, metode kami melampaui metode SOTA sekitar 10 poin persentase dalam hal AUC%. Kami pikir ini karena diversitas deepfake yang besar di Deepwild, yang membuat metode lain gagal untuk generalisasi dengan baik dari deepfakes yang terlihat.’
Metrik yang digunakan untuk tes adalah Skor Akurasi (ACC), Area Di Bawah Kurva Karakteristik Operasi Penerima (AUC), dan Tingkat Kesalahan Sama (EER).
Serangan Balasan?
Meskipun media menggambarkan ketegangan antara pengembang deepfake dan peneliti deteksi deepfake dalam hal perang teknologi, argumen bahwa yang pertama hanya mencoba membuat output yang lebih meyakinkan, dan bahwa kesulitan deteksi deepfake yang meningkat adalah produk sampingan dari upaya ini.
Apakah pengembang akan mencoba mengatasi kelemahan baru ini tergantung, mungkin, pada apakah mereka merasa bahwa gangguan reguler dapat dilihat dalam video deepfake oleh mata telanjang, sebagai tanda ketidakaslian, dan bahwa oleh karena itu metrik ini layak ditangani dari sudut pandang kualitatif murni.
Meskipun lima tahun telah berlalu sejak deepfake pertama kali online, deepfaking masih merupakan teknologi yang relatif baru, dan komunitasnya secara argumen lebih terobsesi dengan detail dan resolusi daripada konteks yang benar, atau mencocokkan tanda tangan video terkompresi, keduanya memerlukan ‘degradasi’ output – hal yang sama yang sedang dilawan oleh komunitas deepfake secara keseluruhan.
Jika konsensus umum di sana ternyata bahwa gangguan reguler adalah tanda tangan yang baru lahir yang tidak mempengaruhi kualitas, maka mungkin tidak akan ada upaya untuk mengkompensasinya – bahkan jika itu dapat dibatalkan oleh beberapa proses pasca atau prosedur arsitektur, yang jauh dari jelas.
Pertama kali diterbitkan 22 Juli 2022.












