Kecerdasan buatan
Detektor Deepfake Mengejar Tanah Baru: Model Difusi Laten dan GAN

Opini
Baru-baru ini, komunitas penelitian deteksi deepfake, yang sejak akhir 2017 hampir secara eksklusif ditempati oleh kerangka kerja berbasis autoencoder yang premier pada saat itu dengan kekaguman publik (dan kekecewaan), telah mulai mengambil minat forensik pada arsitektur yang kurang stagnan, termasuk model difusi laten seperti DALL-E 2 dan Stable Diffusion, serta output dari Generative Adversarial Networks (GANs). Misalnya, pada Juni, UC Berkeley menerbitkan hasil penelitian mereka tentang pengembangan detektor untuk output DALL-E 2 yang saat itu dominan.
Apa yang tampaknya mendorong minat yang tumbuh ini adalah lompatan evolusi tiba-tiba dalam kemampuan dan ketersediaan model difusi laten pada 2022, dengan rilis tertutup dan akses terbatas DALL-E 2 pada musim semi, diikuti pada akhir musim panas oleh pembukaan sumber Stable Diffusion oleh stability.ai.
GANs juga telah lama dipelajari dalam konteks ini, meskipun kurang intensif, karena sangat sulit untuk menggunakannya untuk rekreasi video yang meyakinkan dan rumit dari orang; setidaknya, dibandingkan dengan paket autoencoder yang sudah mapan seperti FaceSwap dan DeepFaceLab – dan sepupu live-streaming terakhir, DeepFaceLive.
Gambar Bergerak
Inilah yang terjadi, faktor pendorong tampaknya adalah prospek dari sprint pengembangan selanjutnya untuk video sintesis. Awal Oktober – dan musim konferensi utama 2022 – ditandai dengan serangkaian solusi tiba-tiba dan tidak terduga untuk berbagai masalah sintesis video yang sudah lama: tidak lama setelah Facebook merilis sampel dari platform text-to-video mereka, Google Research segera mengalahkan pujian awal itu dengan mengumumkan arsitektur Imagen-to-Video T2V baru, yang dapat menghasilkan footage resolusi tinggi (meskipun hanya melalui jaringan upscaler 7 lapis).
Jika Anda percaya bahwa hal seperti ini datang dalam tiga, pertimbangkan juga janji misterius stability.ai bahwa ‘video akan datang’ ke Stable Diffusion, tampaknya kemudian tahun ini, sementara co-developer Runway dari Stable Diffusion telah membuat janji serupa, meskipun tidak jelas apakah mereka merujuk pada sistem yang sama. Pesan Discord dari CEO Emad Mostaque juga berjanji ‘audio, video [dan] 3d’.
Apa yang nampaknya sedang terjadi adalah bahwa ‘statik’ kerangka seperti GAN dan diffuser akhirnya akan mengambil tempat mereka sebagai adjunct pendukung untuk kerangka animasi eksternal. Dalam singkat, tampaknya kemungkinan bahwa dunia video deepfake berbasis autoencoder yang terhambat, yang hanya dapat menggantikan bagian tengah wajah, bisa dalam waktu setahun ke depan akan digantikan oleh generasi baru teknologi deepfake yang berbasis difusi – pendekatan populer, open source dengan potensi untuk memalsukan tidak hanya tubuh secara fotorealistis, tetapi juga adegan secara keseluruhan.
Karena itu, mungkin, komunitas penelitian anti-deepfake mulai mengambil sintesis gambar serius, dan menyadari bahwa itu mungkin dapat digunakan untuk lebih dari sekadar menghasilkan foto profil LinkedIn palsu; dan bahwa jika semua ruang laten yang tidak dapat diatasi dapat melakukan dalam hal gerakan temporal adalah untuk bertindak sebagai renderer tekstur yang sangat baik, itu mungkin sudah cukup.
Blade Runner
Kedua kertas terbaru yang membahas, masing-masing, deteksi deepfake berbasis model difusi laten dan GAN, adalah, masing-masing, DE-FAKE: Deteksi dan Atribusi Gambar Palsu yang Dihasilkan oleh Model Difusi Text-to-Image, kolaborasi antara CISPA Helmholtz Center for Information Security dan Salesforce; dan BLADERUNNER: Tindakan Cepat untuk Wajah StyleGAN Sintetis (AI-Generated), dari Adam Dorian Wong di Laboratorium Lincoln MIT.
Sebelum menjelaskan metode barunya, kertas kedua menghabiskan waktu untuk memeriksa pendekatan sebelumnya untuk menentukan apakah sebuah gambar dihasilkan oleh GAN (kertas tersebut secara khusus menangani keluarga StyleGAN dari NVIDIA).
Metode ‘Brady Bunch’ – mungkin sebuah referensi yang tidak berarti bagi siapa pun yang tidak menonton TV pada 1970-an, atau yang melewatkan adaptasi film 1990-an – mengidentifikasi konten GAN-palsu berdasarkan posisi tetap yang pasti ditempati oleh bagian-bagian tertentu dari wajah GAN, karena sifat produksi yang rutin dan templated.
Metode lain yang berguna adalah ketidakmampuan StyleGAN untuk merender beberapa wajah (gambar pertama di bawah), jika perlu, serta kurangnya bakat dalam koordinasi aksesori (gambar tengah di bawah), dan kecenderungan untuk menggunakan garis rambut sebagai awal topi yang tidak terduga (gambar ketiga di bawah).
Arsitektur yang diusulkan dalam kertas baru ini diberi judul (mungkin melawan semua saran SEO) Blade Runner, merujuk pada tes Voight-Kampff yang menentukan apakah antagonis dalam waralaba fiksi ilmiah adalah ‘palsu’ atau tidak.
Pipeline ini terdiri dari dua fase, fase pertama adalah analyzer PapersPlease, yang dapat mengevaluasi data yang dikumpulkan dari situs wajah GAN yang dikenal seperti thispersondoesnotexist.com, atau generated.photos.
Modul kedua adalah detektor AmongUs. Sistem ini dirancang untuk mencari penempatan mata yang terkoordinasi dalam foto, sebuah fitur yang konsisten dari output wajah StyleGAN, yang ditandai dengan skenario ‘Brady Bunch’ yang dijelaskan di atas. AmongUs didukung oleh detektor landmark 68-landmark standar.
DE-FAKE
Arsitektur DE-FAKE bertujuan tidak hanya untuk mencapai ‘deteksi universal’ untuk gambar yang dihasilkan oleh model difusi text-to-image, tetapi juga untuk menyediakan metode untuk mengetahui mana model difusi laten (LD) yang menghasilkan gambar.
Untuk jujur, saat ini ini adalah tugas yang cukup sederhana, karena sebagian besar model LD populer – tertutup atau open source – memiliki karakteristik pembeda yang mencolok.
Tambahan lagi, sebagian besar berbagi beberapa kelemahan umum, seperti kecenderungan untuk memotong kepala, karena cara sewenang-wenang bahwa gambar web yang diambil secara acak dimasukkan ke dalam dataset besar yang memuat sistem seperti DALL-E 2, Stable Diffusion, dan MidJourney:
DE-FAKE dimaksudkan untuk menjadi algoritma-agnostik, sebuah tujuan yang lama dicita-citakan oleh peneliti anti-deepfake berbasis autoencoder, dan, saat ini, cukup dapat dicapai dalam hal sistem LD.
Arsitektur ini menggunakan perpustakaan multimodal Contrastive Language-Image Pretraining (CLIP) dari OpenAI – sebuah elemen esensial dalam Stable Diffusion, dan cepat menjadi jantung dari gelombang baru sistem sintesis gambar/video – sebagai cara untuk mengekstrak embedding dari gambar LD ‘palsu’ dan melatih klasifikasi pada pola dan kelas yang diamati.
Hasil tim ini sangat positif karena dua alasan: tidak ada pekerjaan sebelumnya yang signifikan untuk dibandingkan (dan tidak ada yang menawarkan perbandingan yang adil, yaitu yang mencakup dua belas minggu sejak Stable Diffusion dirilis ke open source).
Kedua, seperti disebutkan di atas, meskipun bidang sintesis gambar LD berkembang dengan kecepatan eksponensial, konten output dari penawaran saat ini secara efektif menandai dirinya sendiri karena kelemahan struktural (dan sangat dapat diprediksi) dan keanehan – banyak di antaranya kemungkinan akan diperbaiki, dalam kasus Stable Diffusion setidaknya, dengan rilis checkpoint 1,5 (yaitu model 4GB yang dilatih yang memuat sistem).
Saat itu, Stability telah menunjukkan bahwa mereka memiliki roadmap yang jelas untuk V2 dan V3 dari sistem. Mengingat peristiwa utama selama tiga bulan terakhir, setiap kelesuan korporat dari pemain lain di ruang sintesis gambar kemungkinan telah menguap, yang berarti kita dapat mengharapkan laju kemajuan yang serupa di ruang sintesis gambar tertutup.
Pertama kali diterbitkan 14 Oktober 2022.












