potongan Detektor Deepfake Mengejar Lapangan Baru: Model Difusi Laten dan GAN - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Detektor Deepfake Mengejar Hal Baru: Model Difusi Laten dan GAN

mm
Updated on

Pendapat   Akhir-akhir ini, komunitas riset deteksi deepfake, yang sejak akhir 2017 sibuk hampir secara eksklusif dengan penyandi otomatiskerangka kerja berbasis yang ditayangkan perdana pada waktu itu dengan kekaguman publik (dan kecemasan), telah mulai menaruh minat forensik pada arsitektur yang kurang stagnan, termasuk difusi laten model seperti DALL-E2 dan Difusi Stabil, serta keluaran dari Generative Adversarial Networks (GANs). Misalnya, pada bulan Juni, UC Berkeley menerbitkan hasilnya penelitiannya tentang pengembangan detektor untuk keluaran DALL-E 2 yang dominan saat itu.

Apa yang tampaknya mendorong minat yang berkembang ini adalah lompatan evolusioner yang tiba-tiba dalam kemampuan dan ketersediaan model difusi laten pada tahun 2022, dengan sumber tertutup dan akses terbatas. melepaskan dari DALL-E 2 di musim semi, diikuti di akhir musim panas oleh yang sensasional sumber terbuka Difusi Stabil oleh stability.ai.

GAN juga pernah lama dipelajari dalam konteks ini, meskipun kurang intensif, karena memang demikian sangat sulit untuk menggunakannya untuk rekreasi orang berbasis video yang meyakinkan dan rumit; setidaknya, dibandingkan dengan paket autoencoder yang sekarang dihormati seperti Tukar Muka dan Lab Wajah Dalam – dan sepupu streaming langsung yang terakhir, DeepFaceLive.

Gambar bergerak

Dalam kedua kasus tersebut, faktor penggembleng tampaknya menjadi prospek sprint perkembangan berikutnya video perpaduan. Awal Oktober – dan musim konferensi utama tahun 2022 – ditandai dengan solusi tiba-tiba dan tak terduga untuk berbagai masalah sintesis video yang sudah berlangsung lama: tidak lama setelah Facebook sampel yang dirilis dari platform teks-ke-videonya sendiri, daripada Google Research dengan cepat menenggelamkan pengakuan awal itu dengan mengumumkan arsitektur T2V Imagen-to-Video barunya, yang mampu menghasilkan rekaman resolusi tinggi (walaupun hanya melalui jaringan upscaler 7 lapis).

Jika Anda percaya bahwa hal semacam ini datang bertiga, pertimbangkan juga janji misterius stabilitas.ai bahwa 'video akan datang' ke Stable Diffusion, tampaknya akhir tahun ini, sementara co-developer Stable Diffusion Runway memiliki membuat janji serupa, meskipun tidak jelas apakah mereka mengacu pada sistem yang sama. Itu Pesan perselisihan dari CEO Stability Emad Mostaque juga berjanji 'audio, video [dan] 3d'.

Apa dengan penawaran out-of-the-blue dari beberapa yang baru kerangka generasi audio (beberapa didasarkan pada difusi laten), dan model difusi baru yang dapat dihasilkan gerakan karakter otentik, gagasan bahwa kerangka kerja 'statis' seperti GAN dan diffusers akhirnya akan mengambil tempatnya sebagai pendukung tambahan kerangka kerja animasi eksternal mulai mendapatkan daya tarik yang nyata.

Singkatnya, sepertinya dunia deepfake video berbasis autoencoder telah dilumpuhkan, yang hanya dapat secara efektif menggantikan bagian tengah wajah, saat ini tahun depan dapat dikalahkan oleh generasi baru teknologi berkemampuan deepfake berbasis difusi – pendekatan open source populer dengan potensi memalsukan secara fotorealistik tidak hanya seluruh tubuh, tetapi seluruh pemandangan.

Untuk alasan ini, mungkin, komunitas riset anti-deepfake mulai menganggap sintesis gambar dengan serius, dan menyadari bahwa hal itu mungkin lebih bermanfaat daripada sekadar menghasilkan foto profil LinkedIn palsu; dan bahwa jika semua ruang laten mereka yang sulit diselesaikan dapat dicapai dalam hal gerak temporal adalah untuk bertindak sebagai perender tekstur yang sangat hebat, itu mungkin sebenarnya lebih dari cukup.

Blade Runner

Dua makalah terbaru untuk membahas, masing-masing, difusi laten dan deteksi deepfake berbasis GAN, masing-masing adalah, DE-FAKE: Deteksi dan Atribusi Gambar Palsu yang Dihasilkan oleh Model Difusi Teks-ke-Gambar, kolaborasi antara CISPA Helmholtz Center for Information Security and Salesforce; Dan BLADERUNNER: Penanggulangan Cepat untuk Wajah StyleGAN Sintetis (Dihasilkan AI)., dari Adam Dorian Wong di Laboratorium Lincoln MIT.

Sebelum menjelaskan metode barunya, makalah terakhir membutuhkan waktu untuk memeriksa pendekatan sebelumnya untuk menentukan apakah suatu gambar dihasilkan oleh GAN atau tidak (makalah tersebut secara khusus membahas keluarga StyleGAN NVIDIA).

Metode 'Brady Bunch' – mungkin a referensi yang tidak berarti bagi siapa pun yang tidak menonton TV pada tahun 1970-an, atau yang melewatkan adaptasi film tahun 1990-an – mengidentifikasi konten palsu GAN berdasarkan posisi tetap yang pasti akan ditempati oleh bagian tertentu dari wajah GAN, karena sifat hafalan dan templat dari 'proses produksi'.

Metode 'Brady Bunch' yang dikemukakan oleh webcast dari SANS institute pada tahun 2022: generator wajah berbasis GAN akan melakukan penempatan fitur wajah tertentu yang tidak mungkin seragam, memungkiri asal foto, dalam kasus tertentu. Sumber: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

Metode 'Brady Bunch' yang dikemukakan oleh webcast dari SANS institute pada tahun 2022: generator wajah berbasis GAN akan melakukan penempatan fitur wajah tertentu yang tidak mungkin seragam, memungkiri asal foto, dalam kasus tertentu. Sumber: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

Indikasi berguna lainnya yang diketahui adalah ketidakmampuan StyleGAN yang sering membuat banyak wajah (gambar pertama di bawah), jika perlu, serta kurangnya bakat dalam koordinasi aksesori (gambar tengah di bawah), dan kecenderungan untuk menggunakan garis rambut sebagai awal dari gambar dadakan. topi (gambar ketiga di bawah).

Metode ketiga yang menarik perhatian peneliti adalah hamparan foto (contohnya bisa dilihat di artikel Agustus kami pada diagnosis gangguan kesehatan mental dengan bantuan AI), yang menggunakan perangkat lunak 'pencampuran gambar' komposisional seperti seri CombineZ untuk menggabungkan beberapa gambar menjadi satu gambar, sering mengungkapkan kesamaan yang mendasari struktur – indikasi potensi sintesis.

Arsitektur yang diusulkan dalam makalah baru berjudul (mungkin bertentangan dengan semua saran SEO) Blade Runner, merujuk pada Tes Voight-Kampff yang menentukan apakah antagonis dalam franchise sci-fi itu 'palsu' atau tidak.

Pipeline terdiri dari dua fase, yang pertama adalah penganalisis PapersPlease, yang dapat mengevaluasi data yang diambil dari situs web GAN yang dikenal seperti thispersondoesnotexist.com, atau generate.photos.

Meskipun versi kode yang dipotong dapat diperiksa di GitHub (lihat di bawah) beberapa detail disediakan tentang modul ini, kecuali bahwa OpenCV dan DLIB digunakan untuk menguraikan dan mendeteksi wajah dalam materi yang dikumpulkan.

Modul kedua adalah Di antara kita detektor. Sistem ini dirancang untuk mencari penempatan mata yang terkoordinasi dalam foto, fitur tetap keluaran wajah StyleGAN, yang dicirikan dalam skenario 'Brady Bunch' yang dijelaskan di atas. AmongUs ditenagai oleh detektor 68 tengara standar.

Anotasi titik wajah melalui Intelligent Behavior Understanding Group (IBUG), yang kode plotting landmark wajahnya digunakan dalam paket Blade Runner.

Anotasi titik wajah melalui Intelligent Behavior Understanding Group (IBUG), yang kode plotting landmark wajahnya digunakan dalam paket Blade Runner.

AmongUs bergantung pada bangunan terkenal yang telah dilatih sebelumnya berdasarkan koordinat 'Brady bunch' yang diketahui dari PapersPlease, dan dimaksudkan untuk digunakan pada sampel langsung gambar wajah berbasis StyleGAN yang menghadap ke web.

Blade Runner, saran penulis, adalah solusi plug-and-play yang ditujukan untuk perusahaan atau organisasi yang kekurangan sumber daya untuk mengembangkan solusi internal untuk jenis deteksi deepfake yang dibahas di sini, dan 'langkah stop-gap untuk mengulur waktu penanggulangan yang lebih permanen'.

Nyatanya, di sektor keamanan yang bergejolak dan berkembang pesat ini, tidak banyak yang dipesan lebih dahulu or solusi vendor cloud off-the-rack yang saat ini dapat digunakan oleh perusahaan yang kekurangan sumber daya dengan percaya diri.

Padahal Blade Runner tampil buruk melawan berkaca mata Orang-orang yang memalsukan StyleGAN, ini adalah masalah yang relatif umum di seluruh sistem serupa, yang berharap dapat mengevaluasi penggambaran mata sebagai titik referensi inti, dikaburkan dalam kasus seperti itu.

Versi Blade Runner yang diperkecil telah dirilis untuk membuka sumber di GitHub. Ada versi kepemilikan yang lebih kaya fitur, yang dapat memproses banyak foto, daripada satu foto per pengoperasian repositori sumber terbuka. Penulis bermaksud, katanya, untuk memutakhirkan versi GitHub ke standar yang sama pada akhirnya, seiring waktu memungkinkan. Dia juga mengakui bahwa StyleGAN kemungkinan akan berkembang melampaui kelemahannya yang diketahui atau saat ini, dan perangkat lunak juga perlu dikembangkan secara bersamaan.

DE-PALSU

Arsitektur DE-FAKE bertujuan tidak hanya untuk mencapai 'deteksi universal' untuk gambar yang dihasilkan oleh model difusi teks-ke-gambar, tetapi untuk menyediakan metode untuk membedakan yang model difusi laten (LD) menghasilkan gambar.

Kerangka kerja deteksi universal dalam DE-FAKE menangani gambar lokal, kerangka kerja hibrid (hijau), dan gambar dunia terbuka (biru). Sumber: http://export.arxiv.org/pdf/2210.06998

Kerangka kerja deteksi universal dalam DE-FAKE menangani gambar lokal, kerangka kerja hibrid (hijau), dan gambar dunia terbuka (biru). Sumber: http://export.arxiv.org/pdf/2210.06998

Sejujurnya, saat ini, ini adalah tugas yang cukup mudah, karena semua model LD yang populer – tertutup atau open source – memiliki karakteristik yang sangat berbeda.

Selain itu, sebagian besar berbagi beberapa kelemahan umum, seperti kecenderungan untuk memenggal kepala, karena cara sewenang-wenang bahwa gambar goresan web non-persegi diserap ke dalam kumpulan data masif yang mendukung sistem seperti DALL-E 2, Stable Diffusion, dan MidJourney:

Model difusi laten, yang sama dengan semua model visi komputer, membutuhkan input format persegi; tetapi pengikisan web agregat yang memicu kumpulan data LAION5B tidak menawarkan 'tambahan mewah' seperti kemampuan untuk mengenali dan fokus pada wajah (atau apa pun), dan memotong gambar dengan cukup brutal alih-alih melapisinya (yang akan mempertahankan seluruh sumber gambar, tetapi pada resolusi yang lebih rendah). Setelah dilatih, 'tanaman' ini menjadi normal, dan sangat sering terjadi pada keluaran sistem difusi laten seperti Difusi Stabil. Sumber: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac dan Difusi Stabil.

Model difusi laten, sama seperti semua model computer vision, memerlukan masukan format persegi; namun agregat pengikisan web yang menjadi bahan bakar kumpulan data LAION5B tidak menawarkan 'tambahan mewah' seperti kemampuan untuk mengenali dan fokus pada wajah (atau apa pun), dan memotong gambar dengan cukup brutal alih-alih menambahkannya keluar (yang akan mempertahankan keseluruhan sumber gambar, tetapi pada resolusi yang lebih rendah). Setelah dilatih, 'tanaman' ini menjadi normal, dan sangat sering terjadi pada keluaran sistem difusi laten seperti Difusi Stabil. Sumber: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac dan Difusi Stabil.

DE-FAKE dimaksudkan untuk menjadi algoritme-agnostik, tujuan yang telah lama didambakan oleh peneliti anti-deepfake autoencoder, dan, saat ini, cukup dapat dicapai terkait dengan sistem LD.

Arsitekturnya menggunakan Prapelatihan Gambar-Bahasa Kontrastif OpenAI (CLIP) multimodal library – elemen penting dalam Stable Diffusion, dan dengan cepat menjadi jantung dari gelombang baru sistem sintesis gambar/video – sebagai cara untuk mengekstrak embeddings dari gambar LD yang 'dipalsukan' dan melatih classifier pada pola dan kelas yang diamati.

Dalam skenario yang lebih 'kotak hitam', di mana potongan PNG yang menyimpan informasi tentang proses pembuatan telah lama dihilangkan dengan mengunggah proses dan karena alasan lain, para peneliti menggunakan Salesforce kerangka BLIP (juga komponen di setidaknya satu distribusi Stable Diffusion) untuk 'membabi buta' mengumpulkan gambar untuk kemungkinan struktur semantik dari perintah yang membuatnya.

Para peneliti menggunakan Difusi Stabil, Difusi Laten (itu sendiri merupakan produk diskrit), GLIDE dan DALL-E 2 untuk mengisi dataset pelatihan dan pengujian yang memanfaatkan MSCOCO dan Flickr30k.

Para peneliti menggunakan Difusi Stabil, Difusi Laten (itu sendiri merupakan produk diskrit), GLIDE dan DALL-E 2 untuk mengisi dataset pelatihan dan pengujian yang memanfaatkan MSCOCO dan Flickr30k.

Biasanya kami akan melihat secara ekstensif hasil eksperimen para peneliti untuk kerangka kerja baru; tetapi sebenarnya, temuan DE-FAKE tampaknya akan lebih berguna sebagai tolok ukur masa depan untuk iterasi selanjutnya dan proyek serupa, daripada sebagai metrik keberhasilan proyek yang berarti, mengingat lingkungan yang mudah berubah di mana ia beroperasi, dan bahwa sistem itu yang bersaing dalam uji coba kertas berusia hampir tiga tahun – sejak adegan sintesis gambar benar-benar baru lahir.

Dua gambar paling kiri: kerangka kerja sebelumnya yang 'tertantang', yang berasal dari tahun 2019, diperkirakan memiliki harga yang kurang baik dibandingkan dengan DE-FAKE (dua gambar paling kanan) di empat sistem LD yang diuji.

Dua gambar paling kiri: kerangka kerja sebelumnya yang 'tertantang', berasal dari tahun 2019, diperkirakan bernasib kurang baik terhadap DE-FAKE (dua gambar paling kanan) di empat sistem LD yang diuji.

Hasil tim sangat positif karena dua alasan: hanya ada sedikit pekerjaan sebelumnya yang dapat dibandingkan (dan tidak ada sama sekali yang menawarkan perbandingan yang adil, yaitu, yang mencakup hanya dua belas minggu sejak Stable Diffusion dirilis ke open source).

Kedua, seperti yang disebutkan di atas, meskipun bidang sintesis gambar LD berkembang dengan kecepatan eksponensial, konten keluaran dari penawaran saat ini secara efektif menandai dirinya sendiri dengan menghilangkan kekurangan dan eksentrisitas strukturalnya sendiri (dan sangat dapat diprediksi) – banyak di antaranya kemungkinan akan diperbaiki, setidaknya dalam kasus Difusi Stabil, dengan merilis pos pemeriksaan 1.5 yang berkinerja lebih baik (yaitu model terlatih 4GB yang menjalankan sistem).

Pada saat yang sama, Stabilitas telah menunjukkan bahwa ia memiliki peta jalan yang jelas untuk sistem V2 dan V3. Mengingat peristiwa-peristiwa yang menjadi tajuk utama dalam tiga bulan terakhir, kelambanan perusahaan apa pun di pihak OpenAI dan pemain pesaing lainnya di ruang sintesis gambar kemungkinan besar telah menguap, yang berarti bahwa kita dapat mengharapkan langkah kemajuan yang sama cepatnya juga di bidang ruang sintesis gambar sumber tertutup.

 

Pertama kali diterbitkan 14 Oktober 2022.