Kecerdasan Buatan

Mengidentifikasi Deepfake Selebriti Dari Daerah Wajah Luar

Updated on Desember 9, 2022

Kolaborasi baru antara Microsoft dan sebuah universitas di Tiongkok telah mengusulkan cara baru untuk mengidentifikasi deepfake selebriti, dengan memanfaatkan kekurangan teknik deepfake saat ini untuk mengenali identitas yang telah 'diproyeksikan' ke orang lain.

Pendekatan itu disebut Transformer Konsistensi Identitas (ICT), dan bekerja dengan membandingkan bagian terluar wajah (rahang, tulang pipi, garis rambut, dan garis tepi luar lainnya) dengan bagian dalam wajah. Sistem ini mengeksploitasi data gambar publik yang umum tersedia dari orang-orang terkenal, sehingga membatasi efektivitasnya hanya pada selebriti populer, yang gambarnya tersedia dalam jumlah besar di kumpulan data visi komputer yang tersedia secara luas, dan di internet.

Cakupan pemalsuan wajah palsu di tujuh teknik: DeepFake di FF+; DeepFake dalam Deteksi DeepFake Google; DeepFaceLab; Wajah2Wajah; FSGAN; dan DF-VAE. Paket populer seperti DeepFaceLab dan FaceSwap menyediakan cakupan terbatas yang serupa. Sumber: https://arxiv.org/pdf/2203.01318.pdf

Seperti yang diilustrasikan oleh gambar di atas, metode deepfaking yang populer saat ini cukup terbatas sumber dayanya, dan mengandalkan host-face yang sesuai (gambar atau video seseorang yang identitasnya akan diganti oleh deepfake) untuk meminimalkan bukti penggantian wajah.

Meskipun berbagai metode dapat mencakup dahi penuh dan sebagian besar area dagu dan tulang pipi, semuanya kurang lebih dibatasi di dalam kerangka wajah tuan rumah.

Peta arti-penting yang menekankan identitas 'dalam' dan 'luar' yang diperhitungkan oleh TIK. Di mana kecocokan wajah bagian dalam ditetapkan tetapi identitas bagian luar tidak sesuai, TIK mengevaluasi gambar tersebut sebagai salah.

Dalam pengujian, TIK terbukti mampu mendeteksi konten deepfake dalam batasan ramah-palsu seperti video beresolusi rendah, di mana konten seluruh video terdegradasi oleh artefak kompresi, membantu menyembunyikan sisa bukti proses deepfake – keadaan yang membingungkan banyak pesaing metode deteksi deepfake.

TIK mengungguli pesaing dalam mengenali konten deepfake. Lihat video yang disematkan di akhir artikel untuk lebih banyak contoh dan resolusi yang lebih baik. Lihat video sumber tersemat di akhir artikel untuk contoh lebih lanjut. Sumber: https://www.youtube.com/watch?v=zgF50dcymj8

Grafik kertas berjudul Melindungi Selebriti dengan Transformer Konsistensi Identitas, dan berasal dari sembilan peneliti yang berafiliasi dengan University of Science and Technology of China, Microsoft Research Asia, dan Microsoft Cloud + AI.

Kesenjangan Kredibilitas

Setidaknya ada beberapa alasan mengapa algoritma face-swapping populer seperti Lab Wajah Dalam dan Tukar Muka abaikan area terluar dari identitas wajah yang ditukar.

Pertama, melatih model deepfake memakan waktu dan sumber daya kritis, dan adopsi wajah/badan host yang 'kompatibel' membebaskan siklus dan zaman GPU untuk berkonsentrasi pada area bagian dalam wajah yang relatif tidak dapat diubah yang kami gunakan untuk membedakan identitas (karena variabel seperti fluktuasi berat badan dan penuaan paling tidak mungkin mengubah sifat inti wajah ini dalam jangka pendek).

Kedua, sebagian besar pendekatan deepfake (dan ini tentu saja terjadi pada DeepFaceLab, perangkat lunak yang digunakan oleh praktisi paling populer atau terkenal) memiliki kemampuan terbatas untuk mereplikasi margin 'ujung wajah' seperti area pipi dan rahang, dan dibatasi oleh fakta. bahwa hulu mereka (2017) kode tidak secara ekstensif mengatasi masalah ini.

Dalam kasus di mana identitas tidak cocok dengan baik, algoritme deepfake harus 'mewarnai' area latar belakang di sekitar wajah, yang dilakukannya dengan canggung, bahkan di tangan deepfaker terbaik, seperti Ctrl Shift Wajah, yang keluarannya digunakan dalam studi makalah.

Yang terbaik dari yang terbaik: gambar diam dari video deepfake dari Ctrl-Shift-Face deepfaker terkenal, menukar Jim Carrey dengan Gary Oldman. Pekerjaan ini bisa dibilang mewakili beberapa hasil terbaik yang saat ini tersedia melalui DeepFaceLab dan teknik pasca-pemrosesan. Meskipun demikian, pertukaran tetap terbatas pada perhatian yang relatif sedikit yang diberikan DFL ke permukaan luar, membutuhkan upaya yang sangat besar dari kurasi data dan pelatihan untuk menangani kelurusan terluar. Sumber: https://www.youtube.com/watch?v=x8igrh1eyLk

'Sleight of hand', atau pembelokan perhatian ini sebagian besar luput dari perhatian publik dalam keprihatinan saat ini atas realisme deepfake yang berkembang, karena kemampuan kritis kita seputar deepfake masih berkembang melewati tahap 'kejutan dan kekaguman'.

Memisahkan Identitas

Makalah baru mencatat bahwa sebagian besar metode deteksi deepfake sebelumnya bergantung pada artefak yang mengkhianati proses pertukaran, seperti pose kepala yang tidak konsisten dan berkedip, Antara berbagai teknik lainnya. Hanya minggu ini, makalah deteksi deepfake baru lainnya diusulkan menggunakan 'tanda tangan' dari berbagai jenis model dalam kerangka FaceSwap untuk membantu mengidentifikasi video palsu yang dibuat dengannya (lihat gambar di bawah).

Mengidentifikasi deepfake dengan mengkarakterisasi tanda tangan dari berbagai jenis model dalam kerangka FaceSwap. Sumber: https://arxiv.org/pdf/2202.12951.pdf

Sebaliknya, arsitektur TIK menciptakan dua identitas bersarang yang terpisah untuk seseorang, yang masing-masing harus diverifikasi sebelum seluruh identitas disimpulkan sebagai rekaman atau citra yang 'benar'.

Arsitektur untuk fase pelatihan dan pengujian TIK.

Perpecahan identitas difasilitasi oleh visi Transformator, yang melakukan identifikasi wajah sebelum memisahkan wilayah yang disurvei menjadi token milik identitas dalam atau luar.

Mendistribusikan tambalan di antara dua penanda identitas paralel.

Makalah tersebut menyatakan:

'Sayangnya [metode] verifikasi wajah yang ada cenderung mencirikan wilayah yang paling diskriminatif, yaitu wajah dalam untuk verifikasi dan gagal menangkap informasi identitas di wajah luar. Dengan Identity Consistency Transformer, kami melatih model untuk mempelajari sepasang vektor identitas, satu untuk wajah dalam dan satu lagi untuk wajah luar, dengan merancang Transformer sedemikian rupa sehingga identitas dalam dan luar dapat dipelajari secara bersamaan dalam satu kesatuan yang mulus model.'

Karena tidak ada model yang ada untuk protokol identifikasi ini, penulis telah menyusun jenis kehilangan konsistensi baru yang dapat bertindak sebagai metrik untuk keaslian. 'Token dalam' dan 'token luar' yang dihasilkan dari model ekstraksi identitas ditambahkan ke penyematan tambalan yang lebih konvensional yang dihasilkan oleh kerangka kerja identifikasi wajah.

Data dan Pelatihan

Jaringan TIK dilatih di Microsoft Research MS-Seleb-1M dataset, yang berisi 10 juta gambar wajah selebritas yang mencakup satu juta identitas, termasuk aktor, politisi, dan banyak jenis tokoh terkemuka lainnya. Menurut prosedur metode sebelumnya Rontgen wajah (inisiatif Microsoft Research lainnya), rutin generasi palsu ICT sendiri menukar bagian dalam dan luar wajah yang diambil dari kumpulan data ini untuk membuat materi untuk menguji algoritme.

Untuk melakukan pertukaran internal ini, ICT mengidentifikasi dua gambar dalam kumpulan data yang menunjukkan pose kepala dan tengara wajah yang serupa, menghasilkan wilayah topeng dari fitur pusat (di mana pertukaran dapat dilakukan), dan melakukan pertukaran deepfake dengan koreksi warna RGB.

Alasan TIK terbatas pada identifikasi selebriti adalah karena ia bergantung (dalam variasinya yang paling efektif) pada kumpulan referensi baru yang menggabungkan vektor wajah turunan dari korpus pusat (dalam hal ini MS-Celeb-1M, meskipun referensi dapat diperpanjang ke citra yang tersedia di jaringan, yang kemungkinan hanya akan ada dalam kualitas dan kuantitas yang memadai untuk tokoh publik terkenal).

Kuplet set-vektor yang diturunkan ini bertindak sebagai token keaslian untuk memverifikasi wilayah wajah dalam dan luar secara bersamaan.

Para penulis mencatat bahwa token yang diperoleh dari metode ini mewakili fitur 'tingkat tinggi', menghasilkan proses deteksi deepfake yang lebih mungkin bertahan di lingkungan yang menantang seperti video beresolusi rendah atau terdegradasi.

Yang terpenting, TIK adalah tidak mencari bukti berbasis artefak, tetapi lebih terfokus pada metode verifikasi identitas yang lebih sesuai dengan teknik pengenalan wajah – sebuah pendekatan yang sulit dengan volume data yang rendah, seperti halnya investigasi insiden porno balas dendam deepfake melawan target yang tidak terkenal.

Tes

Dilatih di MS-Celeb-1M, TIK kemudian dibagi menjadi versi algoritme yang dibantu referensi dan 'buta', dan diuji terhadap serangkaian dataset dan metode yang bersaing. Ini termasuk FaceForensics ++ (FF++), kumpulan data dari 1000 video otentik dan deepfake yang dibuat dengan empat metode, termasuk Face2Face dan FaceSwap; milik Google Deteksi Deepfake (DFD), juga terdiri dari ribuan video deepfake buatan Google; Selebriti-DeepFake v1 (CD1), yang menampilkan 408 video nyata dan 795 artefak rendah yang disintesis; Celeb-DeepFake v2, perpanjangan dari V1 yang berisi 590 video asli dan 5,639 video palsu; dan Cina 2020 Deeper-Forensik (Lebih dalam).

Itu adalah kumpulan datanya; metode deteksi dalam tantangan tes adalah Multi-tugas, MesoInc4, Kapsul, Xception-c0, c2 (metode yang digunakan di FF++), FWA/DSP-FW dari Universitas di Albany, Dua Cabang, PCL+I2G, dan Yuval Nirkin's metode perbedaan konteks.

Metode deteksi yang disebutkan di atas ditujukan untuk mendeteksi jenis manipulasi wajah tertentu. Selain itu, penulis makalah baru menguji penawaran deteksi deepfake yang lebih umum Rontgen wajah, Universitas Negeri Michigan FFD, Deteksi CNN, dan Patch-Forensik dari MIT CSAIL.

Hasil yang paling jelas dari pengujian ini adalah bahwa metode yang bersaing secara drastis menurun keefektifannya karena resolusi dan kualitas video menurun. Karena beberapa potensi paling parah untuk penetrasi deepfake dari kekuatan diskriminatif kita terletak (paling tidak pada saat ini) dalam video non-HD atau kualitas yang dikompromikan, ini tampaknya menjadi hasil yang signifikan.

Dalam grafik hasil di atas, garis biru dan merah menunjukkan ketahanan metode TIK terhadap degradasi gambar di semua area kecuali penghalang kebisingan Gaussian (bukan kemungkinan dalam rekaman bergaya Zoom dan webcam), sementara keandalan metode bersaing merosot.

Pada tabel hasil di bawah ini, kami melihat keefektifan berbagai metode deteksi deepfake pada kumpulan data yang tidak terlihat. Hasil berwarna abu-abu dan bertanda bintang menunjukkan perbandingan dari hasil yang awalnya diterbitkan dalam proyek sumber tertutup, yang tidak dapat diverifikasi secara eksternal. Di hampir semua kerangka kerja yang sebanding, TIK mengungguli pendekatan pendeteksian deepfake pesaing (ditunjukkan dalam huruf tebal) pada kumpulan data yang diuji coba.

Sebagai tes tambahan, penulis menjalankan konten dari saluran YouTube dari Ctrl Shift Face deepfaker yang diakui, dan menemukan metode bersaing mencapai skor identifikasi yang sangat rendah:

Penting di sini adalah bahwa metode FF++ (Xception-c23) dan FFD, yang mencapai beberapa skor tertinggi di beberapa data pengujian dalam tes umum makalah baru, di sini mencapai skor yang jauh lebih rendah daripada TIK dalam konteks 'dunia nyata' konten deepfake dengan upaya tinggi.

Para penulis menyimpulkan makalah dengan harapan bahwa hasilnya mengarahkan komunitas deteksi deepfake menuju inisiatif serupa yang berkonsentrasi pada fitur tingkat tinggi yang lebih mudah digeneralisasikan, dan menjauh dari 'perang dingin' deteksi artefak, di mana metode terbaru secara rutin dihindarkan oleh perkembangan dalam kerangka deepfake, atau oleh faktor lain yang membuat metode tersebut kurang tangguh.

Lihat video tambahan yang menyertai di bawah ini untuk lebih banyak contoh TIK yang mengidentifikasi konten deepfake yang sering mengalahkan metode alternatif.

Melindungi Selebriti dengan Transformer Konsistensi Identitas-CVPR2022

Protecting Celebrities with Identity Consistency Transformer-CVPR2022

Watch this video on YouTube

Pertama kali diterbitkan 4 Maret 2022.

Berikutnya

Memprediksi Kekerasan Dalam Rumah Tangga Dari Aktivitas Toko Minuman Keras Dengan Machine Learning

Jangan Miss

Peneliti Mengembangkan Model Pengenalan Suara Manusia Dengan Deep Neural Networks

Martin Anderson

Penulis tentang pembelajaran mesin, kecerdasan buatan, dan data besar.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai

Bersatu.AI

Mengidentifikasi Deepfake Selebriti Dari Daerah Wajah Luar

Kecerdasan Buatan