Kecerdasan buatan
Mendeteksi Panggilan Video Deepfake Melalui Iluminasi Monitor

Kolaborasi baru antara seorang peneliti dari Badan Keamanan Nasional Amerika Serikat (NSA) dan Universitas California di Berkeley menawarkan metode baru untuk mendeteksi konten deepfake dalam konteks video langsung – dengan mengamati efek iluminasi monitor pada penampilan orang di ujung lain panggilan video.

Pengguna DeepFaceLive populer Druuzil Tech & Games mencoba model DeepFaceLab Christian Bale-nya sendiri dalam sesi langsung dengan pengikutnya, sementara sumber cahaya berubah. Sumber: https://www.youtube.com/watch?v=XPQLDnogLKA
Sistem ini bekerja dengan menempatkan elemen grafis pada layar pengguna yang mengubah rentang warna yang sempit lebih cepat dari sistem deepfake yang dapat merespons – bahkan jika, seperti implementasi streaming deepfake waktu nyata DeepFaceLive (digambarkan di atas), memiliki beberapa kemampuan untuk mempertahankan transfer warna langsung, dan mengakomodasi pencahayaan sekitar.
Gambar warna seragam yang ditampilkan pada monitor orang di ujung lain (yaitu potensi penipu deepfake) berganti-ganti melalui variasi hue yang terbatas yang dirancang untuk tidak mengaktifkan keseimbangan putih otomatis kamera web dan sistem kompensasi iluminasi ad hoc lainnya, yang akan mengompromikan metode.

Dari makalah, ilustrasi perubahan kondisi pencahayaan dari monitor di depan pengguna, yang secara efektif beroperasi sebagai ‘area light’ yang difus. Sumber: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
Teori di balik pendekatan ini adalah bahwa sistem deepfake langsung tidak dapat merespons tepat waktu terhadap perubahan yang digambarkan dalam grafik layar, meningkatkan ‘lag’ efek deepfake pada bagian tertentu spektrum warna, mengungkap kehadirannya.
Untuk dapat mengukur cahaya monitor yang dipantulkan dengan akurat, sistem perlu memperhitungkan dan kemudian menghilangkan efek pencahayaan lingkungan umum yang tidak terkait dengan cahaya dari monitor. Kemudian sistem dapat membedakan kekurangan dalam pengukuran hue iluminasi aktif dan hue wajah pengguna, mewakili pergeseran waktu 1-4 frame antara masing-masing:

Dengan membatasi variasi hue dalam grafik ‘detektor’ layar, dan memastikan bahwa kamera web pengguna tidak dipicu untuk mengatur ulang pengaturan penangkapan secara otomatis oleh perubahan cahaya monitor yang berlebihan, peneliti telah dapat mengetahui lag yang mengungkapkan dalam penyesuaian sistem deepfake terhadap perubahan pencahayaan.
Makalah tersebut menyimpulkan:
‘Karena kepercayaan yang wajar yang kita tempatkan pada panggilan video langsung, dan meningkatnya kebiasaan panggilan video dalam kehidupan pribadi dan profesional kita, kami mengusulkan bahwa teknik untuk mengotentikasi video (dan audio) akan hanya tumbuh dalam pentingnya.’
Studi ini berjudul Mendeteksi Video Deep-Fake Waktu Nyata Menggunakan Iluminasi Aktif, dan berasal dari Candice R. Gerstner, seorang matematikawan penelitian terapan di Departemen Pertahanan AS, dan Profesor Hany Farid dari Berkeley.
Erosi Kepercayaan
Adegan anti-deepfake telah bergeser secara signifikan dalam enam bulan terakhir, dari deteksi deepfake umum (yaitu menargetkan video yang direkam sebelumnya dan konten pornografi) dan menuju deteksi ‘liveness’, sebagai respons terhadap gelombang kejadian penggunaan deepfake dalam panggilan video konferensi, dan peringatan FBI terkait tentang penggunaan teknologi tersebut dalam aplikasi untuk pekerjaan jarak jauh.
Bahkan di mana panggilan video tidak terbukti telah di-deepfake, kesempatan yang meningkat untuk impersonator video yang didorong AI mulai menghasilkan paranoia.
Makalah baru menyatakan:
‘Pembuatan deep fake waktu nyata [menimbulkan] ancaman unik karena rasa kepercayaan umum yang mengelilingi panggilan video atau telepon langsung, dan tantangan mendeteksi deep fake dalam waktu nyata, saat panggilan berlangsung.’
Komunitas penelitian telah lama menetapkan tujuan untuk menemukan tanda-tanda deepfake yang tidak dapat dengan mudah dikompensasikan. Meskipun media telah menggambarkannya dalam hal perang teknologi antara peneliti keamanan dan pengembang deepfake, sebagian besar negasi dari pendekatan awal (seperti analisis kedipan mata, penentuan pose kepala, dan analisis perilaku) telah terjadi hanya karena pengembang dan pengguna mencoba membuat deepfake yang lebih realistis secara umum, bukan secara khusus menangani ‘tanda’ terbaru yang diidentifikasi oleh komunitas keamanan.
Mengarahkan Cahaya pada Video Deepfake Langsung
Mendeteksi deepfake dalam lingkungan video langsung membawa beban akuntansi untuk koneksi video yang buruk, yang sangat umum dalam skenario konferensi video. Bahkan tanpa lapisan deepfake yang mengganggu, konten video mungkin tunduk pada lag gaya NASA, artefak rendering, dan jenis degradasi audio dan video lainnya. Ini dapat menyembunyikan tepi kasar dalam arsitektur deepfaking langsung, baik dalam hal video maupun audio deepfake.
Sistem penulis memperbaiki hasil dan metode yang ditampilkan dalam publikasi 2020 dari Pusat Komputasi Jaringan di Universitas Temple di Philadelphia.

Dari makalah 2020, kita dapat mengamati perubahan iluminasi wajah ‘diisi’ saat konten layar pengguna berubah. Sumber: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
Perbedaan dalam pekerjaan baru adalah bahwa itu memperhitungkan cara kamera web merespons perubahan cahaya. Penulis menjelaskan:
‘Karena semua kamera web modern melakukan eksposur otomatis, jenis iluminasi aktif dengan intensitas tinggi [digunakan dalam pekerjaan sebelumnya] kemungkinan akan memicu eksposur otomatis kamera yang pada gilirannya akan mengacaukan penampilan wajah yang direkam. Untuk menghindarinya, kami menggunakan iluminasi aktif yang terdiri dari perubahan hue isoluminan.
‘Sementara ini menghindari eksposur otomatis kamera, ini bisa memicu keseimbangan putih kamera yang pada gilirannya akan mengacaukan penampilan wajah yang direkam. Untuk menghindarinya, kami beroperasi dalam rentang hue yang kami tentukan secara empiris tidak memicu keseimbangan putih.’
Untuk inisiatif ini, penulis juga mempertimbangkan upaya sebelumnya yang serupa, seperti LiveScreen, yang memaksa pola pencahayaan yang tidak mencolok ke monitor pengguna akhir dalam upaya untuk mengungkap konten deepfake.
Meskipun sistem tersebut mencapai tingkat akurasi 94,8%, peneliti menyimpulkan bahwa kesubtletan pola cahaya akan membuat pendekatan samar-samar ini sulit untuk diimplementasikan dalam lingkungan yang terang, dan sebagai gantinya mengusulkan bahwa sistem mereka sendiri, atau salah satu yang dipattern serupa, bisa diintegrasikan secara publik dan secara default ke dalam perangkat lunak konferensi video populer:
‘Intervensi yang kami usulkan bisa diwujudkan oleh peserta panggilan yang hanya berbagi layar dan menampilkan pola yang bervariasi secara temporal, atau, idealnya, bisa diintegrasikan langsung ke dalam klien panggilan video.’
Uji
Penulis menggunakan campuran subjek sintetis dan dunia nyata untuk menguji detektor deepfake Dlib-driven mereka. Untuk skenario sintetis, mereka menggunakan Mitsuba, sebuah renderer maju dan invers dari Institut Teknologi Federal Swiss di Lausanne.

Contoh dari uji lingkungan simulasi, menampilkan variasi warna kulit, ukuran sumber cahaya, intensitas cahaya sekitar, dan jarak ke kamera.
Adegan yang digambarkan termasuk kepala CGI parametik yang ditangkap dari kamera virtual dengan sudut pandang 90°. Kepala tersebut memiliki reflektansi Lambertian dan warna kulit netral, dan terletak 2 kaki di depan kamera virtual.
Untuk menguji kerangka kerja di seluruh rentang kemungkinan kulit dan pengaturan, peneliti menjalankan serangkaian uji, mengubah berbagai aspek secara berurutan. Aspek yang diubah termasuk warna kulit, jarak, dan ukuran cahaya.
Penulis mengomentari:
‘Dalam simulasi, dengan asumsi kami yang dipenuhi, teknik yang kami usulkan sangat tahan terhadap berbagai konfigurasi pengimajan.’
Untuk skenario dunia nyata, peneliti menggunakan 15 relawan dengan berbagai warna kulit, dalam lingkungan yang berbeda. Masing-masing dikenakan dua siklus perubahan hue yang terbatas, dalam kondisi di mana kecepatan refresh layar 30Hz disinkronkan dengan kamera web, yang berarti bahwa iluminasi aktif hanya akan berlangsung selama satu detik pada satu waktu. Hasilnya secara umum sebanding dengan uji sintetis, meskipun korelasi meningkat secara signifikan dengan nilai iluminasi yang lebih besar.
Arah Masa Depan
Sistem, peneliti mengakui, tidak memperhitungkan oklusi wajah yang khas, seperti poni, kacamata, atau jenggot. Namun, mereka mencatat bahwa masking semacam itu dapat ditambahkan ke sistem kemudian (melalui pelabelan dan segmentasi semantik selanjutnya), yang dapat dilatih untuk mengambil nilai secara eksklusif dari area kulit yang terlihat pada subjek target.
Penulis juga menyarankan bahwa paradigma serupa dapat digunakan untuk mendeteksi panggilan audio deepfake, dan bahwa suara yang diperlukan untuk mendeteksi dapat diputar dalam frekuensi di luar jangkauan auditori manusia normal.
Mungkin yang paling menarik, peneliti juga menyarankan bahwa memperluas area evaluasi di luar wajah dalam kerangka pengambilan yang lebih kaya dapat secara signifikan meningkatkan kemungkinan deteksi deepfake*:
‘Estimasi pencahayaan 3-D yang lebih canggih akan menyediakan model penampilan yang lebih kaya yang akan lebih sulit bagi pemalsu untuk menghindari. Sementara kami hanya fokus pada wajah, tampilan komputer juga menerangi leher, tubuh atas, dan latar belakang sekitar, dari mana pengukuran serupa dapat dilakukan.
‘Pengukuran tambahan ini akan memaksa pemalsu untuk mempertimbangkan seluruh adegan 3-D, bukan hanya wajah.’
* Konversi saya dari kutipan inline penulis ke tautan.
Dipublikasikan pertama kali 6 Juli 2022.












