Yapay Zeka

GOTCHA– Canlı Deepfakes için bir CAPTCHA Sistemi

Güncellenmiş on 9 Aralık 2022

New York Üniversitesi'nden yapılan yeni bir araştırma, işle ilgili bir video konferans veya başka bir şey gibi hassas bir görüntülü görüşmeye başlamadan önce kimliğimizi doğrulamak için yakında bir "sarhoşluk testi"nin derin sahte eşdeğerini yapmak zorunda kalabileceğimize dair artan göstergelere katkıda bulunuyor. kullanarak dolandırıcıları çekebilecek diğer hassas senaryolar gerçek zamanlı derin sahte akış yazılımı.

GOTCHA'daki görüntülü arama senaryolarına uygulanan aktif ve pasif zorluklardan bazıları. Katılımcının üzerinde hiçbir etkisinin olmadığı ek 'pasif' yöntemler (potansiyel bir derin sahte sistemi aşırı yüklemeye çalışmak gibi) kullanılırken, kullanıcı zorluklara uymalı ve zorlukları geçmelidir. Kaynak: http://export.arxiv.org/pdf/2210.06186

Önerilen sistemin adı GOTCHA'dır - son 10-15 yılda web'de gezinmenin önünde artan bir engel haline gelen CAPTCHA sistemlerine bir övgü niteliğindedir; burada otomatik sistemler, kullanıcının hayvanları tanımlama gibi makinelerin kötü olduğu görevleri gerçekleştirmesini gerektirir. veya bozuk metnin deşifre edilmesi (ve ironik bir şekilde, bu zorluklar genellikle kullanıcıyı çevirir ücretsiz AMT-tarzı dış kaynaklı açıklayıcı).

Özünde, GOTCHA Ağustos 2022'yi uzatıyor DF-Captcha Ben-Gurion Üniversitesi'nden, aramanın diğer ucundaki kişinin gerçekliğini kanıtlamak için birkaç görsel semantik çemberden atlamasını öneren ilk makale.

Ben Gurion Üniversitesi'nin Ağustos 2022 tarihli makalesi ilk olarak bir kullanıcı için, iyi eğitimli canlı deepfake sistemlerinin bile fotogerçekçi olarak tahmin edemeyebileceği veya başa çıkamayacağı görevler olan, yüzünü kapatma ve hatta cildini çökertme de dahil olmak üzere bir dizi etkileşimli test önerdi. . Kaynak: https://arxiv.org/pdf/2208.08524.pdf

Özellikle, GOTCHA, önerilen testlerin "kaskadına", gerçek olmayan öğelerin kullanıcının yüzü üzerinde otomatik olarak üst üste bindirilmesi ve kaynak sistemden geçen çerçevelerin "aşırı yüklenmesi" dahil olmak üzere "pasif" metodolojiler ekler. Bununla birlikte, kullanıcının yerel sistemine erişim için özel izinler olmadan yalnızca kullanıcı tarafından yanıtlanan görevler değerlendirilebilir – bu izinler, muhtemelen yerel modüller veya Skype ve Zoom gibi popüler sistemlere eklentiler biçiminde gelir, hatta sahtekarları ayıklamakla özel olarak görevlendirilmiş özel mülk yazılım biçimi.

Kağıttan, GOTCHA'da arayan ve sistem arasındaki etkileşimin karar akışları olarak noktalı çizgilerle bir gösterimi.

Araştırmacılar, her biri GOTCHA'dan 2.5 görev alan 47 katılımcıdan alınan 13 milyondan fazla video karesini içeren yeni bir veri kümesi üzerinde sistemi doğruladı. Çerçevenin, hileli kullanıcılar için derin sahte içerik kalitesinde 'tutarlı ve ölçülebilir' bir düşüşe neden olduğunu ve yerel sistemi, belirgin eserler aldatmacayı çıplak insan gözüyle netleştirene kadar zorladığını iddia ediyorlar (ancak GOTCHA ayrıca bazı daha ince algoritmik analiz yöntemleri içeriyor).

The yeni kağıt başlıklı Yakaladım: Gerçek Zamanlı Deepfake Tespiti için Bir Meydan Okuma-Yanıt Sistemi (sistemin adı gövdede büyük harfle yazılır, ancak bir kısaltma olmamasına rağmen yayının başlığı değildir).

Çeşitli Zorluklar

Çoğunlukla Ben Gurion makalesine uygun olarak, kullanıcının karşılaştığı gerçek zorluklar çeşitli görev türlerine bölünmüştür.

İçin tıkanma, kullanıcının yüzünü elleriyle veya diğer nesnelerle gizlemesi veya yüzünü derin sahte bir model için eğitilmemiş bir açıyla sunması gerekir (genellikle ' için eğitim verilerinin olmaması nedeniyle) garip' pozlar - yukarıdaki ilk çizimdeki görüntü aralığına bakın).

Kullanıcının talimatlara uygun olarak gerçekleştirebileceği eylemlerin yanı sıra GOTCHA, yerel olarak eğitilmiş bir deepfake modelinin beklediği yüz akışını "bozmak" ve başarısız olmasına neden olmak için rastgele yüz kesiklerini, çıkartmaları ve artırılmış gerçeklik filtrelerini üst üste bindirebilir. . Daha önce belirtildiği gibi, bu kullanıcı için 'pasif' bir süreç olsa da, son muhatabın akışına doğrudan müdahale edebilmesi gereken yazılım için müdahaleci bir süreçtir.

Daha sonra, kullanıcının herhangi bir eğitim veri setinde bulunmaması veya az temsil edilmesi muhtemel olağandışı yüz ifadeleriyle yüzünü pozlandırması istenebilir, bu da derin sahte çıktının kalitesinin düşmesine neden olur (resim 'b', soldan ikinci sütun , yukarıdaki ilk resimde).

Bu test dizisinin bir parçası olarak, kullanıcıdan yeterli düzeyde fonem veya diğer ağızdan veri türlerini belirli bir düzeye kadar eğitmemiş olabilecek yerel bir canlı deepfaking sistemine meydan okumak için tasarlanmış metni okuması veya konuşma yapması istenebilir. böyle bir inceleme altında doğru dudak hareketini yeniden oluşturabileceği yer.

Son olarak (ve bu, son muhabirin oyunculuk yeteneklerine meydan okuyor gibi görünüyor), bu kategoride, kullanıcıdan bir duyguyu yalanlayan kısa ve istemsiz bir yüz ifadesi olan bir mikro ifade gerçekleştirmesi istenebilir. Bundan, kağıt diyor ki "[it] genellikle 0.5-4.0 saniye sürer ve taklit etmesi zordur".

Makale, bir mikro ifadenin nasıl çıkarılacağını açıklamasa da, mantık, bunu yapmanın tek yolunun, belki de test rutininin bir parçası olarak onlara bir tür şaşırtıcı içerik sunarak son kullanıcıda uygun bir duygu yaratmak olduğunu öne sürüyor. .

Yüz Bozulması, Aydınlatma ve Beklenmedik Misafirler

Ek olarak, Ağustos makalesindeki öneriler doğrultusunda, yeni çalışma, son kullanıcıdan parmaklarını yanaklarına bastırmak, yüzleriyle ve/veya saçlarıyla etkileşimde bulunmak ve diğer Bunlar marjinal eylemler olduğundan, mevcut hiçbir canlı deepfake sisteminin iyi bir şekilde üstesinden gelemeyeceği hareketler - eğitim veri setinde mevcut olsalar bile, diğer "aykırı" verilerle uyumlu olarak yeniden üretimleri muhtemelen düşük kalitede olacaktır.

Bir gülümseme, ancak bu 'depresif yüz' yerel bir canlı deepfake sistemi tarafından iyi tercüme edilmiyor.

Deepfake modelinin eğitiminin standart video konferans aydınlatma durumlarına veya hatta aramanın gerçekleştiği tam aydınlatma koşullarına göre optimize edilmiş olması mümkün olduğundan, son kullanıcının bulunduğu aydınlatma koşullarını değiştirmek de ek bir zorluktur. .

Bu nedenle, kullanıcıdan cep telefonundaki meşaleyi yüzüne tutması veya başka bir şekilde ışığı değiştirmesi istenebilir (ve bu taktiğin ana önerme olduğunu belirtmekte fayda var. başka bir canlı deepfake algılama kağıdı bu yaz çıktı).

Canlı deepfake sistemlerine beklenmedik ışıklandırma ve hatta yalnızca tek bir kişiyi beklediği akıştaki birden çok kişi tarafından meydan okunuyor.

Yerel kullanıcı akışına (deepfake aracısı barındırdığından şüphelenilen) müdahale etme yeteneğine sahip önerilen sistem durumunda, beklenmeyen modeller eklemek (yukarıdaki resimde orta sütuna bakın), deepfake algoritmasının bir simülasyonu sürdürme becerisini tehlikeye atabilir. .

Buna ek olarak, bir muhabirin kimliğini doğrulamak için yanında fazladan kişi olmasını beklemek mantıksız olsa da, sistem ek yüzler ekleyebilir (yukarıdaki en sağdaki resim) ve herhangi bir yerel deepfake sisteminin dikkati başka yöne çekme hatasını yapıp yapmadığını görebilir – veya hatta hepsini derin taklit etmeye çalışmak bile (otomatik kodlayıcı derin sahte sistemler, bu senaryoda dikkati tek bir bireye odaklayabilecek "kimlik tanıma" özelliklerine sahip değildir).

Steganografi ve Aşırı Yükleme

GOTCHA ayrıca bir yaklaşım içerir ilk önerilen Bu yılın Nisan ayında UC San Diego tarafından geliştirilen ve bir mesajı kullanıcının yerel video akışına şifrelemek için steganografi kullanan. Deepfake rutinleri bu mesajı tamamen yok edecek ve bir kimlik doğrulama hatasına yol açacaktır.

California San Diego Üniversitesi ve San Diego Eyalet Üniversitesi'nden Nisan 2022 tarihli bir makaleden, bir kullanıcının video akışına gönderilen bir steganografik sinyalin yerel döngüde bozulmadan hayatta kalıp kalmadığını görerek gerçek kimliği belirleme yöntemi - aksi takdirde derin sahtekarlık el altında olabilir. Kaynak: https://arxiv.org/pdf/2204.01960.pdf

Ek olarak, GOTCHA, bir akışı çoğaltarak ve herhangi bir yerel sisteme 'aşırı' veri sunarak yerel bir derin sahte sistemde çoğaltma hatasına neden olacak şekilde tasarlanmış (erişim ve izin verildiğinde) yerel sistemi aşırı yükleyebilir.

Sistem, akıllı telefon tabanlı bir muhabir durumunda, yerel bir derin sahte sistemi bozacak şekilde telefonlarını baş aşağı çevirme zorluğu da dahil olmak üzere daha fazla test içerir (ayrıntılar için makaleye bakın):

Yine, bu tür bir şey yalnızca, kullanıcının akışa yerel erişim vermek zorunda kaldığı ve etkileşimli testlerin aksine (örneğin, birinin yüzüne bir parmak).

pratiklik

Makale, bu tür testlerin son kullanıcıyı ne ölçüde rahatsız edebileceğine veya başka bir şekilde onları rahatsız edebileceğine kısaca değinmektedir - örneğin, kullanıcıyı testler için gerekli olabilecek bir dizi nesneyi el altında bulundurmaya mecbur ederek, güneş gözlüğü gibi.

Ayrıca, güçlü muhabirlerin test rutinlerine uymasını sağlamanın zor olabileceğini de kabul eder. Bir CEO ile görüntülü arama durumuyla ilgili olarak yazarlar şunları belirtiyor:

"Kullanılabilirlik burada anahtar olabilir, bu nedenle gayri resmi veya önemsiz meydan okumalar (yüz çarpıtma veya ifadeler gibi) uygun olmayabilir. Harici fiziksel makalelerin kullanıldığı zorluklar istenmeyebilir. Buradaki bağlam uygun şekilde değiştirilmiştir ve GOTCHA zorluk takımını buna göre uyarlar.'

Veriler ve Testler

GOTCHA, çok popüler otomatik kodlayıcı deepfake yaratıcısının iki varyasyonu da dahil olmak üzere dört yerel canlı deepfake sistemi türüne karşı test edildi Derin Yüz Laboratuvarı ('DFL', şaşırtıcı bir şekilde, makale bundan bahsetmiyor DerinYüzCanlıolan, Ağustos 2021'den beri, DeepFaceLab'ın 'canlı' uygulaması ve potansiyel bir sahtekar için en olası başlangıç kaynağı gibi görünüyor).

Dört sistem, testlere katılan ünlü olmayan bir kişi ve eşleştirilmiş bir ünlü üzerinde "hafif" DFL eğitimi aldı; DFL, 2 milyondan fazla yineleme veya adımla daha tam olarak eğitildi; burada çok daha performanslı bir model beklenebilir; Gizli Görüntü Animatörü (LIA); Ve Yüz Değiştirme Üretken Düşmanlık Ağı (FSGAN).

Veriler için, araştırmacılar, her kullanıcının 47 fps'de yaklaşık 13-5 dakikalık 6p video çıkışı verdiği, 1080 aktif mücadele gerçekleştiren 60 kullanıcının yer aldığı, yukarıda belirtilen video klipleri yakaladı ve küratörlüğünü yaptı. Yazarlar ayrıca bu verilerin sonunda kamuya açıklanacağını da belirtiyorlar.

Anormallik tespiti, bir insan gözlemci tarafından veya algoritmik olarak gerçekleştirilebilir. İkinci seçenek için, sistem 600 yüz üzerinde eğitildi. FaceForensics veri kümesi. Regresyon kaybı işlevi, güçlü Öğrenilmiş Algısal Görüntü Yama Benzerliği (LPIPS) iken, sınıflandırıcıyı eğitmek için ikili çapraz entropi kullanıldı. EigenCam dedektörün ağırlıklarını görselleştirmek için kullanıldı.

GOTCHA testlerinden elde edilen birincil sonuçlar.

Araştırmacılar, dört sistemdeki tüm test dizileri için, en düşük anormallik sayısı ve ciddiyetinin (yani, bir derin sahte sistemin varlığını ortaya çıkaracak eserler) yüksek eğitimli DFL dağıtımı tarafından elde edildiğini buldular. Daha az eğitimli versiyon, özellikle karmaşık dudak hareketlerini (çerçevenin çok azını kaplayan, ancak yüksek insan ilgisi çeken) yeniden yaratmak için mücadele ederken, FSGAN iki DFL versiyonu arasındaki orta noktayı işgal etti ve LIA görev için tamamen yetersiz kaldı. , araştırmacılar LIA'nın gerçek bir dağıtımda başarısız olacağını düşünüyor.

İlk olarak 17 Ekim 2022'de yayınlandı.