Yapay Zeka

Orijinal İnsan Biyometrik Özelliklerine Dayalı Deepfake Tespiti

Yayınlanan 8 Nisan 2022

Güncellenmiş 9 Aralık 2022

Martin Anderson

DeepFaceLab Discord Kanalında deepfakerlar tarafından üretilen görüntüler

İtalya ve Almanya'daki araştırmacılar tarafından hazırlanan yeni bir makale, yüz sentezi sistemleri, pahalı filigranlama çözümleri veya diğer daha hantal yaklaşımlar tarafından oluşturulan eserler yerine, biyometrik yüz ve ses davranışına dayalı derin sahte videoları tespit etmek için bir yöntem önermektedir.

Çerçeve, konuyla ilgili 10 veya daha fazla çeşitli, sahte olmayan video girişi gerektirir. Bununla birlikte, entegre modeli gerçek ve sahte videolar arasındaki olası vektör mesafelerini geniş çapta uygulanabilir bir şekilde zaten soyutladığından, vaka başına videolarda özel olarak eğitilmesi, yeniden eğitilmesi veya artırılması gerekmez.

Karşılaştırmalı öğrenme, POI-Forensics yaklaşımının temelini oluşturur. Kaynak malzemeden vaka bazında türetilen vektörler, potansiyel olarak sahte görüntülerin hem video hem de ses bileşenlerinden alınan yönler ve özelliklerle potansiyel bir sahte videodaki aynı vektörlerle karşılaştırılır. Kaynak: https://arxiv.org/pdf/2204.03083.pdf

Başlıklı POI-Adli Tıp, yaklaşım derin taklit edilen gerçek bireye özgü hareket ve ses ipuçlarına dayanır.

Böyle bir sistem, ünlüler, politikacılar, YouTube fenomenleri ve çok miktarda video materyaline kolayca erişilebilen diğer kişiler için tamamen otomatik, 'önceden oluşturulmuş' kimlik doğrulama çerçevelerine olanak sağlayabileceği gibi, aynı zamanda deepfake teknolojilerinin sıradan kurbanlarının kendilerine yönelik saldırıların sahteliğini kanıtlayabilecekleri bir platforma da uyarlanabilir.

t-SNE çerçevesi aracılığıyla POI-Forensics'teki dört konuda gerçek ve sahte videolardan çıkarılan özelliklerin görselleştirmeleri.

POI-Forensics'teki dört konudaki gerçek ve sahte videolardan çıkarılan özelliklerin görselleştirmeleri, t-SNE çerçevesi.

Yazarlar, POI-Forensics'in deepfake tespitinde yeni bir teknolojiye ulaştığını iddia ediyor. Bu alandaki çeşitli yaygın veri kümelerinde, çerçevenin yüksek kaliteli, düşük kaliteli ve "saldırıya uğramış" videolar için AUC puanlarında sırasıyla %3, %10 ve %7 oranında bir iyileştirme sağladığı bildiriliyor. Araştırmacılar, şunları yayınlamayı vaat ediyor: Kod kısa bir süre.

POI-Forensics'in rakip SOTA çerçeveleri pDFDC, DeepFakeTIMIT, FakeAVCelebV2 ve KoDF'ye karşı performansı. Her vakada eğitim FaceForensics++, ID-Reveal ve yazarların yöntemi VoxCeleb2 üzerinde gerçekleştirildi. Sonuçlar, yüksek ve düşük kaliteli videoları içerir.

POI-Forensics'in rakip SOTA çerçevelerine karşı performansı pDFDC, DerinFakeTIMIT, FakeAVÜnlüV2, ve KODF. Her durumda eğitim üzerinde gerçekleştirildi Yüz Adli Bilişim ++ ve yazarların kendi Kimlik-Açıklama VoxCeleb2'de. Sonuçlar, yüksek ve düşük kaliteli videoları içerir.

Yazarlar şunları belirtiyor:

'Eğitim yalnızca gerçek konuşan yüz videoları üzerinde gerçekleştirildiğinden, dedektör herhangi bir özel manipülasyon yöntemine bağlı değildir ve en yüksek genelleme yeteneğini sağlar. Ayrıca, yöntemimiz hem tek modlu (yalnızca ses, yalnızca video) hem de çok modlu (ses-video) saldırıları tespit edebilir ve yalnızca üst düzey anlamsal özellikler üzerine inşa edilerek düşük kaliteli veya bozuk videolara karşı dayanıklıdır.'

Yeni kâğıtyazarların vizyon temelli bazı unsurlarını içeren Kimlik-Açıklama 2021 projesinin adı Görsel-İşitsel İlgilenilen Kişi DeepFake Tespitive Napoli'deki Federico II Üniversitesi ile Münih Teknik Üniversitesi arasındaki ortak bir çabadır.

Deepfake Silahlanma Yarışı

Bu tür bir algılama sistemini yenmek için, deepfake ve insan sentez sistemleri, sentezin amaçlanan hedefinden en azından görsel ve işitsel biyometrik ipuçlarını simüle etme kabiliyetine ihtiyaç duyacaktır - bu teknoloji, uzun yıllar uzakta ve büyük olasılıkla inceleme alanında kalacak. amaçlanan hedeflerin (veya ölen kişilerin simülasyonu durumunda mülklerinin) işbirliği ve katılımı avantajına sahip olacak, VFX şirketleri tarafından geliştirilen maliyetli ve tescilli kapalı sistemler.

Yazarların önceki yaklaşımı olan ID-Reveal, tamamen görsel bilgilere odaklanmıştı. Kaynak: https://arxiv.org/pdf/2012.02512.pdf

Yazarların daha önceki yaklaşımı olan ID-Reveal, tamamen görsel bilgilere odaklanıyordu. Kaynak: https://arxiv.org/pdf/2012.02512.pdf

gibi başarılı ve popüler deepfake yöntemleri Yüz nakli ve Derin Yüz Laboratuvarı/Aktif şu anda en iyi ihtimalle yetenekli kişilere güvenerek, bu tür ayrıntılı biyometrik yaklaşımlar oluşturmak için sıfır kapasiteye sahip taklitçileri Sahte kimliğin kime dayatıldığı ve çok daha yaygın olarak 'benzer' kişilerin gerçek hayattaki uygun görüntüleri üzerinde. Modülerliği düşük ve DFL ve FaceSwap için ana kaynak olmaya devam eden çekirdek 2017 kodunun yapısı da bu tür bir işlevselliğin eklenmesini mümkün kılmıyor.

Bu iki baskın deepfake paketi, otomatik kodlayıcılar. Alternatif insan sentez yöntemleri, bir Üretken Düşman Ağı (GAN) veya Nöral Parlaklık Alanı (NeRF) insan kimliğini yeniden yaratma yaklaşımı; ancak bu iki araştırma hattının önünde, tamamen fotogerçekçi insan videosu üretmek için bile yıllarca çalışılması gerekiyor.

Ses (sahte sesler) haricinde, biyometrik simülasyon, insan görüntü sentezinin karşılaştığı zorluklar listesinde çok alt sıralarda yer almaktadır. Her halükarda, insan sesinin tınısını ve diğer niteliklerini yeniden üretmek, onun tuhaflıklarını ve "anlatımlarını" veya gerçek öznenin semantik yapıyı kullanma biçimini yeniden üretmez. Dolayısıyla, yapay zeka tarafından üretilen ses simülasyonunun mükemmelliği bile, biyometrik özgünlüğün potansiyel güvenlik duvarını ortadan kaldırmaz.

Yalnızca Arxiv'de, çeşitli derin sahte algılama stratejileri ve yenilikleri her hafta yayınlandı. Son yaklaşımlar şuna bağlı: Ses-Yüz Homojenliği, Yerel İkili Model Histogramı (FF-LBPH), derin sahte seslerin insan algısı, yüz sınırlarını analiz etme, video bozulmasını hesaba katmak, ve 'Adli Balistik' - diğerleri arasında.

istogram analizi, derin sahte algılamayı iyileştirmek için sunulan en son teknikler arasındadır. Kaynak: https://arxiv.org/pdf/2203.09928.pdf

Bölümlere ayrılmış histogram analizi, derin sahte algılamayı iyileştirmek için sunulan en son teknikler arasındadır. Kaynak: https://arxiv.org/pdf/2203.09928.pdf

Yaklaşım, Veri ve Mimari

POI-Forensics, görsel ve işitsel ipuçlarına dayalı yumuşak biyometriden yararlanarak kimlik doğrulamaya çok modlu bir yaklaşım getiriyor. Çerçeve, incelenmekte olan potansiyel bir derin sahte videodaki aynı çıkarılan özelliklerle karşılaştırılabilecek karakteristik vektör verilerini nihai olarak türeten ayrı ses ve video ağlarına sahiptir.

POI-Forensics'in kavramsal mimarisi.

Hedef klipler üzerinde hem ayrı (ses veya video) hem de füzyon analizi etkilenebilir ve sonunda bir POI benzerlik indeksine ulaşılır. Kullanılan karşılaştırmalı kayıp işlevi, 2021'e dayanmaktadır. akademik işbirliği Google Research, Boston Üniversitesi, Snap Inc. ve MIT arasında.

Temel veri seti, kimlik bazında bölünmüştür. Eğitim için 4608 kimlik kullanıldı, 512 kimlik doğrulama için kaldı. Polarize olmayan sonuçlar elde etmek için FakeAVCelebV500'de (bir test adayı, aşağıya bakın) kullanılan 2 kimlik hariç tutuldu.

İki ağ, her biri 12×2304 video segmentinden (8 farklı kimlik için 8 segment) oluşan, her bir partide 8 partilik alışılmadık derecede büyük bir parti boyutunda 8 çağ için eğitildi. Adam iyileştirici ile kullanıldı ayrılmış ağırlık düşüşü 10 öğrenme hızında^-4ve 0.01'lik bir ağırlık düşüşü.

Test ve Sonuçlar

Proje için test edilen deepfake veri kümeleri, DeepFake Detection Challenge veri kümesini önizleyin68 denekte yüz takası içeren, dokuzdan fazla ilgili videoya sahip 44 kimliğin seçildiği toplam 920 gerçek video ve 2925 sahte video; DeepFake-TIMIT320 denekten oluşan 32 videodan oluşan, toplam 290 gerçek video ve en az dört saniye uzunluğunda 580 sahte videonun yer aldığı GAN tabanlı bir veri seti; FakeAVÜnlüV2500 gerçek video içeren Voxceleb2ve sahte klonlanmış sesin eklendiği çeşitli veri kümelerinden yaklaşık 20,000 sahte video SV2TTS uyumluluk için; ve FaceSwap, DeepFaceLab ve FSGAN, yanı sıra üç Birinci Dereceden Hareket Modeli (FOMM).

İkincisi ayrıca ses odaklı yüz sentezine sahiptir ATFHPve çıkış Wav2Lip, yazarlar 276 gerçek video ve 544 sahte video içeren türetilmiş bir veri kümesi kullanıyor.

Kullanılan metrikler, alıcı çalışma karakteristik eğrisinin altındaki alanı içeriyordu (AUC), ve sahte verileri kullanan ve bunlar üzerinde eğitim veren çerçevelerde sorun yaratabilecek yaklaşık %10'luk bir 'yanlış alarm oranı' vardır, ancak POI-Forensics'in girdi olarak yalnızca gerçek video görüntülerini alması gerçeğiyle bu endişe ortadan kalkmaktadır.

Yöntemler karşı test edildi seferbekov Kaggle Deepfake Detection'da birinciliği elde eden deepfake dedektörü Zorluklar; FTCN (Tam Zamansal Evrişim Ağı), Çin'in Xiamen Üniversitesi ve Microsoft Research Asia arasındaki bir işbirliğidir; Lipadli tıp, Imperial College London ve Facebook arasında ortak bir 2021 çalışması; Ve Kimlik-AçıklamaYeni makalenin araştırmacılarından birkaçının önceki projesi olan bu proje, ses yönünü göz ardı ediyor ve sahte çıktıları tespit etmek için 3D Morphable Modelleri, bir rakip oyun senaryosuyla birlikte kullanıyor.

Sonuçlarda (yukarıdaki önceki tabloya bakın), POI-Forensics, referans lider Seferbekov'u EAA'da %2.5 ve doğruluk açısından %1.5 oranında geride bıraktı. Performans, merkezdeki diğer veri kümelerine göre daha rekabetçiydi.

Bununla birlikte, yeni yaklaşım, düşük kaliteli videolar için rakip olan tüm referans yöntemleri üzerinde kayda değer bir liderlik gösterdi. en olası senaryo Deepfake'lerin, 'gerçek dünya' bağlamlarına dayanarak sıradan izleyicileri kandırmaya eğilimli olduğu.

Yazarlar şunları iddia ediyor:

'Gerçekten de bu zorlu senaryoda, yalnızca kimliğe dayalı yaklaşımlar iyi bir performans sağlamaya devam ediyor, çünkü bunlar görüntü bozukluklarına karşı oldukça dayanıklı olan yüksek seviyeli anlamsal özelliklere dayanıyor.'

PIO-Forensics'in kaynak materyal olarak yalnızca gerçek videoyu kullandığı düşünüldüğünde, bu başarı tartışmasız bir şekilde daha da büyüyor ve potansiyel deepfake kurbanlarının doğal biyometrik özelliklerinin kullanılmasının, deepfake yazılımları ile deepfake tespit çözümleri arasındaki 'yapay soğuk savaştan' kurtulmak için değerli bir yol olduğunu gösteriyor.

Son bir testte, araştırmacılar, sınıflandırıcıları güvenilir bir şekilde kandırabilecek bir yöntem olan girdiye düşmanca gürültü eklediler. Şimdi saygıdeğer hızlı degrade işareti yöntemi hala bu konuda özellikle etkili olduğunu kanıtlıyor.

Öngörülebilir bir şekilde, saldırgan saldırı stratejileri tüm yöntem ve veri kümelerinde başarı oranını düşürdü ve AUC %10 ila %38 arasında artışlarla azaldı. Ancak, yalnızca POI-Forensics ve yazarların önceki yöntemi ID-Reveal bu saldırı senaryosunda makul bir performans sergileyebildi; bu da, yumuşak biyometriyle ilişkili üst düzey özelliklerin deepfake tespitinden kaçınmaya karşı olağanüstü derecede dirençli olduğunu gösteriyor.

Yazarlar şu sonuca varıyor:

'Genel olarak, yöntemimizin bir ilk basamak olduğuna inanıyoruz; özellikle de daha üst düzey anlamsal özelliklerin kullanımı, gelecekteki araştırmalar için umut vadeden bir yol. Ayrıca, çok modlu analiz, metinsel veriler gibi diğer alanlardan daha fazla bilgi eklenerek daha da zenginleştirilebilir.'

İlk olarak 8 Nisan 2022'de yayınlandı.

Martin Anderson

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai

Unite.AI

Orijinal İnsan Biyometrik Özelliklerine Dayalı Deepfake Tespiti

Deepfake Silahlanma Yarışı

Yaklaşım, Veri ve Mimari

Test ve Sonuçlar

Beğenebilirsin