Yapay Zeka

Dış Yüz Bölgelerinden Ünlü Deepfakelerini Belirleme

Güncellenmiş on 9 Aralık 2022

Microsoft ile Çin'deki bir üniversite arasındaki yeni işbirliği, diğer insanlara "yansıtılan" kimlikleri tanımak için mevcut deepfake tekniklerinin eksikliklerinden yararlanarak, ünlülerin deepfake'lerini tanımlamanın yeni bir yolunu önerdi.

Yaklaşım denir Kimlik Tutarlılık Transformatörü (BİT) ve yüzün en dış kısımlarını (çene, elmacık kemikleri, saç çizgisi ve diğer dış kenar çizgileri) yüzün iç kısmıyla karşılaştırarak çalışır. Sistem, ünlü kişilerin yaygın olarak bulunan kamuya açık görüntü verilerinden yararlanıyor ve bu da etkinliğini, görüntüleri yaygın olarak bulunan bilgisayarlı görüntü veri kümelerinde ve internette çok sayıda bulunan popüler ünlülerle sınırlıyor.

Yedi teknikte sahte yüzlerin sahtecilik kapsamı: FF+'da DeepFake; Google DeepFake Tespitinde DeepFake; Derin Yüz Laboratuvarı; Yüz2Yüz; FSGAN; ve DF-VAE. DeepFaceLab ve FaceSwap gibi popüler paketler benzer şekilde kısıtlı kapsama alanı sağlar. Kaynak: https://arxiv.org/pdf/2203.01318.pdf

Yukarıdaki görüntünün gösterdiği gibi, şu anda derin sahtekarlık için popüler olan yöntemler oldukça kısıtlı kaynaklara sahiptir ve yüz ikamesine ilişkin kanıtları en aza indirmek için uygun ana bilgisayar yüzlerine (kimliği derin sahte ile değiştirilecek bir kişinin görüntüsü veya videosu) dayanır.

Farklı yöntemler alnın tamamını ve çene ve elmacık kemiği bölgelerinin büyük bir bölümünü kapsasa da, tümü az çok konakçı yüzün çerçevesi içinde sınırlandırılmıştır.

ICT tarafından hesaplanan 'iç' ve 'dış' kimlikleri vurgulayan bir belirginlik haritası. İç yüz eşleşmesinin sağlandığı ancak dış kimliğin uyuşmadığı durumlarda, ICT görüntüyü yanlış olarak değerlendirir.

Testlerde, ICT, tüm videonun içeriğinin sıkıştırma yapıtları tarafından bozulduğu düşük çözünürlüklü video gibi sahte dostu sınırlarda derin sahte içeriği tespit edebildiğini kanıtladı ve bu da derin sahte işlemin kalıntı kanıtlarını gizlemeye yardımcı oldu - bu durum birçok rakibi şaşırtan bir durum derin sahte algılama yöntemleri.

ICT, derin sahte içeriği tanımada yarışmacılardan daha iyi performans gösteriyor. Daha fazla örnek ve daha iyi çözünürlük için makalenin sonunda gömülü videoya bakın. Daha fazla örnek için makalenin sonundaki gömülü kaynak videoya bakın. Kaynak: https://www.youtube.com/watch?v=zgF50dcymj8

The kâğıt başlıklı Kimlik Tutarlılık Transformatörü ile Ünlüleri Koruma, ve Çin Bilim ve Teknoloji Üniversitesi, Microsoft Research Asia ve Microsoft Cloud + AI'ya çeşitli şekillerde bağlı dokuz araştırmacıdan geliyor.

Güvenilirlik Açığı

Gibi popüler yüz değiştirme algoritmalarının en az birkaç nedeni vardır. Derin Yüz Laboratuvarı ve Yüz nakli Değiştirilen yüz kimliklerinin en dıştaki alanını ihmal edin.

İlk olarak, derin sahte modellerin eğitimi zaman alıcıdır ve kaynak açısından kritiktir ve 'uyumlu' ana bilgisayar yüzlerinin/gövdelerinin benimsenmesi, kimliği ayırt etmek için kullandığımız yüzün nispeten değişmez iç bölgelerine konsantre olmak için GPU döngülerini ve dönemlerini serbest bırakır (çünkü kilo dalgalanması ve yaşlanma gibi değişkenlerin kısa vadede bu temel yüz özelliklerini değiştirme olasılığı en düşüktür).

İkinci olarak, çoğu derin sahte yaklaşım (ve bu kesinlikle en popüler veya kötü şöhretli uygulayıcılar tarafından kullanılan yazılım olan DeepFaceLab için geçerlidir), yanak ve çene bölgeleri gibi 'yüz sonu' kenar boşluklarını çoğaltma konusunda sınırlı yeteneğe sahiptir ve gerçek tarafından kısıtlanır. yukarı akışları (2017) kodu, bu sorunu kapsamlı bir şekilde ele almadı.

Kimliklerin iyi eşleşmediği durumlarda, deepfake algoritması yüzün etrafındaki arka plan alanlarını 'boyamak' zorundadır, ki bunu en iyi ihtimalle beceriksizce yapar, örneğin en iyi deepfake'lerin ellerinde bile. Ctrl Vites Değiştirme Yüzü, makalenin çalışmalarında çıktısı kullanıldı.

En iyinin en iyisi: beğenilen deepfake Ctrl-Shift-Face'in Jim Carrey'i Gary Oldman'la değiştirdiği bir deepfake videosundan fotoğraflar. Bu çalışma, DeepFaceLab ve post-processing teknikleriyle şu anda mevcut olan en iyi çıktılardan bazılarını tartışmalı bir şekilde temsil ediyor. Bununla birlikte, değiş tokuşlar, DFL'nin dış yüze verdiği nispeten yetersiz dikkatle sınırlı kalır ve en dış çizgileri ele almak için Herkül gibi bir veri iyileştirme ve eğitim çabası gerektirir. Kaynak: https://www.youtube.com/watch?v=x8igrh1eyLk

Bu 'el çabukluğu' veya dikkati saptırma, derin sahtekarlıkların artan gerçekçiliğiyle ilgili mevcut endişelerde kamuoyunun dikkatinden büyük ölçüde kaçıyor, çünkü derin sahtekarlıklarla ilgili eleştirel yetilerimiz hala "şok ve dehşet" aşamasını geçerek gelişiyor.

Bölünmüş Kimlikler

Yeni makale, daha önceki derin sahte algılama yöntemlerinin çoğunun takas sürecine ihanet eden yapılara dayandığını belirtiyor. tutarsız kafa duruşları ve göz kırpmaArasında, çok sayıda diğer teknikler. Sadece bu hafta, başka bir yeni deepfake algılama makalesi yayınlandı. önerilen FaceSwap çerçevesindeki farklı model tiplerinin 'imzasını' onunla oluşturulan sahte videoyu tanımlamaya yardımcı olmak için kullanmak (aşağıdaki resme bakın).

FaceSwap çerçevesindeki farklı model türlerinin imzalarını karakterize ederek derin sahteleri belirleme. Kaynak: https://arxiv.org/pdf/2202.12951.pdf

Buna karşılık, ICT'nin mimarisi, bir kişi için, tüm kimliğin 'gerçek' görüntü veya görüntü olduğu sonucuna varılmadan önce her birinin doğrulanması gereken iki ayrı iç içe geçmiş kimlik oluşturur.

ICT'nin eğitim ve test aşamaları için mimari.

Kimliklerin bölünmesi bir vizyonla kolaylaştırılır Trafo, incelenen bölgeleri iç veya dış kimliklere ait belirteçlere ayırmadan önce yüz tanıma gerçekleştirir.

Yamaları iki paralel kimlik göstereni arasında dağıtmak.

Kağıt şöyle diyor:

"Maalesef mevcut yüz doğrulama [yöntemleri] en ayırt edici bölgeyi, yani doğrulama için iç yüzü karakterize etme eğilimindedir ve dış yüzdeki kimlik bilgilerini yakalayamaz. Identity Consistency Transformer ile, iç ve dış kimliklerin sorunsuz bir şekilde birleştirilmiş bir şekilde aynı anda öğrenilebileceği bir Transformer tasarlayarak, biri iç yüz için diğeri dış yüz için bir çift özdeşlik vektörü öğrenmek üzere bir model eğitiyoruz. modeli.'

Bu tanımlama protokolü için mevcut bir model olmadığı için, yazarlar özgünlük için bir ölçüm görevi görebilecek yeni bir tür tutarlılık kaybı tasarladılar. Kimlik çıkarma modelinden kaynaklanan 'iç belirteç' ve 'dış belirteç', yüz tanımlama çerçeveleri tarafından üretilen daha geleneksel yama yerleştirmelerine eklenir.

Veri ve Eğitim

ICT ağı, Microsoft Research's üzerinde eğitildi MS-Celeb-1M aktörler, politikacılar ve diğer pek çok önde gelen şahsiyet türü dahil olmak üzere bir milyon kimliği kapsayan 10 milyon ünlü yüz görüntüsü içeren veri kümesi. Önceki yöntemin prosedürüne göre Yüz röntgeni (başka bir Microsoft Araştırma girişimi), ICT'nin kendi sahte nesil rutini, algoritmanın test edileceği materyali oluşturmak için bu veri kümesinden alınan yüzlerin iç ve dış bölgelerini değiştirir.

Bu dahili değiş tokuşları gerçekleştirmek için ICT, veri kümesinde benzer baş pozları ve yüz işaretleri sergileyen iki görüntüyü tanımlar, merkezi özelliklerin bir maske bölgesini oluşturur (burada bir takas yapılabilir) ve RGB renk düzeltmesiyle bir derin sahte takas gerçekleştirir.

ICT'nin ünlü kimliğiyle sınırlı olmasının nedeni, (en etkili varyasyonunda) merkezi bir korpustan türetilmiş yüz vektörlerini içeren yeni bir referans setine dayanmasıdır (bu durumda MS-Celeb-1M, ancak referans uzatılabilir. yalnızca tanınmış kişiler için yeterli nitelik ve nicelikte mevcut olabilecek ağda mevcut görüntülere).

Bu türetilmiş vektör seti beyitleri, iç ve dış yüz bölgelerini art arda doğrulamak için özgünlük belirteçleri olarak işlev görür.

Yazarlar, bu yöntemlerden elde edilen belirteçlerin 'yüksek seviyeli' özellikleri temsil ettiğini ve bunun da düşük çözünürlüklü veya başka bir şekilde bozulmuş video gibi zorlu ortamlarda hayatta kalma olasılığının daha yüksek olduğu bir derin sahte algılama süreciyle sonuçlandığını belirtmektedir.

En önemlisi, BİT değil artefakt temelli kanıt aramak yerine, yüz tanıma teknikleriyle daha uyumlu kimlik doğrulama yöntemlerine odaklanır - bu yaklaşım, deepfake intikam pornosu ünlü olmayan hedeflere karşı.

Testler

MS-Celeb-1M'de eğitilen ICT, daha sonra algoritmanın referans destekli ve 'kör' versiyonlarına ayrıldı ve bir dizi rakip veri seti ve yönteme karşı test edildi. Bunlar dahil Yüz Adli Bilişim ++ (FF++), aşağıdakiler de dahil olmak üzere dört yöntemle oluşturulan 1000 gerçek ve derin sahte videodan oluşan bir veri kümesi: Yüz2Yüz ve Yüz Değiştirme; Google'ın Derin Sahte Algılama (DFD), ayrıca Google tarafından oluşturulmuş binlerce derin sahte videodan oluşur; Celeb-DeepFake v1 1 gerçek ve 408 sentezlenmiş, düşük yapaylıklı video içeren (CD795); 2 gerçek ve 1 sahte video içeren V590'in bir uzantısı olan Celeb-DeepFake v5,639; ve Çin'in 2020 Derin Adli Tıp (Daha derine).

Bunlar veri kümeleridir; test meydan okumalarındaki algılama yöntemleri Çoklu görev, MesoInc4, Kapsül, Xception-c0, c2 (FF++'da kullanılan bir yöntem), FWA/DSP-FW Albany Üniversitesi'nden, İki Şube, PCL+I2Gve Yuval Nirkin'in bağlam tutarsızlığı yöntemi.

Yukarıda belirtilen tespit yöntemleri, belirli yüz manipülasyonu tiplerini tespit etmeyi amaçlar. Bunlara ek olarak, yeni makalenin yazarları daha genel derin sahte algılama tekliflerini test etti. Yüz röntgeni, Michigan Eyalet Üniversitesi'nin FFD, CNN Algılaması, ve Yama-Adli Tıp MİT CSAIL'den.

Testten elde edilen en belirgin sonuçlar, video çözünürlüğü ve kalitesi düştükçe rakip yöntemlerin etkinliğinin büyük ölçüde düştüğüdür. Deepfake'in ayrımcı güçlerimize nüfuz etmesine yönelik en ciddi potansiyelin bir kısmı (en azından şu anda) HD olmayan veya başka bir şekilde kaliteden ödün verilmiş videolarda bulunduğundan, bu önemli bir sonuç gibi görünüyor.

Yukarıdaki sonuç grafiğinde, mavi ve kırmızı çizgiler, ICT yöntemlerinin Gauss gürültüsü barikatı dışında tüm alanlarda görüntü bozulmasına karşı dayanıklılığını gösterirken (Zoom ve web kamerası tarzı çekimde bir olasılık değil), rakip yöntemlerin güvenilirliği düşüyor.

Aşağıdaki sonuç tablosunda, çeşitli derin sahte algılama yöntemlerinin görünmeyen veri kümeleri üzerindeki etkinliğini görüyoruz. Gri ve yıldız işaretli sonuçlar, harici olarak doğrulanamayan kapalı kaynak projelerde orijinal olarak yayınlanan sonuçlarla yapılan karşılaştırmayı gösterir. Neredeyse tüm karşılaştırılabilir çerçevelerde ICT, denenmiş veri kümelerine göre rakip derin sahte tespit yaklaşımlarından (koyu renkle gösterilmiştir) daha iyi performans gösterir.

Yazarlar, ek bir test olarak, beğenilen deepfaker Ctrl Shift Face'in YouTube kanalındaki içeriği incelediler ve rakip yöntemlerin, özellikle düşük tanımlama puanları elde ettiğini gördüler:

Burada dikkate değer olan, yeni makalenin genel testlerindeki bazı test verilerinde en yüksek puanlardan birkaçını elde eden FF++ yöntemlerinin (Xception-c23) ve FFD'nin burada 'gerçek dünya' bağlamında ICT'den çok daha düşük bir puan almasıdır. yüksek çaba gerektiren deepfake içeriği.

Yazarlar makaleyi, sonuçlarının deepfake algılama topluluğunu daha kolay genelleştirilebilir üst düzey özelliklere odaklanan benzer girişimlere yönlendirmesi ve en son yöntemlerin rutin olarak önlendiği eser algılamanın "soğuk savaşından" uzaklaştırması umuduyla sonlandırıyor. derin sahte çerçevelerdeki gelişmeler veya bu tür yöntemleri daha az dirençli hale getiren diğer faktörler.

Genellikle alternatif yöntemleri geride bırakan deepfake içeriği tanımlayan daha fazla ICT örneği için aşağıdaki ek videoya göz atın.

Kimlik Tutarlılığı Transformer-CVPR2022 ile Ünlüleri Koruma