Yapay Zeka
Dış Yüz Bölgelerinden Ünlü Deepfakelerini Belirleme
Microsoft ile Çin'deki bir üniversite arasındaki yeni işbirliği, diğer insanlara "yansıtılan" kimlikleri tanımak için mevcut deepfake tekniklerinin eksikliklerinden yararlanarak, ünlülerin deepfake'lerini tanımlamanın yeni bir yolunu önerdi.
Yaklaşım denir Kimlik Tutarlılık Transformatörü (BİT) ve yüzün en dış kısımlarını (çene, elmacık kemikleri, saç çizgisi ve diğer dış kenar çizgileri) yüzün iç kısmıyla karşılaştırarak çalışır. Sistem, ünlü kişilerin yaygın olarak bulunan kamuya açık görüntü verilerinden yararlanıyor ve bu da etkinliğini, görüntüleri yaygın olarak bulunan bilgisayarlı görüntü veri kümelerinde ve internette çok sayıda bulunan popüler ünlülerle sınırlıyor.
Yukarıdaki görüntünün gösterdiği gibi, şu anda derin sahtekarlık için popüler olan yöntemler oldukça kısıtlı kaynaklara sahiptir ve yüz ikamesine ilişkin kanıtları en aza indirmek için uygun ana bilgisayar yüzlerine (kimliği derin sahte ile değiştirilecek bir kişinin görüntüsü veya videosu) dayanır.
Farklı yöntemler alnın tamamını ve çene ve elmacık kemiği bölgelerinin büyük bir bölümünü kapsasa da, tümü az çok konakçı yüzün çerçevesi içinde sınırlandırılmıştır.
Testlerde, ICT, tüm videonun içeriğinin sıkıştırma yapıtları tarafından bozulduğu düşük çözünürlüklü video gibi sahte dostu sınırlarda derin sahte içeriği tespit edebildiğini kanıtladı ve bu da derin sahte işlemin kalıntı kanıtlarını gizlemeye yardımcı oldu - bu durum birçok rakibi şaşırtan bir durum derin sahte algılama yöntemleri.
The kâğıt başlıklı Kimlik Tutarlılık Transformatörü ile Ünlüleri Koruma, ve Çin Bilim ve Teknoloji Üniversitesi, Microsoft Research Asia ve Microsoft Cloud + AI'ya çeşitli şekillerde bağlı dokuz araştırmacıdan geliyor.
Güvenilirlik Açığı
Gibi popüler yüz değiştirme algoritmalarının en az birkaç nedeni vardır. Derin Yüz Laboratuvarı ve Yüz nakli Değiştirilen yüz kimliklerinin en dıştaki alanını ihmal edin.
İlk olarak, derin sahte modellerin eğitimi zaman alıcıdır ve kaynak açısından kritiktir ve 'uyumlu' ana bilgisayar yüzlerinin/gövdelerinin benimsenmesi, kimliği ayırt etmek için kullandığımız yüzün nispeten değişmez iç bölgelerine konsantre olmak için GPU döngülerini ve dönemlerini serbest bırakır (çünkü kilo dalgalanması ve yaşlanma gibi değişkenlerin kısa vadede bu temel yüz özelliklerini değiştirme olasılığı en düşüktür).
İkinci olarak, çoğu derin sahte yaklaşım (ve bu kesinlikle en popüler veya kötü şöhretli uygulayıcılar tarafından kullanılan yazılım olan DeepFaceLab için geçerlidir), yanak ve çene bölgeleri gibi 'yüz sonu' kenar boşluklarını çoğaltma konusunda sınırlı yeteneğe sahiptir ve gerçek tarafından kısıtlanır. yukarı akışları (2017) kodu, bu sorunu kapsamlı bir şekilde ele almadı.
Kimliklerin iyi eşleşmediği durumlarda, deepfake algoritması yüzün etrafındaki arka plan alanlarını 'boyamak' zorundadır, ki bunu en iyi ihtimalle beceriksizce yapar, örneğin en iyi deepfake'lerin ellerinde bile. Ctrl Vites Değiştirme Yüzü, makalenin çalışmalarında çıktısı kullanıldı.
Bu 'el çabukluğu' veya dikkati saptırma, derin sahtekarlıkların artan gerçekçiliğiyle ilgili mevcut endişelerde kamuoyunun dikkatinden büyük ölçüde kaçıyor, çünkü derin sahtekarlıklarla ilgili eleştirel yetilerimiz hala "şok ve dehşet" aşamasını geçerek gelişiyor.
Bölünmüş Kimlikler
Yeni makale, daha önceki derin sahte algılama yöntemlerinin çoğunun takas sürecine ihanet eden yapılara dayandığını belirtiyor. tutarsız kafa duruşları ve göz kırpmaArasında, çok sayıda diğer teknikler. Sadece bu hafta, başka bir yeni deepfake algılama makalesi yayınlandı. önerilen FaceSwap çerçevesindeki farklı model tiplerinin 'imzasını' onunla oluşturulan sahte videoyu tanımlamaya yardımcı olmak için kullanmak (aşağıdaki resme bakın).
Buna karşılık, ICT'nin mimarisi, bir kişi için, tüm kimliğin 'gerçek' görüntü veya görüntü olduğu sonucuna varılmadan önce her birinin doğrulanması gereken iki ayrı iç içe geçmiş kimlik oluşturur.
Kimliklerin bölünmesi bir vizyonla kolaylaştırılır Trafo, incelenen bölgeleri iç veya dış kimliklere ait belirteçlere ayırmadan önce yüz tanıma gerçekleştirir.
Kağıt şöyle diyor:
"Maalesef mevcut yüz doğrulama [yöntemleri] en ayırt edici bölgeyi, yani doğrulama için iç yüzü karakterize etme eğilimindedir ve dış yüzdeki kimlik bilgilerini yakalayamaz. Identity Consistency Transformer ile, iç ve dış kimliklerin sorunsuz bir şekilde birleştirilmiş bir şekilde aynı anda öğrenilebileceği bir Transformer tasarlayarak, biri iç yüz için diğeri dış yüz için bir çift özdeşlik vektörü öğrenmek üzere bir model eğitiyoruz. modeli.'
Bu tanımlama protokolü için mevcut bir model olmadığı için, yazarlar özgünlük için bir ölçüm görevi görebilecek yeni bir tür tutarlılık kaybı tasarladılar. Kimlik çıkarma modelinden kaynaklanan 'iç belirteç' ve 'dış belirteç', yüz tanımlama çerçeveleri tarafından üretilen daha geleneksel yama yerleştirmelerine eklenir.
Veri ve Eğitim
ICT ağı, Microsoft Research's üzerinde eğitildi MS-Celeb-1M aktörler, politikacılar ve diğer pek çok önde gelen şahsiyet türü dahil olmak üzere bir milyon kimliği kapsayan 10 milyon ünlü yüz görüntüsü içeren veri kümesi. Önceki yöntemin prosedürüne göre Yüz röntgeni (başka bir Microsoft Araştırma girişimi), ICT'nin kendi sahte nesil rutini, algoritmanın test edileceği materyali oluşturmak için bu veri kümesinden alınan yüzlerin iç ve dış bölgelerini değiştirir.
Bu dahili değiş tokuşları gerçekleştirmek için ICT, veri kümesinde benzer baş pozları ve yüz işaretleri sergileyen iki görüntüyü tanımlar, merkezi özelliklerin bir maske bölgesini oluşturur (burada bir takas yapılabilir) ve RGB renk düzeltmesiyle bir derin sahte takas gerçekleştirir.
ICT'nin ünlü kimliğiyle sınırlı olmasının nedeni, (en etkili varyasyonunda) merkezi bir korpustan türetilmiş yüz vektörlerini içeren yeni bir referans setine dayanmasıdır (bu durumda MS-Celeb-1M, ancak referans uzatılabilir. yalnızca tanınmış kişiler için yeterli nitelik ve nicelikte mevcut olabilecek ağda mevcut görüntülere).
Bu türetilmiş vektör seti beyitleri, iç ve dış yüz bölgelerini art arda doğrulamak için özgünlük belirteçleri olarak işlev görür.
Yazarlar, bu yöntemlerden elde edilen belirteçlerin 'yüksek seviyeli' özellikleri temsil ettiğini ve bunun da düşük çözünürlüklü veya başka bir şekilde bozulmuş video gibi zorlu ortamlarda hayatta kalma olasılığının daha yüksek olduğu bir derin sahte algılama süreciyle sonuçlandığını belirtmektedir.
En önemlisi, BİT değil artefakt temelli kanıt aramak yerine, yüz tanıma teknikleriyle daha uyumlu kimlik doğrulama yöntemlerine odaklanır - bu yaklaşım, deepfake intikam pornosu ünlü olmayan hedeflere karşı.
Testler
MS-Celeb-1M'de eğitilen ICT, daha sonra algoritmanın referans destekli ve 'kör' versiyonlarına ayrıldı ve bir dizi rakip veri seti ve yönteme karşı test edildi. Bunlar dahil Yüz Adli Bilişim ++ (FF++), aşağıdakiler de dahil olmak üzere dört yöntemle oluşturulan 1000 gerçek ve derin sahte videodan oluşan bir veri kümesi: Yüz2Yüz ve Yüz Değiştirme; Google'ın Derin Sahte Algılama (DFD), ayrıca Google tarafından oluşturulmuş binlerce derin sahte videodan oluşur; Celeb-DeepFake v1 1 gerçek ve 408 sentezlenmiş, düşük yapaylıklı video içeren (CD795); 2 gerçek ve 1 sahte video içeren V590'in bir uzantısı olan Celeb-DeepFake v5,639; ve Çin'in 2020 Derin Adli Tıp (Daha derine).
Bunlar veri kümeleridir; test meydan okumalarındaki algılama yöntemleri Çoklu görev, MesoInc4, Kapsül, Xception-c0, c2 (FF++'da kullanılan bir yöntem), FWA/DSP-FW Albany Üniversitesi'nden, İki Şube, PCL+I2Gve Yuval Nirkin'in bağlam tutarsızlığı yöntemi.
Yukarıda belirtilen tespit yöntemleri, belirli yüz manipülasyonu tiplerini tespit etmeyi amaçlar. Bunlara ek olarak, yeni makalenin yazarları daha genel derin sahte algılama tekliflerini test etti. Yüz röntgeni, Michigan Eyalet Üniversitesi'nin FFD, CNN Algılaması, ve Yama-Adli Tıp MİT CSAIL'den.
Testten elde edilen en belirgin sonuçlar, video çözünürlüğü ve kalitesi düştükçe rakip yöntemlerin etkinliğinin büyük ölçüde düştüğüdür. Deepfake'in ayrımcı güçlerimize nüfuz etmesine yönelik en ciddi potansiyelin bir kısmı (en azından şu anda) HD olmayan veya başka bir şekilde kaliteden ödün verilmiş videolarda bulunduğundan, bu önemli bir sonuç gibi görünüyor.
Yukarıdaki sonuç grafiğinde, mavi ve kırmızı çizgiler, ICT yöntemlerinin Gauss gürültüsü barikatı dışında tüm alanlarda görüntü bozulmasına karşı dayanıklılığını gösterirken (Zoom ve web kamerası tarzı çekimde bir olasılık değil), rakip yöntemlerin güvenilirliği düşüyor.
Aşağıdaki sonuç tablosunda, çeşitli derin sahte algılama yöntemlerinin görünmeyen veri kümeleri üzerindeki etkinliğini görüyoruz. Gri ve yıldız işaretli sonuçlar, harici olarak doğrulanamayan kapalı kaynak projelerde orijinal olarak yayınlanan sonuçlarla yapılan karşılaştırmayı gösterir. Neredeyse tüm karşılaştırılabilir çerçevelerde ICT, denenmiş veri kümelerine göre rakip derin sahte tespit yaklaşımlarından (koyu renkle gösterilmiştir) daha iyi performans gösterir.
Yazarlar, ek bir test olarak, beğenilen deepfaker Ctrl Shift Face'in YouTube kanalındaki içeriği incelediler ve rakip yöntemlerin, özellikle düşük tanımlama puanları elde ettiğini gördüler:
Burada dikkate değer olan, yeni makalenin genel testlerindeki bazı test verilerinde en yüksek puanlardan birkaçını elde eden FF++ yöntemlerinin (Xception-c23) ve FFD'nin burada 'gerçek dünya' bağlamında ICT'den çok daha düşük bir puan almasıdır. yüksek çaba gerektiren deepfake içeriği.
Yazarlar makaleyi, sonuçlarının deepfake algılama topluluğunu daha kolay genelleştirilebilir üst düzey özelliklere odaklanan benzer girişimlere yönlendirmesi ve en son yöntemlerin rutin olarak önlendiği eser algılamanın "soğuk savaşından" uzaklaştırması umuduyla sonlandırıyor. derin sahte çerçevelerdeki gelişmeler veya bu tür yöntemleri daha az dirençli hale getiren diğer faktörler.
Genellikle alternatif yöntemleri geride bırakan deepfake içeriği tanımlayan daha fazla ICT örneği için aşağıdaki ek videoya göz atın.
İlk olarak 4 Mart 2022'de yayınlandı.