Connect with us

Yapay Zekâ

Yeni ve Daha Basit Bir Deepfake Yöntemi: Önceki Yaklaşımları Geride Bırakan

mm

Çinli bir AI araştırma grubu ve ABD’deki araştırmacıların işbirliği, dört yıl önce ortaya çıkan deepfake fenomeninden bu yana deepfake teknolojilerinde ilk gerçek yeniliği geliştirdi.

Yeni yöntem, diğer tüm mevcut çerçevelerden daha iyi performans gösteren yüz değiştirme işlemlerini gerçekleştirebiliyor ve bu işlem için büyük ve özel veri setlerini toplamak ve bunları bir hafta boyunca tek bir kimlik için eğitmek gerekmiyor. Yeni makalede sunulan örnekler için modeller, iki popüler ünlüler veri setinin tamamında, bir NVIDIA Tesla P40 GPU’da yaklaşık üç gün boyunca eğitildi.

Bu makalenin sonunda tam video yer alıyor. Bu, yeni makaledeki ek materyallerdeki bir videodan örnek. Scarlett Johansson'ın yüzü, kaynak videoda değiştiriliyor. CihaNet, yüz değiştirirken kenar maskesini oluşturma sorununu, kaynak ve hedef kimlikler arasında daha derin ilişkiler oluşturarak ve bunları uygulayarak çözer, bu da 'açık sınırlar' ve geleneksel deepfake yaklaşımlarında oluşan diğer süperpozisyon hatalarının sonunu getirir. Kaynak: https://mitchellx.github.io/#video

Tam video bu makalenin sonunda yer alıyor. Yeni makaledeki ek materyallerden bir videodan bu örnek. Scarlett Johansson’ın yüzü, kaynak videoda değiştiriliyor. CihaNet, yüz değiştirirken kenar maskesini oluşturma sorununu, kaynak ve hedef kimlikler arasında daha derin ilişkiler oluşturarak ve bunları uygulayarak çözer, bu da ‘açık sınırlar’ ve geleneksel deepfake yaklaşımlarında oluşan diğer süperpozisyon hatalarının sonunu getirir. Kaynak: Kaynak: https://mitchellx.github.io/#video

Yeni yaklaşım, nakledilen kimliği hedef videoda kaba bir şekilde yapıştırmaya gerek kalmadan, bu da genellikle yüzün sahte ve gerçek, altta yatan yüzü arasındaki sınırda ortaya çıkan sanal sanat eserleri oluşturur. Bunun yerine, ‘hayal haritaları’ kullanılarak görsel özellikler arasında daha derin bir birleşim gerçekleştirilir, çünkü sistem, mevcut yöntemlerden daha etkili bir şekilde kimliği bağlamdan ayırır ve bu nedenle hedef kimliğini daha derin bir düzeyde karıştırabilir.

Makaleden. CihaNet dönüşümleri, hayal haritaları (alt satır) aracılığıyla gerçekleştirilir. Sistem, yeni kimlik superpoze edilecek görüntüden bağlam bilgilerini (yüz yönü, saç, gözlük ve diğer engeller vb.) tamamen kullanır ve yüz kimlik bilgilerini, görüntüye eklenecek kişiden tamamen alır. Yüzü bağlamdan ayırma yeteneği, sistemin başarısı için kritiktir. Kaynak: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Makaleden. CihaNet dönüşümleri, hayal haritaları (alt satır) aracılığıyla gerçekleştirilir. Sistem, yeni kimlik superpoze edilecek görüntüden bağlam bilgilerini (yüz yönü, saç, gözlük ve diğer engeller vb.) tamamen kullanır ve yüz kimlik bilgilerini, görüntüye eklenecek kişiden tamamen alır. Yüzü bağlamdan ayırma yeteneği, sistemin başarısı için kritiktir. Kaynak: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Etkili bir şekilde, yeni hayal haritası, değiştirme için daha eksiksiz bir bağlam sağlar, bu da genellikle geniş bir curations gerektiren ve (DeepFaceLab için) ayrı bir eğitim gerektiren sert maskelerle karşılaştırılır ve bu da iki kimliğin gerçek birleşiminde sınırlı esneklik sağlar.

Ek materyallerden örnekler, VGGFace ve Forensics++ için FFHQ ve Celeb-A HQ veri setlerini kullanarak. İlk iki sütun, rastgele seçilen (gerçek) değiştirilecek görüntüleri gösterir. Sonraki dört sütun, mevcut en etkili dört yöntemin sonuçlarını gösterir, son sütun ise CihaNet’in sonucunu gösterir. FaceSwap deposu, daha popüler DeepFaceLab yerine kullanıldı, çünkü her iki proje de GitHub’daki orijinal 2017 deepfakes kodunun birer dalıdır. Her proje, daha sonra modeller, teknikler, çeşitli arayüzler ve ek araçlar ekledi, ancak deepfake’leri mümkün kılan temel kod hiç değişmedi ve her iki proje için de ortaktır. Kaynak: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Makale, One-stage Context and Identity Hallucination Network başlıklı ve JD AI Research ve Massachusetts Amherst Üniversitesi’nden araştırmacılara ait, Çin’in Ulusal Anahtar Araştırma ve Geliştirme Programı tarafından 2020AAA0103800 no’lu hibe ile desteklenmiştir. 20-24 Ekim’de Çin’in Chengdu şehrinde düzenlenen 29. ACM Uluslararası Çoklu Ortam Konferansı’nda sunuldu.

‘Yüz-Yüz’ Eşitliğine Gerek Yok

Hem popüler deepfake yazılımı DeepFaceLab hem de rakip FaceSwap, yüzün hangi yöne baktığını belirlemek, engelleri hesaba katmak (yeniden elle) ve birçok diğer can sıkıcı engelleri (aydınlatma dahil) bertaraf etmek için zahmetli ve genellikle elle düzenlenmiş iş akışlarını gerçekleştirir.

CihaNet ise, iki görüntünün doğrudan kameraya bakması gerekmeden, tek bir görüntüden yararlı kimlik bilgilerini çıkarmak için gerek duymaz.

Bu örneklerde, bir dizi deepfake yazılımı, yüzlerin sadece kimlik açısından değil, aynı zamanda farklı açılarda olduğu bir yüz değiştirme göreviyle karşı karşıya kalır (üçüncü sütun). CihaNet, yüzün 'poz'unun kimlik bilgilerinin bir parçası olmadığını dikkate alarak kimliği doğru bir şekilde soyutlayabilir.

Bu örneklerde, bir dizi deepfake yazılımı, yüzlerin sadece kimlik açısından değil, aynı zamanda farklı açılarda olduğu bir yüz değiştirme göreviyle karşı karşıya kalır (üçüncü sütun). CihaNet, yüzün ‘poz’unun kimlik bilgilerinin bir parçası olmadığını dikkate alarak kimliği doğru bir şekilde soyutlayabilir.

Mimari

CihaNet projesi, yazarlara göre, 2019’da Microsoft Research ve Peking Üniversitesi arasındaki işbirliği olan FaceShifter tarafından esinlenmiştir, ancak daha eski yöntemin temel mimarisinde bazı önemli değişiklikler yapar.

FaceShifter, kimlik bilgilerini işlemek için iki Uyumlu Örnek Normalizasyonu (AdaIN) ağı kullanır, bu veriler daha sonra bir maske aracılığıyla hedef görüntüye aktarılır, bu da mevcut popüler deepfake yazılımlarıyla (ve ilgili sınırlamalarıyla) benzer bir şekilde, ayrıca HEAR-Net (occlusion engelleri için ayrı bir eğitimli alt ağ içeren) kullanır.

Bunun yerine, yeni mimari doğrudan bu ‘bağlamsal’ bilgileri dönüştürme işlemi için kullanır, iki adımlı tek bir Cascading Adaptive Instance Normalization (C-AdaIN) işlemi aracılığıyla, ID ile ilgili alanların bağlam tutarlılığını sağlar.

Sistemin kritik ikinci alt ağı, Swapping Block (SwapBlk) olarak adlandırılır ve référence görüntüsünün bağlamından ve kaynak görüntüsünden gömülü ‘kimlik’ bilgilerinden entegre bir özellik oluşturur, geleneksel yöntemlerle bunu gerçekleştirmek için gerekli çoklu aşamaları atlar.

Kimlik ve bağlamı ayırt etmeye yardımcı olmak için, her düzey için bir hayal haritası oluşturulur, bu da bir yumuşak segmentasyon maskesi olarak işlev görür ve bu kritik deepfake işlemi için daha geniş bir özellik yelpazesinde etki eder.

Hayal haritasının değeri arttıkça, kimlikler arasında daha net bir yol belirginleşir.

Hayal haritasının değeri arttıkça, kimlikler arasında daha net bir yol belirginleşir.

Bu şekilde, tüm değiştirme işlemi tek bir aşamada ve hậu-işlem olmadan gerçekleştirilir.

Veri ve Test

Sistemi denemek için araştırmacılar, dört modeli iki popüler ve çeşitli açık görüntü veri setlerinde eğitti: CelebA-HQ ve NVIDIA’nın Flickr-Faces-HQ Veri Seti (FFHQ), her biri sırasıyla 30.000 ve 70.000 görüntü içerir.

Bu temel veri setlerinde hiçbir budama veya filtreleme yapılmadı. Her durumda, araştırmacılar her veri setinin tamamını tek bir Tesla GPU’da üç gün boyunca, Adam optimizasyonunda 0,0002’lik öğrenme hızıyla eğitti.

Sonrasında, binlerce kişilik veri setlerindeki rastgele yüz değiştirme örnekleri oluşturdular, yüzlerin benzer veya aynı cinsiyette olup olmadığına bakılmaksızın ve CihaNet’in sonuçlarını dört önde gelen deepfake çerçevesinin çıktısıyla karşılaştırdılar: FaceSwap (orijinal 2017 deposunun kök kod tabanını paylaştığı için daha popüler DeepFaceLab‘i temsil eder); yukarıda bahsedilen FaceShifter; FSGAN; ve SimSwap.

VGG-Face, FFHQ, CelebA-HQ ve FaceForensics++ aracılığıyla sonuçları karşılaştırarak, yazarlar yeni modelin tüm önceki modelleri aştığını buldu, aşağıdaki tabloda gösterildiği gibi.

Kullanılan üç ölçüt, Yapısal Benzerlik (SSIM), poz tahmini hatası ve ID algoritma doğruluğu idi, bu da başarıyla alındığı çiftlerin yüzdesine göre hesaplanır.

Araştırmacılar, CihaNet’in nitel sonuçlar açısından üstün bir yaklaşım olduğunu ve deepfake teknolojilerindeki mevcut durumun önemli bir ilerlemesini temsil ettiğini iddia ediyorlar, bu da geniş ve emek yoğun maskeleme mimarileri ve yöntemlerinin gereksizliğini ortadan kaldırıyor ve kimliği bağlamdan daha faydalı ve uygulanabilir bir şekilde ayırıyor.

Aşağıda yeni tekniğin daha fazla video örneğini görmek için tıklayınız. Tam uzunluktaki video burada bulunabilir.

Yeni makaleden ek materyaller, CihaNet çeşitli kimliklere yüz değiştirme işlemi gerçekleştiriyor. Kaynak: https://mitchellx.github.io/#video

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]