Bizimle iletişime geçin

Yapay Zeka

Önceki Yaklaşımları Aşan Yeni ve Daha Basit Bir Deepfake Yöntemi

mm

Çinli bir yapay zeka araştırma grubu ile ABD merkezli araştırmacılar arasındaki işbirliği, dört yıl önce ortaya çıkan fenomenden bu yana deepfake teknolojisinde belki de ilk gerçek yeniliği geliştirdi.

Yeni yöntem, büyük özel veri kümelerini kapsamlı bir şekilde toplayıp düzenlemeye ve bunları yalnızca tek bir kimlik için bir haftaya kadar eğitmeye gerek kalmadan, standart algısal testlerde diğer tüm mevcut çerçevelerden daha iyi performans gösteren yüz değiştirmeleri gerçekleştirebilir. Yeni makalede sunulan örnekler için, modeller üzerinde eğitildi. bütünlük yaklaşık üç gün boyunca bir NVIDIA Tesla P40 GPU'da iki popüler ünlü veri kümesinden.

Bu makalenin sonunda gömülü tam video. Yeni makale için ek materyallerdeki bir videodan alınan bu örnekte, Scarlett Johansson'ın yüzü kaynak videoya aktarılmıştır. CihaNet, kaynak ve hedef kimlikler arasında daha derin ilişkiler kurarak ve harekete geçirerek, bir takas gerçekleştirirken kenar maskeleme sorununu ortadan kaldırır, yani geleneksel derin sahte yaklaşımlarda ortaya çıkan 'bariz sınırlar' ve diğer üst üste binme hatalarına son verir. Kaynak: Kaynak: https://mitchellx.github.io/#video

Videonun tamamı bu makalenin sonunda mevcuttur. Yeni makalenin yazarlarından biri tarafından sağlanan ek materyallerdeki bir videodan alınan bu örnekte, Scarlett Johansson'ın yüzü kaynak videoya aktarılmıştır. CihaNet, kaynak ve hedef kimlikler arasında daha derin ilişkiler kurarak ve harekete geçirerek, bir takas gerçekleştirirken kenar maskeleme sorununu ortadan kaldırır, yani geleneksel derin sahte yaklaşımlarda ortaya çıkan 'bariz sınırlar' ve diğer üst üste binme hatalarına son verir. Kaynak: Kaynak: https://mitchellx.github.io/#video

Yeni yaklaşım, aktarılan kimliği kabaca hedef videoya 'yapıştırma' ihtiyacını ortadan kaldırıyor, bu da genellikle anlatıya yol açıyor eserler sahte yüzün bittiği ve altta yatan gerçek yüzün başladığı yerde ortaya çıkanlar. Bunun yerine, 'halüsinasyon haritaları' görsel yönlerin daha derin bir şekilde karışmasını sağlamak için kullanılır, çünkü sistem kimliği bağlamdan mevcut yöntemlerden çok daha etkili bir şekilde ayırır ve bu nedenle hedef kimliğini daha derin bir düzeyde harmanlayabilir.

Kağıttan. CihaNet dönüşümleri halüsinasyon haritaları ile kolaylaştırılmıştır (alt sıra). Sistem, tamamen yeni kimliğin bindirileceği görüntüden gelen bağlam bilgisini (örn. yüz yönü, saç, gözlük ve diğer oklüzyonlar vb.) ve tamamen görüntüye eklenecek kişiden gelen yüz kimliği bilgisini kullanır. Yüzü bağlamdan ayırma yeteneği, sistemin başarısı için kritik öneme sahiptir. Kaynak: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Kağıttan. CihaNet dönüşümleri halüsinasyon haritaları ile kolaylaştırılmıştır (alt sıra). Sistem, tamamen yeni kimliğin bindirileceği görüntüden gelen bağlam bilgisini (örn. yüz yönü, saç, gözlük ve diğer oklüzyonlar vb.) ve tamamen görüntüye eklenecek kişiden gelen yüz kimliği bilgisini kullanır. Yüzü bağlamdan ayırma yeteneği, sistemin başarısı için kritik öneme sahiptir. Kaynak: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Yeni halüsinasyon haritası, genellikle kapsamlı iyileştirme gerektiren (ve DeepFaceLab söz konusu olduğunda, ayrı eğitim) iki kimliğin gerçek birleştirilmesi açısından sınırlı esneklik sağlarken.

VGGFace ve Forensics++ genelinde hem FFHQ hem de Celeb-A HQ veri kümelerini kullanan ek materyallerde sağlanan örneklerden. İlk iki sütun, değiştirilecek rastgele seçilmiş (gerçek) görüntüleri gösterir. Aşağıdaki dört sütun, şu anda mevcut olan en etkili dört yöntemin kullanıldığı takasın sonuçlarını gösterirken, son sütun CihaNet'in sonucunu gösterir. Her iki proje de GitHub'daki orijinal 2017 Deepfakes kodunun çatalları olduğundan, daha popüler olan DeepFaceLab yerine FaceSwap deposu kullanıldı. O zamandan beri her projeye modeller, teknikler, çeşitli kullanıcı arayüzleri ve tamamlayıcı araçlar eklenmiş olsa da, derin sahteleri mümkün kılan temel kod hiç değişmedi ve her ikisinde de ortak olmaya devam ediyor. Kaynak: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

The kâğıtbaşlıklı Tek Aşamalı Bağlam ve Kimlik Halüsinasyon Ağı, JD AI Research ve Massachusetts Amherst Üniversitesi'ne bağlı araştırmacılar tarafından yazılmıştır ve 2020AAA0103800 Hibe No.lu Çin Ulusal Anahtar Ar-Ge Programı tarafından desteklenmiştir. 29-20 Ekim tarihlerinde Çin'in Chengdu kentinde düzenlenen 24. ACM Uluslararası Multimedya Konferansı'nda tanıtıldı.

'Yüz Yüze' Pariteye Gerek Yok

Hem mevcut en popüler deepfake yazılımı DeepFaceLab hem de rakip çatal FaceSwap, bir yüzün hangi yöne eğimli olduğunu, hangi engellerin hesaba katılması gerektiğini (yine manuel olarak) belirlemek için dolambaçlı ve sıklıkla elle küratörlüğünü yaptığı iş akışları gerçekleştirir. ve deepfake'lerin ortaya çıkışından bu yana medyada yanlış bir şekilde tasvir edilen 'işaretle ve tıkla' deneyiminden çok farklı kullanımlara neden olan diğer birçok rahatsız edici engelle (aydınlatma dahil) başa çıkmak zorundadır.

Buna karşılık CihaNet, tek bir görüntüden yararlı kimlik bilgilerini çıkarmak ve kullanmak için iki görüntünün doğrudan kameraya bakmasını gerektirmez.

Bu örneklerde, bir grup deepfake yazılım yarışmacısı, yalnızca kimlik açısından farklı olmakla kalmayıp aynı yöne bakmayan yüzleri değiştirme göreviyle karşı karşıyadır. Orijinal deepfakes deposundan türetilen yazılımlar (yukarıda resmedilen son derece popüler DeepFaceLab ve FaceSwap gibi), değiştirilecek iki görüntü arasındaki açılardaki eşitsizliği kaldıramaz (üçüncü sütuna bakın). Bu arada, yüzün 'durumu' kimlik bilgisinin özünde bir parçası olmadığı için, Cihanet kimliği doğru bir şekilde soyutlayabilir.

Bu örneklerde, bir grup deepfake yazılım yarışmacısı, yalnızca kimlik açısından farklı olmakla kalmayıp aynı yöne bakmayan yüzleri değiştirme göreviyle karşı karşıyadır. Orijinal deepfakes deposundan türetilen yazılımlar (yukarıda resmedilen son derece popüler DeepFaceLab ve FaceSwap gibi), değiştirilecek iki görüntü arasındaki açılardaki eşitsizliği kaldıramaz (üçüncü sütuna bakın). Bu arada, yüzün 'durumu' kimlik bilgisinin özünde bir parçası olmadığı için, CihaNet kimliği doğru bir şekilde soyutlayabilir.

mimari

Yazarlara göre CihaNet projesi, Microsoft Research ve Pekin Üniversitesi arasındaki 2019 işbirliğinden ilham aldı. Yüz Değiştirici, eski yöntemin çekirdek mimarisinde bazı önemli ve kritik değişiklikler yapmasına rağmen.

FaceShifter iki Uyarlanabilir Örnek Normalleştirme kullanır (AdaİN) kimlik bilgilerini işlemek için ağlar (bu veriler daha sonra bir maske aracılığıyla hedef görüntüye aktarılır), mevcut popüler deepfake yazılımına benzer bir şekilde (ve tüm ilgili sınırlamalarıyla birlikte), ek bir HEAR-Net (tıkanma engelleri üzerinde eğitilmiş ayrı olarak eğitilmiş bir alt ağ içerir - ek bir karmaşıklık katmanı).

Bunun yerine, yeni mimari, bu 'bağlamsal' bilgiyi, ID-'nin bağlam tutarlılığını (örn. ilgili alanlar.

Sistem için çok önemli olan ikinci alt ağ, Swapping Block (SwapBlk) olarak adlandırılır ve bunu başarmak için gerekli olan birden çok aşamayı atlayarak referans görüntünün bağlamından ve kaynak görüntüden gömülü 'kimlik' bilgisinden entegre bir özellik oluşturur. konvansiyonel akım anlamına gelir.

Bağlam ve kimlik arasında ayrım yapmaya yardımcı olmak için, bir halüsinasyon haritası soft-segmentation mask yerine geçen ve deepfake sürecinin bu kritik kısmı için daha geniş bir özellik yelpazesi üzerinde hareket eden her seviye için oluşturulur.

Halüsinasyon haritasının değeri (sağ altta resmedilmiştir) büyüdükçe, kimlikler arasında daha net bir yol ortaya çıkıyor.

Halüsinasyon haritasının değeri (sağ altta resmedilmiştir) büyüdükçe, kimlikler arasında daha net bir yol ortaya çıkıyor.

Bu sayede takas işleminin tamamı tek aşamada ve herhangi bir işlem sonrası işlem yapılmadan gerçekleştirilir.

Veri ve Test

Sistemi denemek için araştırmacılar, son derece popüler ve alacalı iki açık görüntü veri kümesi üzerinde dört model eğittiler – CelebA-HQ  ve NVIDIA'nın Flickr-Faces-HQ Veri Kümesi (FFHQ), her biri sırasıyla 30,000 ve 70,000 resim içerir.

Bu temel veri kümelerinde budama veya filtreleme yapılmadı. Her durumda araştırmacılar, Adam optimizasyonunda 0.0002'lik bir öğrenme oranıyla, her bir veri kümesinin tamamını tek Tesla GPU'da üç gün boyunca eğitti.

Daha sonra, yüzlerin benzer ve hatta cinsiyet uyumlu olup olmadığına bakılmaksızın, veri kümelerinde yer alan binlerce kişilik arasında bir dizi rastgele takas gerçekleştirdiler ve CihaNet'in sonuçlarını önde gelen dört derin sahte çerçevenin çıktısıyla karşılaştırdılar: Yüz nakli (bu daha popüler anlamına gelir Derin Yüz Laboratuvarı, bir kök kod tabanını paylaştığı için orijinal 2017 deposu dünyaya deepfakes getiren); yukarıda belirtilen FaceShifter; FSGAN; Ve Sim Değiştirme.

Sonuçları karşılaştırırken VGG-Yüz, FFHQ, CelebA-HQ ve Yüz Adli Bilişim ++, yazarlar, aşağıdaki tabloda belirtildiği gibi, yeni modellerinin önceki tüm modellerden daha iyi performans gösterdiğini buldular.

Sonuçların değerlendirilmesinde kullanılan üç metrik, Yapısal Benzerlik (SSIM), poz tahmin hatası ve Kimlik alma doğruluğubaşarıyla alınan çiftlerin yüzdesine göre hesaplanır.

Araştırmacılar, CihaNet'in nitel sonuçlar açısından üstün bir yaklaşımı ve kapsamlı ve emek yoğun maskeleme mimarileri ve metodolojilerinin yükünü kaldırarak ve daha kullanışlı ve kimliğin bağlamdan eyleme geçirilebilir şekilde ayrılması.

Yeni tekniğin diğer video örneklerini görmek için aşağıya göz atın. Tam uzunlukta videoyu bulabilirsiniz okuyun.

CihaNet, yeni kağıt için ek materyallerden çeşitli kimlikler üzerinde yüz değiştirme işlemi gerçekleştirir. Kaynak: https://mitchellx.github.io/#video

 

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai