Bizimle iletişime geçin

Yapay Zeka

Çözme Bir Sonraki Derin Sahte Devrimdir

mm

CGI veri artırma, derin sahte görüntüler üzerinde daha fazla kontrol elde etmek için yeni bir projede kullanılıyor. Deepfake yüz veri kümelerindeki eksik boşlukları doldurmak için CGI kafalarını hâlâ etkili bir şekilde kullanamasanız da, kimliği bağlamdan ayırmaya yönelik yeni bir araştırma dalgası, yakında buna gerek kalmayabileceğiniz anlamına geliyor.

Son birkaç yılın en başarılı viral deepfake videolarından bazılarının yaratıcıları, kaynak videolarını çok dikkatli bir şekilde seçiyor, uzun süreli profil çekimlerinden (yani, polis tutuklama prosedürleri tarafından popüler hale getirilen yan yana sabıka fotoğrafları), keskin açılardan ve alışılmadık veya abartılı ifadelerden kaçınıyor. . Viral deepfakeciler tarafından üretilen tanıtım videoları, deepfake için 'en kolay' açıları ve ifadeleri seçen düzenlenmiş derlemeler haline geliyor.

Aslında, derin sahte bir ünlüyü eklemek için en uyumlu hedef video, (kimliği derin sahte tarafından silinecek olan) orijinal kişinin minimum ifade yelpazesiyle doğrudan kameraya baktığı videodur.

Son yıllardaki popüler deepfake'lerin çoğu, konuların doğrudan kameraya baktığını ve ya yalnızca kırmızı halı paparazzi çıktılarından kolayca çıkarılabilen popüler ifadeler (gülümseme gibi) taşıdığını ya da (Sylvester Stallone'un 2019 sahtesinde olduğu gibi) gösterdi. Terminatör olarak, solda), ideal olarak hiç ifade olmadan, çünkü tarafsız ifadeler son derece yaygındır ve onları derin sahte modellere dahil etmeyi kolaylaştırır.

Son yıllardaki popüler deepfake'lerin çoğu, konuların doğrudan kameraya baktığını ve ya yalnızca kırmızı halı paparazzi çıktılarından kolayca çıkarılabilen popüler ifadeler (gülümseme gibi) taşıdığını ya da (Sylvester Stallone'un 2019 sahtesinde olduğu gibi) gösterdi. Terminatör olarak, solda), ideal olarak hiç ifade olmadan, çünkü tarafsız ifadeler son derece yaygındır ve onları derin sahte modellere dahil etmeyi kolaylaştırır.

Çünkü deepfake teknolojileri gibi Derin Yüz Laboratuvarı ve Yüz nakli bu daha basit değiş tokuşları çok iyi yapın, neleri yapamayacaklarını fark etmemek için başardıkları şeylerle yeterince gözlerimizi kamaştırırız ve - çoğu zaman - şunları denemeyin bile:

Açılar çok zor değilse, Arnold Schwarzenegger'in Sylvester Stallone'a dönüştüğü, beğenilen bir deepfake videosundan kesitler. Kısmen deepfake çerçevelerde yüz pozlarını tanımlamak için kullanılan açık kaynaklı yazılımın yandan görünümler için optimize edilmemesi, ancak esas olarak gerekli olanlardan birinde veya her ikisinde uygun kaynak materyalin bulunmaması nedeniyle, profiller mevcut deepfake yaklaşımlarında kalıcı bir sorun olmaya devam ediyor. veri kümeleri. Kaynak: https://www.youtube.com/watch?v=AQvCmQFScMA

Açılar çok zor değilse, Arnold Schwarzenegger'in Sylvester Stallone'a dönüştüğü, beğenilen bir deepfake videosundan kesitler. Kısmen deepfake çerçevelerde yüz pozlarını tanımlamak için kullanılan açık kaynaklı yazılımın yandan görünümler için optimize edilmemesi, ancak esas olarak gerekli olanlardan birinde veya her ikisinde uygun kaynak materyalin bulunmaması nedeniyle, profiller mevcut deepfake yaklaşımlarında kalıcı bir sorun olmaya devam ediyor. veri kümeleri. Kaynak: https://www.youtube.com/watch?v=AQvCmQFScMA

Yeni araştırmalar İsrail'den, yüz kimliklerini (yani 'Tom Cruise'un temel yüz özelliklerini tüm açılardan) bağlamlarından (ör. bakmak, yan bakmak, çatık kaşlı, karanlıkta kaşlarını çatmak, kaşlar çatıldı, Gözler kapalı, Vb.)

Yeni sistem, ilgisiz sentetik yüz verilerini (soldaki resim) kullanarak, pozu ve bağlamı (yani göz kırpmayı) bireyin kimlik kodlamasından ayrı ayrı ayırır. En üst sırada, soldaki CGI görüntüsüyle temsil edilen, bir GAN'ın gizli uzayının öğrenilen doğrusal olmayan yolu tarafından yönlendirilen, Barack Obama'nın kimliğine aktarılan bir "göz kırpma" görüyoruz. Aşağıdaki satırda, eski Başkan'a aktarılan gerilmiş ağız köşesi fasetini görüyoruz. Sağ altta, her iki özelliğin de aynı anda uygulandığını görüyoruz. Kaynak: https://arxiv.org/pdf/2111.08419.pdf

Yeni sistem, ilgisiz sentetik yüz verilerini (soldaki resim) kullanarak, pozu ve bağlamı (yani göz kırpmayı) bireyin kimlik kodlamasından ayrı ayrı ayırır. En üst sırada, soldaki CGI görüntüsüyle temsil edilen, bir GAN'ın gizli uzayının öğrenilen doğrusal olmayan yolu tarafından yönlendirilen, Barack Obama'nın kimliğine aktarılan bir "göz kırpma" görüyoruz. Aşağıdaki satırda, eski başkana aktarılan gerilmiş ağız köşesi fasetini görüyoruz. Sağ altta, her iki özelliğin de aynı anda uygulandığını görüyoruz. Kaynak: https://arxiv.org/pdf/2111.08419.pdf

bu sadece değil deepfake kafa kuklası, avatarlar ve kısmi yüz dudak senkronizasyonu için daha uygun ve tam teşekküllü derin sahte video dönüşümleri için sınırlı potansiyele sahip bir teknik.

Daha ziyade, bu, araçsallığın (örneğin, 'kafanın açısını değiştir', 'kaşlarını çatmak') kimlikten, 'türev' yerine üst düzey bir görüntü sentezi tabanlı derin sahte çerçeveye giden bir yol sunuyor.

Yeni gazetenin adı Delta-GAN-Kodlayıcı: Birkaç Sentetik Örnek Kullanarak Açık Görüntü Düzenleme için Anlamsal Değişiklikleri Kodlamave Technion – İsrail Teknoloji Enstitüsü'ndeki araştırmacılardan geliyor.

İşin ne anlama geldiğini anlamak için, deepfake porno sitelerinden şu anda her yerde deepfake'lerin nasıl üretildiğine bir göz atalım. Endüstriyel Işık ve Büyü (DeepFaceLab açık kaynak deposu şu anda hem 'amatör' hem de profesyonel derin sahtekarlıkta baskın olduğu için).

Mevcut Deepfake Teknolojisini Engelleyen Nedir?

Deepfakes şu anda bir eğitim tarafından oluşturulur kodlayıcı/kod çözücü iki klasördeki yüz görüntüleri üzerinde makine öğrenimi modelini kullanın: 'üzerini boyamak' istediğiniz kişi (önceki örnekte bu Arnie'dir) ve görüntülerin üzerine eklemek istediğiniz kişi (Sly).

İki farklı yüz setinde değişen poz ve aydınlatma koşullarına örnekler. A sütunundaki üçüncü satırın sonundaki ayırt edici ifadeye dikkat edin, bu ifadenin diğer veri kümesinde yakın bir eşdeğeri olması pek olası değildir.

İki farklı yüz setinde değişen poz ve aydınlatma koşullarına örnekler. A sütunundaki üçüncü satırın sonundaki ayırt edici ifadeye dikkat edin, bu ifadenin diğer veri kümesinde yakın bir eşdeğeri olması pek olası değildir.

Kodlayıcı/kod çözücü sistemi daha sonra her görüntüyü karşılaştırır her iki kimliğin de temel özelliklerini istediği zaman değiştirecek kadar iyi anlayana kadar bu işlemi yüzbinlerce yineleme boyunca (genellikle bir hafta kadar uzun süre) sürdürür, geliştirir ve tekrarlar.

Süreçte değiş tokuş edilen iki kişinin her biri için, deepfake mimarisinin kimlik hakkında öğrendiği şey, bağlamla karışık. "İyi ve herkes için" genel bir pozla ilgili ilkeleri öğrenemez ve uygulayamaz, ancak yüz değiştirmeye dahil olacak her bir kimlik için eğitim veri setinde bol miktarda örneğe ihtiyaç duyar.

Bu nedenle, sadece gülümsemekten veya doğrudan kameraya bakmaktan daha sıra dışı bir şey yapan iki kimliği değiştirmek istiyorsanız, ihtiyacınız olacak. çok iki yüz setinde söz konusu pozun/kimliğin örnekleri:

Yüz kimliği ve poz özellikleri şu anda çok iç içe olduğundan, DeepFaceLab gibi sistemler üzerinde etkili bir deepfake modeli eğitmek için iki yüz veri kümesinde geniş kapsamlı bir ifade, kafa duruşu ve (daha az ölçüde) aydınlatma eşliğine ihtiyaç vardır. Her iki yüz setinde de belirli bir yapılandırma ('yandan görünüm/gülen/güneş ışığı' gibi) ne kadar az yer alırsa, gerekirse bir deepfake videoda o kadar az doğru işlenir.

Yüz kimliği ve poz özellikleri şu anda çok iç içe olduğundan, DeepFaceLab gibi sistemler üzerinde etkili bir deepfake modeli eğitmek için iki yüz veri kümesinde geniş kapsamlı bir ifade, kafa duruşu ve (daha az ölçüde) aydınlatma eşliğine ihtiyaç vardır. Her iki yüz setinde de belirli bir yapılandırma ('yandan görünüm/gülen/güneş ışığı' gibi) ne kadar az yer alırsa, gerekirse bir deepfake videoda o kadar az doğru işlenir.

A kümesi alışılmadık bir poz içeriyorsa, ancak B kümesinde yoksa, şansınız hemen hemen tükenir; Modeli ne kadar eğitirseniz eğitin, kimlikler arasında o pozu yeniden üretmeyi asla öğrenemeyecek, çünkü eğitildiğinde gerekli bilgilerin yalnızca yarısına sahipti.

Eşleşen resimleriniz olsa bile, bu yeterli olmayabilir: A grubu eşleşen poza sahipse, ancak diğer yüz setindeki düz ışıklı eşdeğer pozla karşılaştırıldığında sert yandan aydınlatma varsa, takasın kalitesi kazanır Her biri ortak aydınlatma özelliklerini paylaşıyormuşçasına iyi olun.

Veriler Neden Az

Düzenli olarak tutuklanmadığınız sürece, muhtemelen o kadar çok yan profil fotoğrafınız olmaz. Ortaya çıkan her şeyi muhtemelen çöpe attınız. Resim ajansları da aynı şeyi yaptığından, profil yüz çekimleri yapmak zordur.

Deepfaker'lar genellikle bir yüz setindeki bir kimlik için sahip oldukları sınırlı yan görünüm profil verilerinin birden fazla kopyasını içerir, böylece bu poz en azından bir küçük olarak iskonto edilmek yerine, eğitim sırasında dikkat ve zaman aykırı.

Ancak, bir veri kümesine dahil edilmesi muhtemel olandan çok daha fazla olası yandan görünüşlü yüz resmi türü vardır – gülen, çatık, bağıran, ağlayarak, loş ışıklı, küçümseyici, sıkılmış, neşeli, flaşla aydınlatılmış, bakmak, aşağı bakıyor, gözler açık, gözleri kapalı…ve benzeri. Birden fazla kombinasyon halindeki bu pozlardan herhangi biri, bir hedef deepfake hedef videosunda gerekli olabilir.

Ve bu sadece profiller. kendinize bakarken çekilmiş kaç tane fotoğrafınız var düz yukarı? geniş bir şekilde temsil etmek için yeterli bilgiye sahip misiniz? 10,000 olası ifade en azından bir kısmını kapsayan, tam olarak bu kamera açısından tam olarak bu pozu tutarken takıyor olabilirsiniz. bir milyon olası aydınlatma ortamı?

Muhtemelen, sahip bile değilsin bir yukarı bakarken çekilmiş resmin. Ve bu, tam kapsama alanı için gereken yüz veya daha fazla açıdan sadece iki açıdır.

Bir dizi aydınlatma koşulu altında tüm açılardan bir yüzün tam kapsamını oluşturmak mümkün olsa bile, ortaya çıkan veri seti, yüzbinlerce resim sırasına göre eğitilemeyecek kadar büyük olacaktır; ve olsa bile olabilir Eğitildiklerinde, mevcut derin sahte çerçeveler için eğitim sürecinin doğası, bu ekstra verilerin büyük çoğunluğunu sınırlı sayıda türetilmiş özellik lehine atacaktır, çünkü mevcut çerçeveler indirgemecidir ve çok ölçeklenebilir değildir.

Sentetik İkame

Deepfake'lerin şafağından bu yana, deepfaker'lar bu 'eksik pozları' oluşturmak için Cinema3D ve Maya gibi 4D uygulamalarda yapılan kafalar olan CGI tarzı görüntüleri kullanmayı denediler.

AI gerekmez; bir aktris, geleneksel bir CGI programı olan Cinema 4D'de ağlar ve bit eşlemli dokular kullanılarak yeniden yaratıldı - teknoloji 1960'lara kadar uzanıyor, ancak yaygın kullanım ancak 1990'lardan itibaren sağlandı. Teorik olarak, bu yüz modeli olağandışı pozlar, aydınlatma stilleri ve yüz ifadeleri için derin sahte kaynak verileri oluşturmak için kullanılabilir. Gerçekte, renderların "sahteliği" değiştirilen videolarda sızma eğiliminde olduğundan, derin numaralandırmada sınırlı bir faydası olmuştur veya hiç kullanılmamıştır. Kaynak: Bu makalenin yazarının https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/ adresindeki resmi

AI gerekmez; bir aktris, geleneksel bir CGI programı olan Cinema 4D'de ağlar ve bit eşlemli dokular kullanılarak yeniden yaratıldı - teknoloji 1960'lara kadar uzanıyor, ancak yaygın kullanım ancak 1990'lardan itibaren sağlandı. Teorik olarak, bu yüz modeli olağandışı pozlar, aydınlatma stilleri ve yüz ifadeleri için derin sahte kaynak verileri oluşturmak için kullanılabilir. Gerçekte, renderların "sahteliği" değiştirilen videolarda sızma eğiliminde olduğundan, derin numaralandırmada sınırlı bir faydası olmuştur veya hiç kullanılmamıştır. Kaynak: Bu makalenin yazarının https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/ adresindeki resmi

Bu yöntem genellikle yeni deepfake uygulayıcıları tarafından erkenden terk edilir, çünkü başka türlü kullanılamayan pozlar ve ifadeler sağlayabilse de, CGI yüzlerinin sentetik görünümü, kimlik ve bağlamsal/anlamsal bilgilerin birbirine karışması nedeniyle genellikle değiş tokuşlara karışır.

Algoritma olağandışı bir poz veya ifade için sahip olabileceği tek veriden - açıkça sahte yüzler - yararlanmaya başladığından, bu, aksi takdirde inandırıcı bir deepfake videoda "tekinsiz vadi" yüzlerinin aniden yanıp sönmesine yol açabilir.

Deepfake yapanlar için en popüler konular arasında, Avustralyalı aktris Margot Robbie için bir 3D deepfake algoritması, DeepFaceLab'ın web kamerası oturumu gibi bir canlı yayında deepfake gerçekleştirebilen bir sürümü olan DeepFaceLive'ın varsayılan kurulumuna dahil edilmiştir. Yukarıda resmedildiği gibi bir CGI versiyonu, derin sahte veri setlerinde olağandışı 'eksik' açılar elde etmek için kullanılabilir. Kaynak: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Deepfake'çilerin en popüler konuları arasında yer alan Avustralyalı aktris Margot Robbie'nin 3D deepfake algoritması ortaya çıktı. dahil DeepFaceLab'ın web kamerası oturumu gibi bir canlı akışta derin sahtekarlıklar gerçekleştirebilen bir sürümü olan DeepFaceLive'ın varsayılan kurulumunda. Yukarıda resmedildiği gibi bir CGI versiyonu, derin sahte veri setlerinde olağandışı 'eksik' açılar elde etmek için kullanılabilir. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Bağımsız, Kavramsal İlkeler Olarak CGI Yüzleri

Bunun yerine İsrailli araştırmacıların yeni Delta-GAN Kodlayıcı (DGE) yöntemi daha etkili çünkü CGI görüntülerinden gelen poz ve bağlamsal bilgiler hedefin 'kimlik' bilgilerinden tamamen ayrıldı.

Bu prensibi, CGI görüntülerini bir kılavuz olarak kullanarak çeşitli baş yönelimlerinin elde edildiği aşağıdaki görüntüde çalışırken görebiliriz. Kimlik özellikleri bağlamsal özelliklerle ilgisiz olduğundan, ne CGI yüzünün sahte görünen sentetik görünümünde ne de içinde tasvir edilen kimlikte herhangi bir sızıntı yoktur:

Yeni yöntemle, bir deepfake'i birden çok açıdan canlandırmak için üç ayrı gerçek hayattan kaynak resim bulmanız gerekmiyor - herhangi bir kimlik sızdırmadan yüksek düzey soyut özellikleri kimliğe empoze edilen CGI kafasını döndürmeniz yeterli bilgi.

Yeni yöntemle, bir deepfake'i birden çok açıdan canlandırmak için üç ayrı gerçek hayattan kaynak resim bulmanız gerekmiyor - herhangi bir kimlik sızdırmadan yüksek düzey soyut özellikleri kimliğe empoze edilen CGI kafasını döndürmeniz yeterli bilgi.

Delta-GAN-Kodlayıcı. Sol üst grup: çıktıya yansıyan yeni bir kaynak görüntüyü işlemek için bir kaynak görüntünün açısı bir saniyede değiştirilebilir; sağ üst grup: aydınlatma aynı zamanda kimlikten bağımsızdır ve aydınlatma stillerinin üst üste bindirilmesine izin verir; sol alt grup: 'üzgün' bir ifade oluşturmak için birden çok yüz ayrıntısı değiştirilir; sağ alt grup: tek bir yüz ifadesi detayı değiştirilir, böylece gözler kısılır.

Delta-GAN-Kodlayıcı. Sol üst grup: çıktıya yansıyan yeni bir kaynak görüntüyü işlemek için bir kaynak görüntünün açısı bir saniyede değiştirilebilir; sağ üst grup: aydınlatma aynı zamanda kimlikten bağımsızdır ve aydınlatma stillerinin üst üste bindirilmesine izin verir; sol alt grup: 'üzgün' bir ifade oluşturmak için birden çok yüz ayrıntısı değiştirilir; sağ alt grup: tek bir yüz ifadesi detayı değiştirilir, böylece gözler kısılır.

Kimlik ve bağlam arasındaki bu ayrım, eğitim aşamasında elde edilir. Yeni deepfake mimarisi için boru hattı, dönüştürülecek görüntüyle eşleşen, önceden eğitilmiş bir Üretken Düşman Ağı'nda (GAN) gizli vektörü arar — 2'e dayanan bir Sim2018Real metodolojisi proje IBM'in AI araştırma bölümünden.

Araştırmacılar şunları gözlemliyor:

"Belirli bir niteliğe göre farklılık gösteren yalnızca birkaç örnekle, önceden eğitilmiş bir dolaşık üretken modelin çözülmüş davranışı öğrenilebilir. Bu amaca ulaşmak için gerçek dünyadan kesin örneklere ihtiyaç yoktur ki bu mutlaka mümkün değildir.

Gerçekçi olmayan veri örnekleri kullanılarak, kodlanmış gizli vektörlerin anlambiliminden yararlanılarak aynı amaca ulaşılabilir. Mevcut veri örnekleri üzerinde istenen değişiklikleri uygulamak, açık bir gizli alan davranışı keşfi olmadan yapılabilir.'

Araştırmacılar, projede keşfedilen çözmenin temel ilkelerinin, iç mimari simülasyonları gibi diğer alanlara aktarılabileceğini ve Delta-GAN-Encoder için benimsenen Sim2Real yönteminin sonunda, yalnızca eskizlere dayalı derin sahte araçlara olanak sağlayabileceğini tahmin ediyor. CGI tarzı giriş.

Yeni İsrail sisteminin derin sahte videoları ne ölçüde sentezleyip sentezleyemeyeceğinin, araştırmanın bağlamı kimlikten ayırma, gizli alan üzerinde daha fazla kontrol kazanma sürecinde kaydettiği ilerlemeden çok daha az önemli olduğu iddia edilebilir. bir GAN'ın.

Çözme, görüntü sentezinde aktif bir araştırma alanıdır; 2021 yılının Ocak ayında, Amazon liderliğindeki bir araştırma kâğıt benzer poz kontrolü ve çözme gösterdi ve 2018'de bir kâğıt Çin Bilimler Akademisi'ndeki Shenzhen İleri Teknoloji Enstitülerinden bir GAN'da keyfi bakış açıları oluşturma konusunda ilerleme kaydetti.