Yapay Zekâ

Neden Derin Sahtecilikler Şu Anda Duygu inceliğini İletilemiyor

Published February 3, 2022

Updated April 5, 2026

Martin Anderson

Dün, Star Wars spin-off Boba Fett’in Kitabı‘nın 6. bölümünün prömiyeri, hayranların görüşlerini ikiye bölmüş gibi görünüyor. Genel olarak beğeniyle karşılanan, sosyal ağlar boyunca, çok iyileştirilmiş, yaşlanan Mark Hamill’in (2020’de Mandalorian‘in 2. sezon finalindeki önceki görünümüne kıyasla) yeniden yaratılması, Industrial Light and Magic’in amatör derin sahtecilik uygulayıcısı Shamook’u işe alması sonucudur (ki açık kaynaklı yazılımla çalışmalarında radikal bir şekilde iyileşmiştir); ve karakterin renderlemelerinin, derin sahtecilik teknolojisinin bir kombinasyonu olabileceği ve belki de CGI ile temizlendiği düşünülüyor.

Bununla ilgili olarak hiện mevcut sınırlı onay var, ancak Shamook, ILM sözleşmesiyle ilgili NDA’dan (Gizlilik Anlaşması) bu yana dünyaya çok az şey söyledi. Bununla birlikte, çalışma, 2020 CGI’sine göre olağanüstü bir iyileşme gösteriyor; arşivlerden elde edilen derin sahtecilik modelleriyle ilişkili bazı “parlaklık” özelliklerini sergiliyor ve genel olarak derin sahtecilikler için mevcut en iyi görsel standarda uyuyor.

Hayranların görüşünün diğer bir方面ı, yeni “Genç Luke” girişiminin, önceki olanınkinden farklı bir hata kümesine sahip olduğudur. Belki de en çok, yeni Skywalker yeniden yaratımını içeren çok uzun dizilerdeki ifade eksikliği ve ince, uygun duygular, CGI’den daha çok derin sahteciliklere özgüdür; The Verge, Boba Fett simülasyonunu Mark Hamill’in 1983 dondurulmuş yüzünün tuhaf, boş yüz ifadesi olarak tanımlamıştır.

Yeni ILM yeniden yaratımının arkasındaki teknolojiden bağımsız olarak, derin sahtecilik dönüşümleri, mimari değişikliklerle veya kaynak eğitim materyalini iyileştirerek çözülmesi zor bir temel problemle karşı karşıyadır ve bu, genellikle viral derin sahtecilerin hedef videoyu seçerken yaptığı dikkatli seçimlerle kaçınılmazdır.

Yüz Hizalama Sınırlamaları

En çok kullanılan iki derin sahtecilik FOSS deposu DeepFaceLab (DFL) ve FaceSwap‘dir, her ikisi de 2017’de anonim ve tartışmalı kaynak kodundan türetilmiştir, DFL’nin VFX endüstrisinde sınırlı araçlarına rağmen büyük bir önde olmasıyla.
Her bir paket, ilk olarak, kaynak materyalden (yani video kareleri ve/veya durağan görüntülerden) tanımlayabildiği yüzlerden yüz özelliklerini çıkarmakla görevlendirilir.

Adrian Bulat'ın Yüz Hizalama Ağı (FAN) resmi deposundan.

Yüz Hizalama Ağı (FAN) resmi deposundan. Kaynak: https://github.com/1adrianb/face-alignment

Hem DFL hem de FaceSwap, Yüz Hizalama Ağı (FAN) kitaplığını kullanır. FAN, çıkarılan yüzler için 2B ve 3B (yukarıdaki resme bakınız) özellikler oluşturabilir. 3B özellikler, yüzün algılanan yönüne kadar, aşırı profillere ve nispeten keskin açılara kadar geniş bir şekilde hesaplanabilir.

Ancak, bu yüz özelliklerinin, pikselleri yönlendirmek ve değerlendirmek için çok ilkel rehberler olduğu açıkça görülüyor:

FaceSwap forumundan, yüz çizgileri için mevcut özelliklerin yaklaşık bir göstergesi. Kaynak: https://forum.faceswap.dev/viewtopic.php?f=25&t=27

En temel yüz çizgileri için izin verilir: gözler açılabilir ve kapanabilir, çene de öyle; basic ağız konfigürasyonları (gülme, kaşınma vs.) izlenebilir ve uyarlanabilir. Yüz, kameranın görüş açısına göre yaklaşık 200 dereceye kadar her yöne dönebilir.

Bunun ötesinde, bu sınırlar içinde piksellerin davranacağına ilişkin çok kaba sınırlamalar vardır ve tüm derin sahtecilik sürecinde真正 matematiksel ve kesin yüz rehberleri temsil eder. Eğitim süreci kendisi, yalnızca bu sınırlar içinde veya yakınında piksellerin nasıl yerleştirildiğini karşılaştırır.

DeepFaceLab’de eğitim. Kaynak: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

Yüzün alt kısımlarının topolojisi (yanakların konveksliği ve konkavitesi, yaşlanma detayları, çukurlar vs.) için hiçbir hüküm olmadığından, bu ‘ince’ alt özelliklerini kaynak (yani “yazmak istediğiniz yüz”) ve hedef (yani “yapıştırmak istediğiniz yüz”) kimlik arasında eşleştirmeye bile denemek mümkün değildir.

Sınırlı Verilerle Başa Çıkma

Derin sahtecilikler için amaçlarla iki kimlik arasında eşleştirilmiş verileri almak kolay değildir. İhtiyacınız olan açı ne kadar alışılmadık olursa, o açıdaki kimlik A ve B arasında真正 bir eşleşme olup olmadığını belirlemek için daha fazla ödün vermeye ihtiyacınız olur.

Yakın, ancak tam olarak bir eşleşme değil.

Yukarıdaki örnekte, iki kimlik, duruş bakımından khá benzerdir, ancak bu, bu veri kümesinin bir eşleşme için ulaşabileceği en yakın noktadır.

Açık farklılıklar vardır: açıyı ve merceği tam olarak eşleştiremezsiniz ve aydınlatma da öyle; konu A, konu B gibi gözlerini tamamen kapatmaz; görüntü kalitesi ve sıkıştırma, konu A’da daha kötüdür ve irgendwie konu B, konu A’dan daha mutlu görünür.

Ama, bilirsiniz, bu elimizdeki tek şey, bu nedenle buna rağmen eğitime devam etmek zorundayız.

Bu A><B eşleşmesinin bu kadar çok alışılmadık öğesi varsa, bu eşleşmenin veri kümesindeki benzer pairings’den pek azı veya hiçbiri olmadığından emin olabilirsiniz. Dolayısıyla eğitim, bu açıyı ya alt öğrenme ya da aşırı öğrenme ile karşı karşıya kalacaktır.

Alt Öğrenme: Eğer bu eşleşme gerçek bir azınlıksa (yani, ana veri kümesi oldukça büyüktür ve bu fotoğrafların özelliklerini sık sık içermez), bu, daha “popüler” (yani kolay/nötr) pairings’e kıyasla eğitim zamanı açısından çok fazla almayacaktır. Dolayısıyla bu açı/iftade, derin sahtecilik modeli ile yapılan bir derin sahtecilikte iyi temsil edilmeyecektir.

Aşırı Öğrenme: Böyle nadir A><B pairings için az eşleşmelerin umutsuzluğunda, derin sahteciler bazen bu pairingleği veri kümesinde birçok kez çoğaltırlar, böylece final modelde bir özellik olarak daha iyi bir şans elde edebilir. Bu, derin sahtecilik videolarının, bu iki fotoğraf arasındaki eşleşmelerin bariz farklılıklarını (gözlerin kapatılma derecesi gibi) pedantik bir şekilde tekrarlayacağı anlamına gelir.

Aşağıdaki resimde, Vladimir Putin’in DeepFaceLab’de Kevin Spacey’ye dönüştürülmesi için eğitimi görüyoruz. Burada, eğitim 160.000 iterasyonda oldukça ilerlemiştir.

Kaynak: https://i.imgur.com/OdXHLhU.jpg

Gözlemci, Putin’in bu test-swap’lerde Spacey’den biraz daha uzaysal göründüğünü iddia edebilir. Görmüş olduğumuz gibi, bir online duygu tanıma programı, ifadelerdeki bu uyumsuzluğu nasıl yorumluyor:

Kaynak: https://www.noldus.com/facereader/measure-your-emotions

Bu particular oracle’a göre, ki DFL ve Faceswap’den daha ayrıntılı bir yüz topografyasını analiz eder, Spacey, Putin’in bu pairingleği sonucunda oluşan derin sahteciliğinden daha az kızgın, iğrenmiş ve hafif bir şekilde küçümseyici görünüyor.

Eşitsiz ifadeler, bir paketin parçası olarak ortaya çıkıyor, çünkü popüler derin sahtecilik uygulamaları, ifadelere veya duygulara kayıtsız bir şekilde, salt bir piksel><piksel eşleştirmesi dışında, herhangi bir şekilde kayıt veya eşleştirmeye sahip değildir.

Bize göre, bu farklılıklar çok büyüktür. Yüz ifadelerini temel bir hayatta kalma tekniği olarak en küçük yaşlarımızdan itibaren öğreniriz ve yetişkinlikte de sosyal entegrasyon, ilerleme, eşleşme ve sürekli bir tehdit değerlendirmesi çerçevesi için bu beceriye güvenmeye devam ederiz. Derin sahtecilik teknolojilerinin, mikro ifadeleri okumayı öğrenmesi ve sonunda hesaba katması gerekir.

Karşıt

Derin sahtecilik devrimi, ‘klasik’ film yıldızlarını modern filmlere ve TV’lere yerleştirmenin vaadini getirdi, ancak AI, bu kullanım durumuna kritik olan daha uyumlu bir tanım ve kaliteye sahip klasik eserlerini zamanında çekemez.

Eğer Boba Fett Hamill yeniden yaratımı, büyük ölçüde bir eğitilmiş derin sahtecilik modelinin işi ise (ki bu, doğru veya yanlış olsun, bizim için önemli değildir), modelin veri kümesi, gösterinin zaman çizelgesine yakın bir dönemde Hamill’in (yani Jedi’nin Dönüşü prodüksiyonunun 1981-83 yıllarında) çekilen görüntülerinden yararlanmak zorunda kalacaktı.

Film çekildi Eastman Color Negative 250T 5293/7293 stok, o zamanlar orta ila ince taneli olarak kabul edilen 250ASA emülsiyondu, ancak 1980’lerin sonuna kadar netlik, renk aralığı ve Sadakat açısından incluso 1980’lerin sonuna kadar aşıldı. Bu, zamanının bir film stoku ve Jedi operatik kapsamı, sogar ana oyunculara bile yakın planlara az izin vermesi, bu nedenle grain sorunlarının daha kritik olmasını sağladı, çünkü kaynak yüzler sadece karelerin bir kısmını işgal ediyordu.

<img class="wp-image-180040 size-full" src="https://www.unite.ai/wp-content/uploads/2022/02/hamill-rotj.jpg" alt="Hamill'in Jedi’nin Dönüşü (1983)中的 bir dizi sahne.” width=”637″ height=”628″ /> Hamill’in Jedi’nin Dönüşü (1983)中的 bir dizi sahne.

Ek olarak, Hamill’i içeren birçok VFX’li sahne, film grainini artıran optik bir yazıcıdan geçirildi. Ancak, Lucasfilm arşivlerine erişim – ki master negatiflerin iyi bir şekilde korunmasını ve saatlerce ek kullanılmamış ham görüntüler sunmasını sağlamış olmalı – bu sorunu aşabilir.

Bazen, bir aktörün çeşitli yıllardaki çalışmalarını birleştirmek, derin sahtecilik veri kümesini artırmak ve çeşitlendirmek mümkündür. Hamill’in durumunda, derin sahteciler, 1977’deki bir araba kazası之后ki görünümündeki değişim ve Jedi之后 hemen ikinci kariyeri olarak ödüllü bir ses oyuncusu olarak başladığından, kaynak materyalinin kıtlığıyla engelleniyorlar.

Duygu İfadesi Sınırlaması?

Eğer derin sahtecilik aktörünüzün sahneyi yutmak zorunda kalacaksa, nguồn materyalinde çok geniş bir yüz ifadesi yelpazesi içeren bir kaynak materyaline ihtiyacınız olacak. Olabilir ki, yalnızca belirli bir yaşa uygun görüntüler bulunabilir ve bu görüntülerde birçok ifade bulunmayabilir.

Örneğin, Jedi’nin Dönüşü hikayesinin zaman çizelgesine ulaştığında, Hamill’in karakteri büyük ölçüde duygularını kontrol altına almıştı, bu da orijinal franchise mitolojisine merkezi bir gelişmeydi. Dolayısıyla, eğer bir Hamill derin sahtecilik modeli Jedi verisinden oluşturulursa, daha sınırlı bir duygu ve yüz kompozisyonu ile çalışmak zorunda kalacaksınız, bu da franchise’in önceki girişimlerine kıyasla daha az ifade içerir.

Genelleştirme: Duyguların Birleşmesi

Eğer Boba Fett Skywalker yeniden yaratımı gerçekten bir derin sahtecilik ise, bazı quarters’dan kendisine yöneltilen ifade aralığının eksikliği, sadece sınırlı kaynak materyali nedeniyle değildir. Derin sahteciliklerin kodlayıcı-dekodlayıcı eğitim süreci, binlerce görüntüden merkezi özellikler çıkarmaya çalışan genelleştirilmiş bir model arar ve en azından veri kümesinde nadir veya eksik olan bir açıyı denemek için çalışır.

Eğer bu esneklik olmasaydı, bir derin sahtecilik mimarisi, temel morfları kare başına kopyalayıp yapıştırmakla sınırlı kalırdı, hem zaman içinde uyarlamayı hem de bağlamı dikkate almadan.

Ancak, bu çok yönlülüğün acılı takası, ifade sadakatinin bu süreçte muhtemelen bir kurban olacağıdır ve eğer varsa, ince ifadeler, doğru olanlar olmayacaktır. Hepimiz yüzlerimizi 100 parçalık orkestralar gibi oynarız ve bunu yapmak için iyi donanımlıyız, oysa derin sahtecilik yazılımları argüman olarak en azından yaylı çalgıları eksik gibi görünüyor.

İfade Ayrılığı

Yüz hareketleri ve onların bize etkileri, tüm yüzler için uniform bir dil değildir; Roger Moore’un yüzünde görünen bir kaşın kaldırılması, Seth Rogen’de daha az sofistike görünebilir, Marilyn Monroe’nun çekici cazibesi, “kızgın” veya “etkisiz” (örneğin, Aubrey Plaza’nın Parks and Recreation中的 karakteri gibi) bir role sahip birine derin sahtecilik yapıldığında daha negatif bir duyguya dönüşebilir.

Dolayısıyla, A/B yüz kümesi arasında piksel><piksel eşdeğerliği, bu方面ta yardımcı değildir; ancak bu, state-of-the-art derin sahtecilik FOSS yazılımlarında sunulan tek şeydir.

Aslında gerekli olan, sadece ifadeleri tanıyabilen ve duyguları çıkarabilen, ancak kızgın, çekici, sıkılmış, yorgun gibi yüksek düzeyli kavramları temsil edebilen ve her iki yüz kümesindeki bu duyguları ve ilgili ifadelerini sınıflandırabilen bir derin sahtecilik çerçevesidir.

İlk olarak 3 Şubat 2022’de yayımlanmıştır. 19:47 EET, yanlış ad ataması.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]