Yapay Zekâ
GAN’ın ‘Geleneksel’ CGI için Yüz Oluşturucu Olarak Kullanılması

Görüş Generatif Karşıt Ağlar (GAN’ler) ilk olarak şaşırtıcı bir şekilde gerçekçi 3D yüzler üretebildiklerini gösterdiklerinde, bu durum GAN’lerin insan yüzlerini içeren zamanla tutarlı video oluşturma potansiyelinin keşfedilmesi için bir altın rush’a neden oldu.
GAN’ın gizil uzayında, orada gizli bir düzen ve rasyonellik olmalı – yüzün aynı olan multiple görünümlerini ve yorumlarını (örneğin ifade değişikliklerini) üretmesine olanak tanıyan, gizil kodlarda bulunan bir şema, bir nascent semantic mantık – ve daha sonra da yüzün aynı olan multiple görünümlerini ve yorumlarını üretmesine olanak tanıyan, bir deepfake video yöntemi sunan bir GAN.
Yüksek çözünürlüklü çıktı, DeepFaceLab ve FaceSwap’in işletmek zorunda olduğu düşük çözünürlüklü ortamlara kıyasla basit olacaktı, mentre ‘değiştirme bölgesi’ (autoencoder iş akışlarında) bir GAN’ın ‘yaratma bölgesi’ olacaktı, birkaç girdi görüntüsünden veya hatta sadece bir görüntüden haberdar edilmiş bir şekilde.
‘Swap’ ve ‘host’ yüzleri arasında artık bir uyumsuzluk olmayacaktı, çünkü tamamı görüntü, saç, çene çizgileri ve yüz çizgilerinin dış uçları dahil olmak üzere sıfırdan oluşturulacaktı, ki bunlar genellikle ‘geleneksel’ autoencoder deepfake’leri için bir zorluk oluşturur.
GAN Yüz Video Kışı
Sonuç olarak, bu kadar kolay olmayacaktı. Sonunda, ayrıştırma merkezi sorun olduğunu kanıtladı ve hala birincil zorluk olarak kalıyor. Nasıl bir yüz kimliğini ayırt edebilir ve pozunu veya ifadesini değiştirebilirsiniz, yüzün bu değişikliklerin nasıl gerçekleştiğini öğretmek için binlerce referans görüntüsünden oluşan bir koleksiyon toplamadan, autoencoder sistemlerinin yaptığı gibi?
Bunun yerine, GAN yüz canlandırma ve sentez araştırmalarında sonraki düşünce, bir girdi kimliğinin belki de teleolojik, generic, şablonlu dönüşümlere tabi tutulabileceği yönündeydi, bunlar kimliğe özgü değildi. Bunun bir örneği, GAN yüzüne, GAN’in o kişi hakkında bildiği hiçbir görüntüde mevcut olmayan bir ifade uygulamaktı.

2022 paper Tensor-based Emotion Editing in the StyleGAN Latent Space’ten, şablonlu ifadeler FFHQ veri kümesinden bir girdi yüzüne uygulanıyor. Kaynak: https://arxiv.org/pdf/2205.06102.pdf
Açık ki, ‘her şeyin bir çözümü’ yaklaşımı, bir bireye özgü yüz ifadelerinin çeşitliliğini kapsayamaz. Jack Nicholson veya Willem Dafoe gibi bir gülüşün, böyle ‘ortalama ifade’ gizil kodlarının etkisi altında sadık bir şekilde yorumlanıp yorumlanamayacağını merak etmek zorundayız.

Bu çekici Latin yabancı kim? GAN yöntemi daha ‘gerçekçi’ ve daha yüksek çözünürlüklü bir yüz üretiyor, ancak dönüşüm, DeepFaceLab’in yaptığı gibi, binlerce böyle görüntü üzerinde kapsamlı bir şekilde eğitilen bir veritabanından değil, sadece birkaç girdi görüntüsünden haberdar ediliyor, ve dolayısıyla benzerlik tehlikeye giriyor. Burada (arka plan) bir DeepFaceLab modeli, popüler ve tartışmalı bir yazılımın akış implementationı olan DeepFaceLive‘e ithal ediliyor. Örnekler https://www.youtube.com/watch?v=9tr35y-yQRY (2022) ve https://arxiv.org/pdf/2205.06102.pdf’den alınmıştır.
Son birkaç yıl içinde, çoğu bilinmeyen kimliklerle ilgilenen birçok GAN yüz ifadesi düzenleyici önerildi, bu düzenleyicilerde dönüşümlerin sadakatini, bu yüzlerin tanıdık olmadığı için, casual bir okuyucu için bilmekte imkansız.

2020’da sunulan Cascade-EF-GAN’da belirsiz kimlikler dönüştürülüyor. Kaynak: https://arxiv.org/pdf/2003.05905.pdf
Belki de son üç yılda en çok ilgi gören (ve atıf alan) GAN yüz düzenleyici InterFaceGAN‘dir, bu, gizil uzayda pose (kamera/yüz açısı), ifade, yaş, ırk, cinsiyet ve diğer temel niteliklerle ilgili latent kodlarda latent uzay geçişleri gerçekleştirebiliyor.
InterFaceGAN ve benzeri çerçevelerin 1980’ler tarzı ‘morflama’ yetenekleri, esas olarak bir görüntünün uygun bir latent koda (örneğin ‘yaş’) geri projelendirilirken dönüşümün yolunu göstermek için bir yoldur. Zamansal süreklilikli video görüntüsü üretme açısından, bu şemalar şimdiye kadar ‘etkileyici felaketler’ olarak nitelendirilebilir.
Buna, zamansal olarak tutarlı saç yaratmanın zorluğunu ekleyin ve latent kod keşfi/manipülasyon tekniğinin doğuştan zamansal rehberliklere sahip olmadığını (ve böyle bir çerçevenin, video çıkışı için yerli bir sağlama olmadan, sadece still görüntüler oluşturmak için tasarlandığını) dikkate alın, GAN’ın yüz video sentezi için Tüm İhtiyacınız™ olmadığı sonucuna varmak mantıklı olabilir.
Dolayısıyla, sonraki çabalar artımlı iyileştirmeler sağlarken, diğerleri bilgisayar vizyonunda diğer kuralları ‘rehberlik katmanı’ olarak ekledi, Örneğin, 2021’in sonlarında makale SemanticStyleGAN: Kontrollü Görüntü Sentezi ve Düzenleme için Bileşenli Oluşturucu Önceliklerin Öğrenilmesi‘de anlamlı segmentasyonun bir kontrol mekanizması olarak kullanılması.

SemanticStyleGAN’de latent uzay enstrümantalitesi olarak anlamlı segmentasyon. Kaynak: https://semanticstylegan.github.io/
Parametrik Rehberlik
GAN yüz sentezi araştırmaları topluluğu, GAN’ın gizil uzayındaki etkileyici ancak disiplinsiz latent kodlara düzen ve rehberlik getirmek için ‘geleneksel’ parametrik CGI yüzlerinin kullanımına doğru yöneliyor.
Parametrik yüz ilkeleleri, bilgisayar vizyonu araştırmalarında yirmi yıldan fazla bir süredir bir standart olmuştur, ancak bu yaklaşıma ilgi son zamanlarda artmıştır, özellikle de Skinned Multi-Person Linear Model (SMPL) CGI ilkelelerinin artan kullanımı ile, bu yaklaşım Max Planck Enstitüsü ve ILM tarafından öncülük edilmiş ve daha sonra Sparse Trained Articulated Human Body Regressor (STAR) çerçevesi ile geliştirilmiştir.

SMPL (bu durumda SMPL-X adlı bir varyant) bir görüntüdeki tüm insan vücudunun (gerekirse ifadeler dahil) tahmini pozuna uygun bir CGI parametrik mesh uygulayabilir, bu da parametrik mesh kullanılarak görüntüde yeni işlemler yapılmasına olanak tanır. Kaynak: https://arxiv.org/pdf/1904.05866.pdf
Bu alanda en çok övgü gören gelişme, Disney’in 2019 Rendering with Style girişimi oldu, bu, geleneksel texture-maps’ın GAN tarafından üretilen görüntülerle birleştirilmesini hedefliyordu, böylece geliştirilmiş, ‘derin sahte’ animasyon çıkışı oluşturulacaktı.

Eski ve yeni, Disney’in melez GAN tarafından üretilen deepfake yaklaşımında bir araya geliyor. Kaynak: https://www.youtube.com/watch?v=TwpLqTmvqVk
Disney yaklaşımı, StyleGAN2 ağındaki ‘problemli alanlarda’ – özellikle video üretimi için zamansal tutarlılık sorunlu alanlarda – insan yüzlerini ‘boyamak’ için geleneksel olarak oluşturulmuş CGI yüzleri kullanır, Örneğin cilt dokusu.

Rendering with Style iş akışı.
Bu süreçte yönlendirilen parametrik CGI başı değiştirilebildiği için, GAN tarafından üretilen yüz de bu değişiklikleri yansıtabiliyor, bunlar arasında baş pozları ve ifadeler de bulunuyor.
Ancak, GAN yüzü, geleneksel CGI ile GAN yüzlerinin doğal gerçekçiliğini birleştirmek amacıyla tasarlanmış olmasına rağmen, sonuçlar her iki dünyanın da en kötüsünü gösteriyor ve hala saç dokusunu ve temel özelliklerin konumunu tutarlı bir şekilde koruyamıyor:

Rendering with Style’dan yeni bir tür uncanny valley ortaya çıkıyor, ancak prensip hala bazı potansiyellere sahip.
2020 makale StyleRig: StyleGAN için 3D Kontrolü Portre Görüntülerine Uygulamak, üç boyutlu şekil verilebilir yüz modellerinin (3DMM’ler) bir StyleGAN ortamında özelliklerin değiştirilmesi için vekil olarak kullanılmasına dayanan popüler bir yaklaşımı takip ediyor, bu durumda yeni bir rigging ağı olan RigNet aracılığıyla:

3DMM’ler, StyleRig’de latent uzay yorumları için vekil olarak görev yapıyor. Kaynak: https://arxiv.org/pdf/2004.00121.pdf
Ancak, bu girişimlerde olduğu gibi, sonuçlar şimdiye kadar minimal poz manipülasyonlarına ve ‘bilinçsiz’ ifade/affect değişikliklerine sınırlı görünüyor.

StyleRig, kontrol düzeyini iyileştiriyor, ancak zamansal olarak tutarlı saç hala çözülmemiş bir zorluk olarak kalıyor. Kaynak: https://www.youtube.com/watch?v=eaW_P85wQ9k
Benzer çıktı, Mitsubishi Araştırma’nın MOST-GAN‘ından da bulunabilir, bu, 2021 makale‘de nonlineer 3DMM’leri bir ayrıştırma mimarisi olarak kullanan, ancak dynamik ve tutarlı hareketi başaramayan bir çalışmadır.
En son araştırmalardan biri, Megapikseller Üzerinde Yüz Yeniden Canlandırma, yine 3DMM parametrik başlarını bir StyleGAN için dost bir arayüz olarak kullanıyor.

MegaFR iş akışında, ağ bir gerçek dünya görüntüsünü tersine çevirerek ve bir 3DMM modelinden alınan parametreleri birleştirerek yüz sentezi gerçekleştirir. Kaynak: https://arxiv.org/pdf/2205.13368.pdf
OSFR, bir kullanıcı tarafından istenen bir görüntüye dönüşümler uygulanabileceği, latent uzayında latent kodlar avına gerek kalmadan, Photoshop/After Effects tarzı lineer düzenleme iş akışlarını geliştirmeyi hedefleyen, GAN yüz düzenleyicilerinin büyüyen bir sınıfına aittir.
Yine de, parametrik ifadeler, kişiselleştirilmemiş bir ifade enjeksiyonu yöntemini temsil ediyor, bu da kendi başına ‘uncanny’ olarak nitelendirilebilecek manipülasyonlara yol açıyor.
Önceki çalışmalarda olduğu gibi, OSFR, bir görüntüden neredeyse orijinal pozları çıkarabilir ve ‘ön yüzleştirme’ işlemini gerçekleştirebilir, burada off-center pozlanmış bir görüntü bir mugshot’a dönüştürülür:
Bu tür bir çıkarım, Nöral Işın Alanları (NeRF) tarafından desteklenen bazı fotogrametri ilkelerine benzer, ancak burada geometri, 3-4 görüş açısı yerine, yalnızca bir fotoğrafla tanımlanmalıdır.
GAN Yüz Video Sentezinde Yer Alıyor mu?
Tek bir kaynak görüntüsinden dinamik ifadeler ve pozlar elde etme, şu anda GAN yüz sentezi araştırmalarında bir tür simya benzeri bir takıntı gibi görünüyor, çünkü GAN’ler, yüksek çözünürlüklü ve nispeten yüksek sadakatlı nöral yüzler üretebilen tek yöntem.
Ancak, autoencoder deepfake çerçeveleri, birçok gerçek dünya pozuna ve ifadesine eğitim verebilir, ancak VRAM kısıtlamaları nedeniyle düşük çözünürlüklü girişte ve çıkışta çalışmak zorundadır ve bir ‘ev sahibi’ gerektirir; NeRF de benzer şekilde kısıtlıdır ve -diğer iki yaklaşımdan farklı olarak- şu anda yüz ifadelerini değiştirmek için kurulmuş metodolojileri yoktur ve genel olarak düzenlenebilirlikten yoksundur.
Görünüşe göre, doğru bir CGI/GAN yüz sentezi sistemi için tek yol, bir multi-foto kimlik varlığını latent uzayda bir araya getirmektir, burada bir kişinin kimliği için bir latent kod, ilgili (gerçek dünya) görüntülerine atıfta bulunmak için latent uzayının tamamına seyahat etmek zorunda kalmaz.
Hatta böyle bir durumda, veya hatta tüm bir StyleGAN ağı tek bir kimlik yüz kümesine eğitim verilmiş olsa bile, eksik semantic mantık hala muhtemelen semantic segmentasyon veya parametrik 3DMM yüzleri gibi yardımcı teknolojiler tarafından sağlanacaktır, ki bu teknolojiler, böyle bir senaryoda, en azından daha fazla materyalle çalışacaktır.












