Yapay Zekâ
İnsan Görüntü Sentezinde ‘Kötü Saç Günleri’ne Karşı Koymak

Roma heykeltraşlığının altın çağından bu yana, insan saçını betimlemek dik bir zorluk oluşturmuştur. Ortalama bir insan başı 100.000 saç teli içerir, rengine göre değişen kırılma indislerine sahiptir ve belirli bir uzunluğun ötesinde, yalnızca karmaşık fizik modelleri ile simüle edilebilecek şekilde hareket eder ve yeniden oluşur – günümüze kadar yalnızca ‘geleneksel’ CGI metodolojileri aracılığıyla uygulanabilir.

2017 yılında Disney tarafından yapılan bir araştırmadan, bir fizik tabanlı model, bir CGI iş akışında gerçekçi hareketi sıvı bir saç stiline uygulamaya çalışıyor. Kaynak: https://www.youtube.com/watch?v=-6iF3mufDW0
Sorun, modern popüler deepfakes yöntemleri tarafından kötü bir şekilde ele alınmaktadır. Birkaç yıldır, önde gelen paket DeepFaceLab, yalnızca kısa (genellikle erkek) saç stillerini yakalayabilen bir ‘tam baş’ modeline sahiptir ve yakın zamanda DFL’nin bir başka paketi olan FaceSwap (her iki paket de 2017 DeepFakes kaynak kodundan türetilmiştir), BiseNet semantic segmentasyon modelinin bir uygulamasını sunmuştur. Bu, bir kullanıcıya deepfake çıktısında kulakları ve saçları dahil etme olanağı sağlar.
Çok kısa saç stillerini betimlemekte bile, sonuçlar genellikle kalite açısından çok sınırlıdır, tam başlar görüntüye üst üste bindirilmiş gibi görünür, yerine entegre edilmiş gibi görünmez.
GAN Saçı
İnsan simülasyonuna yönelik iki büyük rakip yaklaşım, Neural Radiance Fields (NeRF) ve Generative Adversarial Networks (GANs)’dir. NeRF, bir sahneyi birden fazla görüş açısından yakalayabilir ve bu görüş açılarının 3B temsilini keşfedilebilir bir sinir ağına kapsülleyebilir. GAN’ler ise insan görüntü sentezinde daha gelişmişlerdir (en azından NeRF 2020’de ortaya çıktığından).
NeRF’in 3B geometri anlayışının çıkarılması, bir sahneyi yüksek doğruluk ve tutarlılıkla yeniden oluşturmasına olanak tanır, ancak şu anda fizik modellerinin uygulanması için çok az veya hiç olanak sağlamaz ve aslında, görüntülenen verilerin değiştirilmesine ilişkin olarak kamera görüş açısını değiştirmeyen herhangi bir tür dönüşüm için oldukça sınırlı bir olanak sağlar. Şu anda, NeRF’in insan saç hareketini yeniden üretme konusunda çok sınırlı olanakları vardır.
NeRF’e eşdeğer GAN’ler, NeRF’in aksine, GAN’in gizil uzayı doğuştan 3B bilgi anlayışını içermemesi nedeniyle neredeyse ölümcül bir dezavantaja sahiptir. Bu nedenle, 3B bilgisi olan GAN tabanlı yüz görüntü sentezi, son yıllarda görüntü oluşturma araştırmalarında sıcak bir takip olmuştur. 2019’da InterFaceGAN bu alanda önde gelen bir atılımdır.
Ancak, InterFaceGAN’in sunulan ve seçilen sonuçları, potansiyel VFX iş akışları için zaman tutarlılığı açısından hala zorlu bir zorluk olduğunu göstermektedir:

InterFaceGAN’dan bir poz değişikliğinde ‘sizzling’ saç. Kaynak: https://www.youtube.com/watch?v=uoftpl3Bj6w
Gizil uzay alone aracılığıyla tutarlı görüş oluşturmanın bir alşimya benzeri bir takip olduğu giderek daha belirgin hale geldikçe, CGI tabanlı 3B bilgilerini bir GAN iş akışına istikrarlı ve normalleştirici bir kısıtlama olarak dahil eden giderek daha fazla sayıda makale ortaya çıkıyor.
CGI öğesi, bir Skinned Multi-Person Linear Model (SMPL) gibi ara 3B ilkelere veya NeRF’e benzer bir şekilde 3D çıkarım tekniklerini benimseyerek temsil edilebilir. Burada geometri, kaynak görüntülerden veya videodan değerlendirilir.
Bu hat boyunca yeni bir çalışma, bu hafta yayınlandı, Çoklu Görüş Tutarlı Generative Adversarial Networks için 3B Farkında Görüntü Sentezi (MVCGAN), ReLER, AAII, Sidney Teknoloji Üniversitesi, Alibaba Group’un DAMO Akademisi ve Zhejiang Üniversitesi arasındaki bir işbirliğidir.

MVCGAN tarafından CELEBA-HQ veri setinden elde edilen görüntülerden oluşturulan inandırıcı ve sağlam yeni yüz pozları. Kaynak: https://arxiv.org/pdf/2204.06307.pdf
MVCGAN, bir Generative Adversarial Network’de geometrik kısıtlamalar sağlayabilen bir generatif radyans alanı ağı (GRAF) içerir. Bu, benzer GAN tabanlı yaklaşımların çoğundan daha otantik poz oluşturma yetenekleri sağlar.
Ancak, MVCGAN için ek materyal, saç hacmi, yerleşimi, davranışı ve tutarlılığının, dışarıdan uygulanan 3B geometriye dayalı kısıtlamalarla kolayca ele alınamayacağını ortaya koyuyor.

Yayımlanma zamanında kamuoyuna açık olmayan ek materyallerden, MVCGAN’in yüz poz sentezinin mevcut durumun üzerinde bir ilerleme sağladığını, ancak zaman tutarlılığının hala bir sorun olduğunu görüyoruz.
‘Straightforward’ CGI iş akışları hala zamanlı saç yeniden yapılandırmasını bir zorluk olarak görürken, bu tür geleneksel geometri tabanlı yaklaşımların, latent uzaya tutarlı saç sentezini getireceğine inanmak için bir neden yoktur.
Saçı Konvolüsyonel Sinir Ağları ile İstikrarlı Hale Getirme
Ancak, İsveç’teki Chalmers Teknoloji Enstitüsü’nden üç araştırmacı tarafından sunulan bir makale, nöral saç simülasyonu alanında ek bir ilerleme sunabilir.

Solda, CNN ile istikrarlı saç temsili, sağda, gerçek değer. Kaynak: https://www.youtube.com/watch?v=AvnJkwCmsT4
Makale, Convolutional Neural Networks ile Gerçek Zamanlı Saç Filtreleme başlığını taşımaktadır ve Mayıs ayı başlarında i3D sempozyumu için yayımlanacaktır.
Sistem, OpenGL geometrisi tarafından üretilen sınırlı sayıda stokastik örneğe dayalı olarak, gerçek zamanlı olarak saç çözünürlüğü, self-gölgeleme ve saç kalınlığını değerlendirebilen bir oto-encoder tabanlı ağdan oluşur.
Yaklaşım, sınırlı sayıda örnekleri stokastik şeffaflık ile oluşturur ve ardından orijinal görüntüyü yeniden oluşturmak için bir U-net eğitmek için kullanılır.

MVCGAN altında, bir CNN, stokastik olarak örneklenen renk faktörleri, vurgular, teğetler, derinlik ve alfa değerlerini filtreler ve sentezlenen sonuçları bir bileşik görüntüye birleştirir.
Ağ, PyTorch’da eğitilir ve altı ila on iki saat arasında bir sürede, ağ hacmine ve girdi özelliklerinin sayısına bağlı olarak yakınsar. Eğitilen parametreler (ağırlıklar) daha sonra sistemin gerçek zamanlı uygulamasında kullanılır.
Eğitim verisi, çeşitli mesafeler ve pozlar ile çeşitli aydınlatma koşullarında oluşturulan birkaç hundred görüntüden oluşur.

Çeşitli eğitim girişleri.
Örneklerdeki saç saydamlığı, supersampled çözünürlükte stokastik şeffaflıkla oluşturulan görüntülerden hesaplanır. Orijinal yüksek çözünürlüklü veri, ağ ve donanım sınırlamalarına uyum sağlamak için aşağı örneklenir ve daha sonra tipik bir oto-encoder iş akışında yukarı örneklenir.
Gerçek zamanlı çıkarım uygulaması (eğitilen modelden türetilen algoritmayı kullanan ‘canlı’ yazılım), NVIDIA CUDA ile cuDNN ve OpenGL’nin bir karışımını kullanır. İlk girdi özellikleri, OpenGL multisampled renk tamponlarına dökülür ve sonuç, cuDNN tensörlerine işlenmeden önce kopyalanır. Bu tensörler daha sonra ‘canlı’ OpenGL dokusuna kopyalanır ve nihai görüntüye uygulanır.
Gerçek zamanlı sistem, 1024×1024 piksel çözünürlüğe sahip bir NVIDIA RTX 2080’de çalışır.
Saç renk değerleri, ağ tarafından elde edilen nihai değerlerde tamamen ayrıldığından, saç rengini değiştirmek zor değildir, ancak gradyanlar ve şeritler gibi efektler hala gelecekteki bir zorluktur.

Yazarlar, makaledeki değerlendirmelerde kullanılan kodu GitLab’da yayımladılar. Aşağıdaki MVCGAN için ek videoyu izleyin.
Sonuç
Bir oto-encoder veya GAN’in latent uzayını gezinmek hala daha çok yelkenli gemi kullanmaya benzer. Sadece bu son dönemde, NeRF, GAN’ler ve non-deepfake (2017) oto-encoder çerçeveleri gibi yaklaşımlarda ‘daha basit’ geometri olan yüzlerin poz oluşturma için inandırıcı sonuçlar görmeye başlıyoruz.
İnsan saçının önemli mimari karmaşıklığı, fizik modelleri ve diğer özellikler gibi当前 görüntü sentez yaklaşımlarının hiçbir şekilde sağlanmadığı özellikleri içermesi, saç sentezinin genel yüz sentezinin entegre bir parçası olarak kalmayacağını, ancak ayrı ve karmaşık ağlar gerektireceğini gösterir – eğer bu ağlar daha geniş ve daha karmaşık yüz sentez çerçevelerine dahil olsa bile.
İlk olarak 15 Nisan 2022’de yayımlanmıştır.











