Yapay Zekâ

Disney, CGI ile Nöral Rendering’i Birleştirerek ‘Uncanny Valley’ ile Mücadele Ediyor

Published November 30, 2021

Updated April 28, 2026

Martin Anderson

Disney’in AI araştırma bölümü, yüz simülasyonu için bir melez yöntem geliştirdi, yüzün nöral renderinginin gücünü CGI tabanlı bir yaklaşımın tutarlılığıyla birleştirdi.

Bekleyen makale Stille İle Rendering: Yüksek Kaliteli Yüz Rendering için Geleneksel ve Nöral Yaklaşımları Birleştirmek başlıklı ve Disney Research YouTube kanalında yeni bir 10 dakikalık video ile ön izlenmektedir (makalenin sonunda gömülüdür*).

Meshler ile birleştirilen nöral yüz renderları. Videoyu makalenin sonunda daha iyi ayrıntı ve kalite için izleyin. Kaynak: https://www.youtube.com/watch?v=k-RKSGbWLng (sonradan https://www.youtube.com/watch?v=TwpLqTmvqVk ile değiştirildi)

Videonun belirttiği gibi, yüzün nöral renderingi (derin sahtecilik dahil) CGI’nin yapabileceğinden çok daha gerçekçi gözler ve ağız içi üretebilir, ancak CGI ile yönlendirilen yüz dokuları daha tutarlı ve sinema düzeyindeki VFX çıktısı için daha uygundur.

Bu nedenle Disney, NVIDIA’nın StyleGan2 nöral jeneratörünü bir yüzün çevre özelliklerini ve ‘hayati’ unsurları gibi gözleri işleme konusunda deniyor ve tutarlı CGI yüz cildini ve ilgili unsurları çıktıya süperpoze ediyor.

Makalenin sonunda bulunan videodan, Disney’in melez yaklaşımının arkasındaki mimari kavram, nöral olarak render edilen yüz ortamlarına entegre edilmiş eski tarz bir CGI mesh.

Videoda, Star Wars oyuncusu Peter Cushing’in Rogue One (2016) filmindeki CGI yeniden yaratmasının inandırıcılık ve ‘uncanny valley’ etkisi hakkında sıkça yapılan eleştirilere dolaylı bir atıf yapılarak şunlar belirtilmektedir:

‘Hala insanların kolayca yakalayabileceği ve render edebileceği şeyler ile son photogerçekçi dijital çifte, saç, göz ve iç ağız dahil, arasında büyük bir uçurum var. Bu açığı kapatmak için genellikle yetenekli sanatçılardan çok fazla manuel çalışma gerekiyor.’

Aslında, en modern yüz yakalama sistemleri bile gözleri, ağız içi veya saçı yeniden yaratmaya bile çalışmıyor, çünkü bu tekniklerdeki sorunlar ya gerçeklik sorunları (gözler) ya da zaman tutarlılığı sorunları (saç).

Videonun gösterdiği gibi, VFX sanatçıları tipik bir modern yüz yakalama oturumundan sonra ne alacaklar. Gözler, saç, yüz saçları ve ağız içi ayrı üretim hatlarında işlenecek, ayrıca doku ve aydınlatma.

Aydınlatma Kontrolü

Melez yaklaşım, relighting konusunda da bir avantaj sağlıyor – yüzlerin nöral renderingi için önemli bir zorluk, çünkü CGI cilt süperpoze edilebilmesi daha kolay relit edilebilir.

CGI/Neural yaklaşımın animasyonlu bir sürümü.

Daha zorlu ortamlarda, örneğin dış çekimlerde, araştırmacılar bir kişinin ‘yaratıldığı’ alan etrafındaki bir tür demilitarize bölge etrafında inpainting için bir yöntem geliştirdiler.

Dış kısımları kimlik ve CGI cildini birleştirilmiş CGI/nöral çıktıya entegre etmek için bir ‘tuval’ oluşturmak amacıyla siyah bir kenarlık oluşturuluyor.

Videoda şunlar belirtilmektedir:

‘Nöral render, arka plan kısıtlamasına mükemmel bir şekilde uymuyor. – Sadece bir rehber olarak amaçlanmıştır, çünkü gerçekçi insan bileşenleri gibi saç, göz ve dişleri optimize etmek ana hedeftir. Daha zorlu olan, kimliği korurken çevre aydınlatmasını değiştirmeye çalışmaktır.’

CGI Meshleri Nöral Renderlardan Oluşturma

Araştırma ekibi, ayrıca bir dizi 3B yüz görüntüsünden oluşan büyük bir veritabanına dayalı bir varyasyonel oto-encoder geliştirdi ve bunun ‘rastgele ancak makul’ 3B yüz meshleri üretebileceğini iddia etmektedir.

Bu araştırmada aşılması gereken sınırlamalar bulunmaktadır, bunlar arasında nöral renderlarda saçın zaman tutarlılığını korumasının zorluğu bulunmaktadır ve videoda (aşağıda), CGI/nöral yüz etrafındaki bir pan sırasında hızla değişen saçın birkaç örneği gösterilmektedir.

Zaman tutarlılığı, nöral video renderinginde çok daha geniş bir sorundur ve bu sistemin daha sonraki iterasyonlarının saç eklemeye başvurabileceği veya saç oluşturmanın diğer olası yaklaşımlarına başvurabileceği olasıdır.

Veri Oluşturma Kullanımları

Bu yöntem, sentetik veri oluşturmak ve yüz görüntü seti manzarasını zenginleştirmek için de önerilmektedir, ki bu son yıllarda tehlikeli bir şekilde monoton hale gelmiştir.

Disney, yeni tekniğin yüz görüntü veri setlerini doldurmasını öngörüyor.

‘Ürettiğimiz her photogerçekçi sonuç, bilinmeyen kamera görüş açılarından bilinen aydınlatmayla render edilen ve altta yatan geometri ve görünüm haritalarına sahiptir. Bu ‘gerçek veri’ bilgileri, monocular 3B yüz yeniden yapılandırma, yüz tanıma veya sahne anlaşılması gibi aşağı akış uygulamaları için çok önemlidir. Ve bu nedenle her render sonucu bir veri örneği olarak düşünülebilir ve birçok farklı bireyin birçok varyasyonunu üretebiliriz.

‘Ayrıca, bir kişinin tek bir ifade, tek bir görüş açısı ve aydınlatmayla render edildiği durumlarda, optimizasyon sırasında rasgeleleştirme tohumunu değiştirerek foto-gerçek renderın rasgele varyasyonlarını üretebiliriz.’

Araştırmacılar, bu yapılandırılabilir çıktı çeşitliliği, yüz tanıma uygulamalarının eğitilmesinde faydalı olabileceğini belirtiyorlar ve şunları ekliyorlar:

‘Yöntemimiz, mevcut teknolojiyi yüz cilt yakalama, modelleme ve rendering için kullanabiliyor ve otomatik olarak istenen kimlik, ifade ve sahne yapılandırmasına uyan tam photogerçekçi yüz renderları oluşturabiliyor. Bu yaklaşım, film ve eğlence için yüz renderingi uygulamalarına ve ayrıca derin öğrenme alanındaki çeşitli alanlardaki veri oluşturma için uygulamalara sahiptir.’

Yeni yaklaşımı daha derinlemesine incelemek için bugün yayınlanan 10 dakikalık videoyu izleyin:

* Orijinal video bağlantısı, makale yayınlandıktan 8 saat sonra değiştirildi. Tüm ilgili bağlantıları değiştirdim, çünkü orijinal videoya dair hiçbir iz bulunmuyor.

8:24 GMT+2 – Videonun değiştirilmesi nedeniyle değiştirildi, çünkü Disney Research YouTube kanalı tarafından bazı nedenlerle değiştirildi.

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]