Kecerdasan buatan

Disney Menggabungkan CGI Dengan Neural Rendering untuk Mengatasi ‘Uncanny Valley’

Published November 30, 2021

Updated April 28, 2026

Martin Anderson

Divisi penelitian AI Disney telah mengembangkan metode hibrida untuk simulasi wajah berkualitas film, menggabungkan kekuatan rendering neural wajah dengan konsistensi pendekatan berbasis CGI.

Makalah yang akan datang berjudul Rendering with Style: Combining Traditional and Neural Approaches for High Quality Face Rendering, dan dipreview dalam video baru 10 menit di saluran YouTube Disney Research (disematkan di akhir artikel*).

Meshes digabung dengan render wajah neural. Lihat video embed di akhir artikel untuk detail dan kualitas yang lebih baik. Sumber: https://www.youtube.com/watch?v=k-RKSGbWLng (sejak digantikan oleh https://www.youtube.com/watch?v=TwpLqTmvqVk)

Seperti yang disebutkan dalam video, rendering neural wajah (termasuk deepfakes) dapat menghasilkan mata dan bagian dalam mulut yang lebih realistis daripada CGI, sedangkan tekstur wajah yang digerakkan oleh CGI lebih konsisten dan sesuai untuk output VFX level sinema.

Oleh karena itu, Disney bereksperimen dengan membiarkan generator neural NVIDIA StyleGan2 menangani fitur sekitar wajah dan elemen “kritis kehidupan” seperti mata, sementara menumpangkan tekstur wajah CGI yang konsisten ke dalam output.

Dari video (lihat akhir artikel), konsep arsitektur di balik pendekatan hibrida Disney, di mana mesh CGI gaya lama, seperti yang digunakan untuk merekam ‘muda’ Carrie Fisher dan almarhum Peter Cushing untuk Rogue One (2016), diintegrasikan ke dalam lingkungan wajah yang di-render neural.

Video tersebut membuat referensi implisit untuk kritik sering tentang ketidakaslian dan efek ‘uncanny valley’ dari rekreasi CGI akhir aktor Inggris Star Wars Peter Cushing di Rogue One (2016), mengakui:

‘[Masih] ada celah besar antara apa yang bisa dengan mudah ditangkap dan di-render versus double digital fotorealistik akhir, lengkap dengan rambut, mata, dan bagian dalam mulut. Untuk menutup celah ini, biasanya diperlukan banyak pekerjaan manual dari seniman yang terampil.’

Pada kenyataannya, bahkan sistem penangkapan wajah modern tidak mencoba merekam mata, bagian dalam mulut, atau rambut, yang memiliki masalah autentikasi dalam teknik tersebut (mata) atau konsistensi temporal (rambut).

Video tersebut menggambarkan apa yang akan diterima oleh seniman VFX setelah sesi penangkapan wajah modern. Mata, rambut, jenggot, dan bagian dalam mulut semuanya harus ditangani oleh tim yang terpisah dalam pipa produksi.

Kontrol Iluminasi

Pendekatan hibrida juga menguntungkan dalam relighting – sebuah tantangan yang cukup besar untuk rendering neural wajah, karena superimposisi kulit CGI dapat lebih mudah direlit.

Versi animasi dari pendekatan CGI/Neural.

Dalam lingkungan yang lebih menantang, seperti syuting eksterior, peneliti telah mengembangkan metode inpainting di sekitar zona demiliterisasi yang mengelilingi orang yang sedang ‘dibuat’.

Margin hitam dihasilkan untuk memungkinkan ‘kanvas’ untuk inpainting bagian luar identitas dan mengintegrasikan kulit CGI ke dalam output CGI/neural yang digabung.

Video tersebut mencatat:

‘[Render] neural tidak sesuai dengan konstrain latar belakang dengan sempurna. – itu hanya dimaksudkan sebagai panduan, karena mengoptimalkan komponen manusia yang realistis seperti rambut, mata, dan gigi adalah tujuan utama. Lebih menantang adalah mencoba mempertahankan identitas yang konsisten, sementara mengubah pencahayaan lingkungan.’

Membuat Mesh CGI Dari Render Neural

Tim peneliti juga telah mengembangkan variational autoencoder yang dilatih pada basis data besar gambar wajah 3D (tidak ditentukan), dan mengklaim bahwa dapat menghasilkan mesh wajah 3D ‘acak tapi masuk akal’ dari data kebenaran.

Ada keterbatasan untuk penelitian ini untuk diatasi, termasuk kesulitan membuat rambut tetap konsisten secara temporal dalam rendering neural, dan video (lihat di bawah) menunjukkan beberapa contoh rambut yang berubah dengan cepat dalam putaran konsisten di sekitar wajah CGI/neural.

Konsistensi temporal dalam rendering video neural adalah masalah yang jauh lebih luas daripada hanya Disney, dan tampaknya kemungkinan bahwa iterasi selanjutnya dari sistem ini mungkin akan menambahkan rambut ‘di pos’, atau berbagai pendekatan lain untuk generasi rambut daripada berharap pendekatan neural baru akan akhirnya menyelesaikannya.

Penggunaan untuk Generasi Dataset

Metode ini juga diusulkan sebagai metode potensial untuk menghasilkan data sintetis, dan memperkaya lanskap gambar wajah, yang dalam beberapa tahun terakhir telah menjadi monoton yang berbahaya.

Disney membayangkan teknik baru ini memenuhi dataset gambar wajah.

‘[Setiap] hasil fotorealistik yang kita hasilkan memiliki geometri yang mendasarinya, dan peta penampilan, dirender dari sudut kamera yang tidak diketahui dengan iluminasi yang diketahui. Informasi ‘kebenaran’ ini dapat sangat penting untuk pelatihan aplikasi downstream, seperti rekonstruksi wajah 3D monokular, pengenalan wajah, atau pemahaman adegan. Dan sehingga setiap hasil render dapat dianggap sebagai sampel data, dan kita dapat menghasilkan banyak variasi dari banyak individu yang berbeda.

‘Selain itu, bahkan untuk satu orang yang dirender dalam satu ekspresi dengan satu sudut pandang dan iluminasi, kita dapat menghasilkan variasi acak dari render foto-real dengan mengubah benih acak selama optimasi.’

Peneliti mencatat bahwa keanekaragaman output yang dapat dikonfigurasi ini dapat berguna dalam melatih aplikasi pengenalan wajah, menyimpulkan:

‘[Metode] kita dapat memanfaatkan teknologi saat ini untuk penangkapan kulit wajah, modeling, dan rendering, dan secara otomatis membuat render wajah fotorealistik yang lengkap yang sesuai dengan identitas yang diinginkan, ekspresi, dan konfigurasi adegan. Pendekatan ini memiliki aplikasi dan rendering wajah untuk film dan hiburan, menyelamatkan pekerjaan manual seniman dan juga untuk generasi data di berbagai bidang pembelajaran dalam.’

Untuk melihat lebih dalam tentang pendekatan baru, lihat video 10 menit yang dirilis hari ini:

* Tautan video asli digantikan dengan yang lain yang tampaknya identik 8 jam setelah artikel ini dipublikasikan. Saya mengubah semua tautan yang relevan, karena tidak ada jejak dari video asli.

8:24 GMT+2 – Menggantikan video, karena telah diganti oleh saluran YouTube Disney Research untuk beberapa alasan.

Martin Anderson

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.

Unite.AI

Disney Menggabungkan CGI Dengan Neural Rendering untuk Mengatasi ‘Uncanny Valley’

Kontrol Iluminasi

Membuat Mesh CGI Dari Render Neural

Penggunaan untuk Generasi Dataset

You may like