Kecerdasan Buatan
Membuat Full Body Deepfake dengan Menggabungkan Beberapa NeRF
Sektor penelitian sintesis citra penuh dengan proposal baru untuk sistem yang mampu membuat video dan gambar seluruh tubuh anak muda – terutama wanita muda – dalam berbagai jenis pakaian. Sebagian besar gambar yang dihasilkan bersifat statis; kadang-kadang, representasi bahkan bergerak, meskipun biasanya tidak terlalu baik.
Laju untaian penelitian khusus ini sangat lambat dibandingkan dengan tingkat kemajuan yang memusingkan saat ini di bidang terkait seperti model difusi laten; namun kelompok-kelompok penelitian, mayoritas di Asia, terus memikirkan masalah ini tanpa henti.
Tujuannya adalah untuk menciptakan sistem baru yang memungkinkan 'percobaan virtual' untuk pasar fesyen dan pakaian – sistem yang dapat beradaptasi baik dengan pelanggan maupun dengan produk spesifik yang saat ini tersedia atau akan dirilis, tanpa kecanggungan nyata. -waktu superimposisi of pakaian, atau kebutuhan untuk meminta pelanggan untuk mengirim sedikit gambar NSFW untuk pipeline rendering berbasis ML.
Tak satu pun dari arsitektur sintesis populer yang tampaknya mudah diadaptasi untuk tugas ini: the ruang laten of Generative Adversarial Networks (GANs) tidak cocok untuk menghasilkan gerakan temporal yang meyakinkan (atau bahkan untuk mengedit secara umum); meskipun berkemampuan baik menghasilkan gerakan manusia yang realistis, Bidang Cahaya Saraf (NeRF) biasanya secara alami tahan untuk jenis pengeditan yang diperlukan untuk 'menukar' orang atau pakaian sesuka hati; autoencoder akan membutuhkan pelatihan khusus orang/pakaian yang memberatkan; dan model difusi laten, seperti GAN, tidak memiliki mekanisme temporal asli, untuk pembuatan video.
EVA3D
Meskipun demikian, makalah dan proposal terus berlanjut. Yang terbaru adalah minat yang tidak biasa dalam bidang penelitian berorientasi bisnis yang tidak istimewa dan eksklusif.
EVA3D, dari Singapore's Nanyang Technological University, merupakan indikasi pertama dari pendekatan yang telah lama datang – penggunaan beberapa Jaringan Neural Radiance Field, yang masing-masing dikhususkan untuk bagian tubuh yang terpisah, dan yang kemudian disusun menjadi visualisasi yang terhimpun dan kohesif.
Hasilnya, dalam hal pergerakan,… oke. Meskipun visualisasi EVA3D tidak keluar dari lembah yang luar biasa, mereka setidaknya dapat melihat off-ramp dari tempat mereka berdiri.
Apa yang membuat EVA3D luar biasa adalah bahwa para peneliti di baliknya, hampir secara unik di sektor sintesis gambar seluruh tubuh, telah menyadari bahwa satu jaringan (GAN, NeRF, atau lainnya) tidak akan dapat menangani gambar manusia yang dapat diedit dan fleksibel. pembentukan tubuh selama beberapa tahun – sebagian karena laju penelitian, dan sebagian lagi karena perangkat keras dan keterbatasan logistik lainnya.
Oleh karena itu, tim Nanyang telah membagi tugas menjadi 16 jaringan dan beberapa teknologi – sebuah pendekatan yang telah diadopsi untuk rendering saraf lingkungan perkotaan di Blok-NeRF dan KotaNeRF, dan tampaknya akan menjadi langkah setengah jalan yang semakin menarik dan berpotensi membuahkan hasil untuk mencapai deepfake seluruh tubuh dalam lima tahun ke depan, sambil menunggu pengembangan konseptual atau perangkat keras baru.
Tidak semua tantangan yang ada dalam menciptakan 'uji coba virtual' semacam ini bersifat teknis atau logistik, dan makalah ini menguraikan beberapa masalah data, khususnya yang berkaitan dengan pembelajaran tanpa pengawasan:
Kumpulan data [Fashion] sebagian besar memiliki pose manusia yang sangat terbatas (sebagian besar mirip pose berdiri), dan sudut pandang yang sangat tidak seimbang (sebagian besar adalah tampilan depan). Distribusi data 2D yang tidak seimbang ini dapat menghambat pembelajaran GAN 3D tanpa pengawasan, yang menyebabkan kesulitan dalam sintesis tampilan/pose baru. Oleh karena itu, diperlukan strategi pelatihan yang tepat untuk mengatasi masalah tersebut.'
Alur kerja EVA3D membagi tubuh manusia menjadi 16 bagian berbeda, yang masing-masing dihasilkan melalui jaringan NeRF-nya sendiri. Jelas, ini menciptakan bagian 'cair' yang cukup untuk dapat menggembleng gambar melalui penangkapan gerak atau jenis data gerak lainnya. Selain keunggulan ini, bagaimanapun juga memungkinkan sistem untuk menetapkan sumber daya maksimum ke bagian tubuh yang 'menjual' kesan keseluruhan.
Misalnya, kaki manusia memiliki rentang artikulasi yang sangat terbatas, sedangkan keaslian wajah dan kepala, selain kualitas gerak seluruh tubuh secara umum, kemungkinan besar akan menjadi tanda keaslian yang utama untuk rendering.
Pendekatannya berbeda secara radikal dari proyek NeRF-sentris yang terkait secara konseptual - tahun 2021 A-NeRF, dari University of British Columbia dan Reality Labs Research, yang berupaya menambahkan kerangka pengontrol internal ke representasi NeRF 'satu bagian' yang konvensional, membuatnya lebih sulit untuk mengalokasikan sumber daya pemrosesan ke berbagai bagian tubuh berdasarkan kebutuhan .
Sama dengan sebagian besar proyek human-centric serupa yang berusaha memanfaatkan ruang laten dari berbagai pendekatan populer, EVA3D menggunakan Skinned Multi-Person Linear Model (SMPL), sebuah metode berbasis CGI 'tradisional' untuk menambahkan sarana ke abstraksi umum dari metode sintesis saat ini. Awal tahun ini, makalah lain, kali ini dari Universitas Zhejiang di Hangzhou, dan Sekolah Media Kreatif di Universitas Kota Hong Kong, menggunakan metode tersebut untuk melakukan pembentukan kembali tubuh saraf.
metode
Model SMPL yang digunakan dalam proses disesuaikan dengan manusia 'sebelumnya' - orang yang, pada dasarnya, secara sukarela dipalsukan oleh EVA3D, dan bobot kulitnya menegosiasikan perbedaan antara ruang kanonik (yaitu 'saat istirahat', atau ' pose netral model SMPL) dan cara penampilan akhir ditampilkan.
Seperti yang terlihat pada ilustrasi di atas, kotak pembatas SMPL digunakan sebagai definisi batas untuk 16 jaringan yang pada akhirnya akan membentuk badan. Terbalik Skin Blend Linear (LBS) algoritma SMPL kemudian digunakan untuk mentransfer sinar sampel yang terlihat ke ruang kanonik (pose pasif). Kemudian 16 sub-jaringan dikueri, berdasarkan konfigurasi ini, dan akhirnya disesuaikan dengan render akhir.
Seluruh komposit NeRF kemudian digunakan untuk membuat kerangka GAN manusia 3D.
Setiap sub-jaringan yang mewakili bagian tubuh manusia terdiri dari Multi-Layer Perceptrons (MLPs) yang ditumpuk dengan SIRENE (Jaringan Representasi Sinusoidal) aktivasi. Meskipun SIREN memecahkan banyak masalah dalam alur kerja seperti ini, dan dalam proyek serupa, SIREN cenderung overfit daripada menggeneralisasi, dan para peneliti menyarankan bahwa perpustakaan alternatif dapat digunakan di masa mendatang (lihat akhir artikel).
Data, Pelatihan, dan Tes
EVA3D dihadapkan dengan masalah data yang tidak biasa, karena keterbatasan dan gaya template dari pose yang tersedia dalam kumpulan data berbasis mode, yang cenderung tidak memiliki pandangan alternatif atau baru, dan, mungkin sengaja, berulang, untuk memusatkan perhatian pada pakaian daripada manusia yang memakainya.
Karena distribusi pose yang tidak seimbang ini, EVA3D menggunakan prior manusia (lihat di atas) berdasarkan geometri templat SMPL, lalu memprediksi Bidang Jarak Bertanda (SDF) mengimbangi pose ini, bukan pose target langsung.
Untuk percobaan pendukung, para peneliti menggunakan empat dataset: Mode Dalam; SHHQ; UBCFashion; dan Basis Data Video Tari AIST (AIST Tari DB).
Dua yang terakhir berisi pose yang lebih bervariasi daripada dua yang pertama, tetapi mewakili individu yang sama secara berulang, yang membatalkan keragaman yang berguna ini; singkatnya, datanya lebih dari menantang, mengingat tugasnya.
Garis dasar yang digunakan adalah ENARF-GAN, proyek pertama yang merender visual NeRF dari kumpulan data gambar 2D; Stanford dan NVIDIA EG3D; Dan GayaSDF, sebuah kolaborasi antara University of Washington, Adobe Research, dan Stanford University – semua metode yang memerlukan pustaka resolusi super untuk meningkatkan skala dari resolusi asli ke resolusi tinggi.
Metrik yang diadopsi adalah kontroversial Jarak Awal Frechet (FID) dan Jarak Awal Kernel (ANAK), beserta Persentase Titik Kunci yang Benar ([email dilindungi]).
Dalam evaluasi kuantitatif, EVA3D memimpin semua metrik dalam empat kumpulan data:
Para peneliti mencatat bahwa EVA3D mencapai tingkat kesalahan terendah untuk rendering geometri, faktor penting dalam proyek jenis ini. Mereka juga mengamati bahwa sistem mereka dapat mengontrol pose yang dihasilkan dan mencapai lebih tinggi [email dilindungi] skor, berbeda dengan EG3D, satu-satunya metode bersaing yang mendapat skor lebih tinggi, dalam satu kategori.
EVA3D beroperasi secara native pada resolusi standar 512x512px saat ini, meskipun dapat dengan mudah dan efektif ditingkatkan menjadi resolusi HD dengan menumpuk lapisan kelas atas, seperti yang baru-baru ini dilakukan Google dengan penawaran teks-ke-video beresolusi 1024 Video Gambar.
Metode ini bukan tanpa batas. Makalah mencatat bahwa aktivasi SIREN dapat menyebabkan artefak melingkar, yang dapat diperbaiki di versi mendatang dengan menggunakan representasi basis alternatif, seperti EG3D, yang dikombinasikan dengan dekoder 2D. Selain itu, sulit untuk menyesuaikan SMPL secara akurat dengan sumber data mode.
Terakhir, sistem tidak dapat dengan mudah mengakomodasi item pakaian yang lebih besar dan lebih cair, seperti gaun besar; pakaian jenis ini menunjukkan jenis dinamika fluida yang sama yang membuat terciptanya rambut yang dirender secara saraf tantangan seperti itu. Agaknya, solusi yang tepat dapat membantu mengatasi kedua masalah tersebut.
Pertama kali diterbitkan 12 Oktober 2022.