Kecerdasan Buatan

Membuat Full Body Deepfake dengan Menggabungkan Beberapa NeRF

Updated on Desember 9, 2022

Sektor penelitian sintesis citra penuh dengan proposal baru untuk sistem yang mampu membuat video dan gambar seluruh tubuh anak muda – terutama wanita muda – dalam berbagai jenis pakaian. Sebagian besar gambar yang dihasilkan bersifat statis; kadang-kadang, representasi bahkan bergerak, meskipun biasanya tidak terlalu baik.

Laju untaian penelitian khusus ini sangat lambat dibandingkan dengan tingkat kemajuan yang memusingkan saat ini di bidang terkait seperti model difusi laten; namun kelompok-kelompok penelitian, mayoritas di Asia, terus memikirkan masalah ini tanpa henti.

Satu dari lusinan, jika bukan ratusan sistem 'percobaan virtual' yang diusulkan atau semi-diluncurkan dari 10-15 tahun terakhir, di mana tubuh dievaluasi melalui pengenalan objek berbasis pembelajaran mesin dan disesuaikan dengan item pakaian yang diusulkan. Sumber: https://www.youtube.com/watch?v=0ZXrgGyhbak

Salah satu dari lusinan, bahkan ratusan sistem 'percobaan virtual' yang diusulkan atau setengah diluncurkan dalam 10-15 tahun terakhir, di mana tubuh dievaluasi melalui pengenalan objek berbasis pembelajaran mesin dan disesuaikan dengan item pakaian yang diusulkan. Sumber: https://www.youtube.com/watch?v=2ZXrgGyhbak

Tujuannya adalah untuk menciptakan sistem baru yang memungkinkan 'percobaan virtual' untuk pasar fesyen dan pakaian – sistem yang dapat beradaptasi baik dengan pelanggan maupun dengan produk spesifik yang saat ini tersedia atau akan dirilis, tanpa kecanggungan nyata. -waktu superimposisi of pakaian, atau kebutuhan untuk meminta pelanggan untuk mengirim sedikit gambar NSFW untuk pipeline rendering berbasis ML.

Tak satu pun dari arsitektur sintesis populer yang tampaknya mudah diadaptasi untuk tugas ini: the ruang laten of Generative Adversarial Networks (GANs) tidak cocok untuk menghasilkan gerakan temporal yang meyakinkan (atau bahkan untuk mengedit secara umum); meskipun berkemampuan baik menghasilkan gerakan manusia yang realistis, Bidang Cahaya Saraf (NeRF) biasanya secara alami tahan untuk jenis pengeditan yang diperlukan untuk 'menukar' orang atau pakaian sesuka hati; autoencoder akan membutuhkan pelatihan khusus orang/pakaian yang memberatkan; dan model difusi laten, seperti GAN, tidak memiliki mekanisme temporal asli, untuk pembuatan video.

EVA3D

Meskipun demikian, makalah dan proposal terus berlanjut. Yang terbaru adalah minat yang tidak biasa dalam bidang penelitian berorientasi bisnis yang tidak istimewa dan eksklusif.

EVA3D, dari Singapore's Nanyang Technological University, merupakan indikasi pertama dari pendekatan yang telah lama datang – penggunaan beberapa Jaringan Neural Radiance Field, yang masing-masing dikhususkan untuk bagian tubuh yang terpisah, dan yang kemudian disusun menjadi visualisasi yang terhimpun dan kohesif.

Seorang wanita muda bergerak yang digabungkan dari beberapa jaringan NeRF, untuk EVA3D. Sumber: https://hongfz16.github.io/projects/EVA3D.html

Hasilnya, dalam hal pergerakan,… oke. Meskipun visualisasi EVA3D tidak keluar dari lembah yang luar biasa, mereka setidaknya dapat melihat off-ramp dari tempat mereka berdiri.

Apa yang membuat EVA3D luar biasa adalah bahwa para peneliti di baliknya, hampir secara unik di sektor sintesis gambar seluruh tubuh, telah menyadari bahwa satu jaringan (GAN, NeRF, atau lainnya) tidak akan dapat menangani gambar manusia yang dapat diedit dan fleksibel. pembentukan tubuh selama beberapa tahun – sebagian karena laju penelitian, dan sebagian lagi karena perangkat keras dan keterbatasan logistik lainnya.

Oleh karena itu, tim Nanyang telah membagi tugas menjadi 16 jaringan dan beberapa teknologi – sebuah pendekatan yang telah diadopsi untuk rendering saraf lingkungan perkotaan di Blok-NeRF dan KotaNeRF, dan tampaknya akan menjadi langkah setengah jalan yang semakin menarik dan berpotensi membuahkan hasil untuk mencapai deepfake seluruh tubuh dalam lima tahun ke depan, sambil menunggu pengembangan konseptual atau perangkat keras baru.

Tidak semua tantangan yang ada dalam menciptakan 'uji coba virtual' semacam ini bersifat teknis atau logistik, dan makalah ini menguraikan beberapa masalah data, khususnya yang berkaitan dengan pembelajaran tanpa pengawasan:

Kumpulan data [Fashion] sebagian besar memiliki pose manusia yang sangat terbatas (sebagian besar mirip pose berdiri), dan sudut pandang yang sangat tidak seimbang (sebagian besar adalah tampilan depan). Distribusi data 2D yang tidak seimbang ini dapat menghambat pembelajaran GAN 3D tanpa pengawasan, yang menyebabkan kesulitan dalam sintesis tampilan/pose baru. Oleh karena itu, diperlukan strategi pelatihan yang tepat untuk mengatasi masalah tersebut.'

Alur kerja EVA3D membagi tubuh manusia menjadi 16 bagian berbeda, yang masing-masing dihasilkan melalui jaringan NeRF-nya sendiri. Jelas, ini menciptakan bagian 'cair' yang cukup untuk dapat menggembleng gambar melalui penangkapan gerak atau jenis data gerak lainnya. Selain keunggulan ini, bagaimanapun juga memungkinkan sistem untuk menetapkan sumber daya maksimum ke bagian tubuh yang 'menjual' kesan keseluruhan.

Misalnya, kaki manusia memiliki rentang artikulasi yang sangat terbatas, sedangkan keaslian wajah dan kepala, selain kualitas gerak seluruh tubuh secara umum, kemungkinan besar akan menjadi tanda keaslian yang utama untuk rendering.

Perbandingan kualitatif antara EVA3D dan metode sebelumnya. Penulis mengklaim hasil SOTA dalam hal ini.

Pendekatannya berbeda secara radikal dari proyek NeRF-sentris yang terkait secara konseptual - tahun 2021 A-NeRF, dari University of British Columbia dan Reality Labs Research, yang berupaya menambahkan kerangka pengontrol internal ke representasi NeRF 'satu bagian' yang konvensional, membuatnya lebih sulit untuk mengalokasikan sumber daya pemrosesan ke berbagai bagian tubuh berdasarkan kebutuhan .

Gerakan sebelumnya – A-NeRF melengkapi NeRF yang 'dipanggang' dengan jenis rigging pusat yang ulet dan artikulasi yang sama yang telah lama digunakan industri VFX untuk menganimasikan karakter CGI. Sumber: https://lemonatsu.github.io/anerf/

Gerakan sebelumnya – A-NeRF melengkapi NeRF yang 'dipanggang' dengan jenis tali pusat artikulasi dan ulet yang sama yang telah lama digunakan oleh industri VFX untuk menganimasikan karakter CGI. Sumber: https://lemonatsu.github.io/anerf/

Sama dengan sebagian besar proyek human-centric serupa yang berusaha memanfaatkan ruang laten dari berbagai pendekatan populer, EVA3D menggunakan Skinned Multi-Person Linear Model (SMPL), sebuah metode berbasis CGI 'tradisional' untuk menambahkan sarana ke abstraksi umum dari metode sintesis saat ini. Awal tahun ini, makalah lain, kali ini dari Universitas Zhejiang di Hangzhou, dan Sekolah Media Kreatif di Universitas Kota Hong Kong, menggunakan metode tersebut untuk melakukan pembentukan kembali tubuh saraf.

Hasil kualitatif EVA3D di DeepFashion.

metode

Model SMPL yang digunakan dalam proses disesuaikan dengan manusia 'sebelumnya' - orang yang, pada dasarnya, secara sukarela dipalsukan oleh EVA3D, dan bobot kulitnya menegosiasikan perbedaan antara ruang kanonik (yaitu 'saat istirahat', atau ' pose netral model SMPL) dan cara penampilan akhir ditampilkan.

Alur kerja konseptual untuk EVA3D. Sumber: https://arxiv.org/pdf/2210.04888.pdf

Seperti yang terlihat pada ilustrasi di atas, kotak pembatas SMPL digunakan sebagai definisi batas untuk 16 jaringan yang pada akhirnya akan membentuk badan. Terbalik Skin Blend Linear (LBS) algoritma SMPL kemudian digunakan untuk mentransfer sinar sampel yang terlihat ke ruang kanonik (pose pasif). Kemudian 16 sub-jaringan dikueri, berdasarkan konfigurasi ini, dan akhirnya disesuaikan dengan render akhir.

Seluruh komposit NeRF kemudian digunakan untuk membuat kerangka GAN manusia 3D.

Rendering kerangka kerja GAN tahap kedua pada akhirnya akan dilatih melawan koleksi gambar 2D manusia/mode asli.

Setiap sub-jaringan yang mewakili bagian tubuh manusia terdiri dari Multi-Layer Perceptrons (MLPs) yang ditumpuk dengan SIRENE (Jaringan Representasi Sinusoidal) aktivasi. Meskipun SIREN memecahkan banyak masalah dalam alur kerja seperti ini, dan dalam proyek serupa, SIREN cenderung overfit daripada menggeneralisasi, dan para peneliti menyarankan bahwa perpustakaan alternatif dapat digunakan di masa mendatang (lihat akhir artikel).

Data, Pelatihan, dan Tes

EVA3D dihadapkan dengan masalah data yang tidak biasa, karena keterbatasan dan gaya template dari pose yang tersedia dalam kumpulan data berbasis mode, yang cenderung tidak memiliki pandangan alternatif atau baru, dan, mungkin sengaja, berulang, untuk memusatkan perhatian pada pakaian daripada manusia yang memakainya.

Karena distribusi pose yang tidak seimbang ini, EVA3D menggunakan prior manusia (lihat di atas) berdasarkan geometri templat SMPL, lalu memprediksi Bidang Jarak Bertanda (SDF) mengimbangi pose ini, bukan pose target langsung.

Untuk percobaan pendukung, para peneliti menggunakan empat dataset: Mode Dalam; SHHQ; UBCFashion; dan Basis Data Video Tari AIST (AIST Tari DB).

Dua yang terakhir berisi pose yang lebih bervariasi daripada dua yang pertama, tetapi mewakili individu yang sama secara berulang, yang membatalkan keragaman yang berguna ini; singkatnya, datanya lebih dari menantang, mengingat tugasnya.

Contoh dari SSHQ. Sumber: https://arxiv.org/pdf/2204.11823.pdf

Garis dasar yang digunakan adalah ENARF-GAN, proyek pertama yang merender visual NeRF dari kumpulan data gambar 2D; Stanford dan NVIDIA EG3D; Dan GayaSDF, sebuah kolaborasi antara University of Washington, Adobe Research, dan Stanford University – semua metode yang memerlukan pustaka resolusi super untuk meningkatkan skala dari resolusi asli ke resolusi tinggi.

Metrik yang diadopsi adalah kontroversial Jarak Awal Frechet (FID) dan Jarak Awal Kernel (ANAK), beserta Persentase Titik Kunci yang Benar ([email dilindungi]).

Dalam evaluasi kuantitatif, EVA3D memimpin semua metrik dalam empat kumpulan data:

Hasil kuantitatif.

Para peneliti mencatat bahwa EVA3D mencapai tingkat kesalahan terendah untuk rendering geometri, faktor penting dalam proyek jenis ini. Mereka juga mengamati bahwa sistem mereka dapat mengontrol pose yang dihasilkan dan mencapai lebih tinggi [email dilindungi] skor, berbeda dengan EG3D, satu-satunya metode bersaing yang mendapat skor lebih tinggi, dalam satu kategori.

EVA3D beroperasi secara native pada resolusi standar 512x512px saat ini, meskipun dapat dengan mudah dan efektif ditingkatkan menjadi resolusi HD dengan menumpuk lapisan kelas atas, seperti yang baru-baru ini dilakukan Google dengan penawaran teks-ke-video beresolusi 1024 Video Gambar.

Metode ini bukan tanpa batas. Makalah mencatat bahwa aktivasi SIREN dapat menyebabkan artefak melingkar, yang dapat diperbaiki di versi mendatang dengan menggunakan representasi basis alternatif, seperti EG3D, yang dikombinasikan dengan dekoder 2D. Selain itu, sulit untuk menyesuaikan SMPL secara akurat dengan sumber data mode.

Terakhir, sistem tidak dapat dengan mudah mengakomodasi item pakaian yang lebih besar dan lebih cair, seperti gaun besar; pakaian jenis ini menunjukkan jenis dinamika fluida yang sama yang membuat terciptanya rambut yang dirender secara saraf tantangan seperti itu. Agaknya, solusi yang tepat dapat membantu mengatasi kedua masalah tersebut.

Video Demo untuk EVA3D: Generasi Manusia 3D Komposisional dari Koleksi Gambar 2D

Demo Video for EVA3D: Compositional 3D Human Generation from 2D Image Collections

Watch this video on YouTube

Pertama kali diterbitkan 12 Oktober 2022.

Topik-topik terkait:Tiongkok DeepFakes sintesis gambar penelitian

Berikutnya

Detektor Deepfake Mengejar Hal Baru: Model Difusi Laten dan GAN

Jangan Miss

Memisahkan Manusia 'Fused' dalam Computer Vision

Martin Anderson

Penulis tentang pembelajaran mesin, kecerdasan buatan, dan data besar.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai

Bersatu.AI

Membuat Full Body Deepfake dengan Menggabungkan Beberapa NeRF

Kecerdasan Buatan