potongan RigNeRF: Metode Deepfakes Baru yang Menggunakan Neural Radiance Fields - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

RigNeRF: Metode Deepfakes Baru yang Menggunakan Neural Radiance Fields

mm
Updated on

Penelitian baru yang dikembangkan di Adobe menawarkan metode deepfakes pertama yang layak dan efektif berdasarkan Bidang Cahaya Saraf (NeRF) – mungkin inovasi nyata pertama dalam arsitektur atau pendekatan dalam lima tahun sejak munculnya deepfake pada tahun 2017.

Caranya, berjudul RigNeRF, menggunakan Model wajah morphable 3D (3DMMs) sebagai interstitial layer perantara antara input yang diinginkan (yaitu identitas yang akan dikenakan ke NeRF render) dan ruang saraf, sebuah metode yang telah diadopsi secara luas dalam beberapa tahun terakhir oleh pendekatan sintesis wajah Generative Adversarial Network (GAN), belum ada yang menghasilkan kerangka kerja pengganti wajah yang fungsional dan berguna untuk video.

Dari bahan tambahan untuk makalah baru, kami melihat model wajah 3D yang dapat diubah (3DMM) bertindak sebagai antarmuka antara 70 detik rekaman nyata yang diambil dari ponsel cerdas, yang merupakan kumpulan data pelatihan, dan parameter yang biasanya tabah dari Neural Radiance Field visualisasi. Untuk versi resolusi tinggi dari klip ini, bersama dengan banyak lainnya, lihat halaman proyek, atau video tersemat di akhir artikel ini. Sumber: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

Tidak seperti video deepfake tradisional, sama sekali tidak ada konten bergerak yang digambarkan di sini yang 'nyata', melainkan ruang saraf yang dapat dijelajahi yang dilatih dengan rekaman singkat. Di sebelah kanan kita melihat model wajah morphable 3D (3DMM) bertindak sebagai antarmuka antara manipulasi yang diinginkan ('senyum', 'lihat ke kiri', 'lihat ke atas', dll.) dan parameter Neural Radiance Field yang biasanya sulit diselesaikan visualisasi. Untuk versi resolusi tinggi dari klip ini, beserta contoh lainnya, lihat halaman proyek, atau video tersemat di bagian akhir artikel ini. Sumber: https://shahrukhathar.github.io/2022/06/06/RigNeRF.html

3DMM adalah model wajah CGI yang efektif, parameternya dapat diadaptasi ke sistem sintesis gambar yang lebih abstrak, seperti NeRF dan GAN, yang sulit dikendalikan.

Apa yang Anda lihat pada gambar di atas (gambar tengah, pria berbaju biru), serta gambar tepat di bawah (gambar kiri, pria berbaju biru), bukanlah video 'asli' yang berisi tambalan kecil ' wajah palsu telah ditumpangkan, tetapi adegan yang sepenuhnya disintesis yang ada semata-mata sebagai rendering saraf volumetrik – termasuk tubuh dan latar belakang:

Dalam contoh langsung di atas, video kehidupan nyata di sebelah kanan (wanita berbaju merah) digunakan untuk 'mewayatkan' identitas yang ditangkap (pria berbaju biru) di sebelah kiri melalui RigNeRF, yang (klaim penulis) adalah yang pertama Sistem berbasis NeRF untuk mencapai pemisahan pose dan ekspresi sambil mampu melakukan sintesis tampilan baru.

Sosok laki-laki di sebelah kiri pada gambar di atas 'ditangkap' dari video smartphone berdurasi 70 detik, dan data input (termasuk seluruh informasi adegan) kemudian dilatih di 4 GPU V100 untuk mendapatkan adegan tersebut.

Karena rig parametrik gaya 3DMM juga tersedia sebagai proksi CGI parametrik seluruh tubuh (bukan hanya face rig), RigNeRF berpotensi membuka kemungkinan full-body deepfake di mana gerakan, tekstur, dan ekspresi manusia yang nyata diteruskan ke lapisan parametrik berbasis CGI, yang kemudian akan menerjemahkan aksi dan ekspresi ke dalam lingkungan dan video NeRF yang dirender .

Adapun RigNeRF – apakah itu memenuhi syarat sebagai metode deepfake dalam pengertian saat ini bahwa tajuk utama memahami istilah tersebut? Atau apakah itu hanya semi-pincang juga-lari ke DeepFaceLab dan sistem deepfake autoencoder era 2017 padat karya lainnya?

Peneliti makalah baru tidak ambigu dalam hal ini:

'Menjadi metode yang mampu menghidupkan kembali wajah, RigNeRF rentan disalahgunakan oleh aktor jahat untuk menghasilkan pemalsuan yang dalam.'

Baru kertas berjudul RigNeRF: Potret 3D Neural yang Dapat Dikontrol Sepenuhnya, dan berasal dari ShahRukh Atha dari Stonybrook University, magang di Adobe selama pengembangan RigNeRF, dan empat penulis lain dari Adobe Research.

Di luar Deepfakes Berbasis Autoencoder

Mayoritas deepfake viral yang menjadi berita utama selama beberapa tahun terakhir diproduksi oleh penyandi otomatis-sistem berbasis, berasal dari kode yang diterbitkan di subreddit r/deepfakes yang segera dilarang pada tahun 2017 – meskipun tidak sebelum disalin ke GitHub, di mana saat ini telah bercabang lebih dari seribu kali, paling tidak menjadi yang populer (jika kontroversial) Lab Wajah Dalam distribusi, dan juga Tukar Muka proyek.

Selain GAN dan NeRF, framework autoencoder juga bereksperimen dengan 3DMM sebagai 'pedoman' untuk framework sintesis wajah yang lebih baik. Contoh dari ini adalah proyek HifiFace dari Juli 2021. Namun, hingga saat ini, tidak ada inisiatif yang berguna atau populer yang dikembangkan dari pendekatan ini.

Data untuk adegan RigNeRF diperoleh dengan merekam video singkat smartphone. Untuk proyek tersebut, peneliti RigNeRF menggunakan iPhone XR atau iPhone 12 untuk semua percobaan. Untuk paruh pertama pengambilan, subjek diminta untuk melakukan berbagai macam ekspresi wajah dan ucapan sambil menjaga kepala tetap diam saat kamera bergerak di sekitar mereka.

Untuk paruh kedua pengambilan, kamera mempertahankan posisi tetap sementara subjek harus menggerakkan kepala sambil menunjukkan rentang ekspresi yang luas. Footage berdurasi 40-70 detik yang dihasilkan (sekitar 1200-2100 frame) mewakili seluruh kumpulan data yang akan digunakan untuk melatih model.

Mengurangi Pengumpulan Data

Sebaliknya, sistem autoencoder seperti DeepFaceLab memerlukan pengumpulan dan kurasi yang relatif melelahkan dari ribuan foto yang beragam, sering kali diambil dari video YouTube dan saluran media sosial lainnya, serta dari film (dalam kasus deepfake selebriti).

Model autoencoder terlatih yang dihasilkan seringkali dimaksudkan untuk digunakan dalam berbagai situasi. Namun, deepfaker 'selebriti' yang paling teliti dapat melatih seluruh model dari awal untuk satu video, terlepas dari kenyataan bahwa pelatihan dapat memakan waktu seminggu atau lebih.

Terlepas dari catatan peringatan dari para peneliti makalah baru, 'tambal sulam' dan kumpulan data yang dikumpulkan secara luas yang mendukung pornografi AI serta 'pembuatan ulang deepfake' YouTube/TikTok yang populer tampaknya tidak mungkin menghasilkan hasil yang dapat diterima dan konsisten dalam sistem deepfake seperti RigNeRF, yang memiliki metodologi khusus adegan. Mengingat pembatasan pada pengambilan data yang diuraikan dalam karya baru, ini bisa membuktikan, sampai batas tertentu, perlindungan tambahan terhadap penyalahgunaan identitas oleh deepfaker berbahaya.

Mengadaptasi NeRF ke Video Deepfake

NeRF adalah metode berbasis fotogrametri di mana sejumlah kecil gambar sumber yang diambil dari berbagai sudut pandang dirangkai menjadi ruang saraf 3D yang dapat dijelajahi. Pendekatan ini menjadi terkenal awal tahun ini ketika NVIDIA meluncurkannya NeRF Instan sistem, yang mampu memotong waktu pelatihan selangit untuk NeRF menjadi beberapa menit, atau bahkan detik:

NeRF Instan. Sumber: https://www.youtube.com/watch?v=DJ2hcC1orc4

Adegan Neural Radiance Field yang dihasilkan pada dasarnya adalah lingkungan statis yang dapat dieksplorasi, tetapi memang begitu sulit untuk diedit. Para peneliti mencatat bahwa dua inisiatif berbasis NeRF sebelumnya – HiperNeRF + E/P dan NerFACE – telah mencoba sintesis video wajah, dan (tampaknya demi kelengkapan dan ketekunan) telah menetapkan RigNeRF terhadap dua kerangka kerja ini dalam putaran pengujian:

NeRF Instan. Sumber: https://www.youtube.com/watch?v=DJ2hcC1orc4

Perbandingan kualitatif antara RigNeRF, HyperNeRF, dan NerFACE. Lihat video sumber tertaut dan PDF untuk versi kualitas lebih tinggi. Sumber gambar statis: https://arxiv.org/pdf/2012.03065.pdf

Perbandingan kualitatif antara RigNeRF, HyperNeRF, dan NerFACE. Lihat video sumber tertaut dan PDF untuk versi kualitas lebih tinggi. Sumber gambar statis: https://arxiv.org/pdf/2012.03065.pdf

Namun, dalam kasus ini hasilnya, yang mendukung RigNeRF, cukup anomali, karena dua alasan: pertama, penulis mengamati bahwa 'tidak ada pekerjaan untuk perbandingan apel-ke-apel'; kedua, ini mengharuskan pembatasan kemampuan RigNeRF untuk setidaknya sebagian sesuai dengan fungsi yang lebih terbatas dari sistem sebelumnya.

Karena hasilnya bukan peningkatan tambahan pada pekerjaan sebelumnya, melainkan mewakili 'terobosan' dalam kemampuan edit dan utilitas NeRF, kami akan mengesampingkan pengujian, dan sebagai gantinya melihat apa yang dilakukan RigNeRF secara berbeda dari pendahulunya.

Kekuatan Gabungan

Keterbatasan utama NerFACE, yang dapat membuat kontrol pose/ekspresi di lingkungan NeRF, adalah asumsi bahwa cuplikan sumber akan ditangkap dengan kamera statis. Ini secara efektif berarti bahwa ia tidak dapat menghasilkan pandangan baru yang melampaui batasan tangkapannya. Ini menghasilkan sistem yang dapat membuat 'potret bergerak', tetapi tidak cocok untuk video bergaya deepfake.

HyperNeRF, di sisi lain, meskipun mampu menghasilkan tampilan baru dan hiper-nyata, tidak memiliki sarana yang memungkinkannya mengubah pose kepala atau ekspresi wajah, yang sekali lagi tidak menghasilkan pesaing apa pun untuk deepfake berbasis autoencoder.

RigNeRF mampu menggabungkan dua fungsi yang terisolasi ini dengan membuat 'ruang kanonik', sebuah garis dasar standar dari mana penyimpangan dan deformasi dapat diberlakukan melalui masukan dari modul 3DMM.

Membuat 'ruang kanonik' (tanpa pose, tanpa ekspresi), di mana deformasi (yaitu pose dan ekspresi) yang dihasilkan melalui 3DMM dapat bekerja.

Membuat 'ruang kanonik' (tanpa pose, tanpa ekspresi), di mana deformasi (yaitu pose dan ekspresi) yang dihasilkan melalui 3DMM dapat bekerja.

Karena sistem 3DMM tidak akan sama persis dengan subjek yang ditangkap, penting untuk mengompensasi hal ini dalam proses. RigNeRF menyelesaikan ini dengan bidang deformasi sebelumnya yang dihitung dari a Perceptron berlapis-lapis (MLP) berasal dari rekaman sumber.

Parameter kamera yang diperlukan untuk menghitung deformasi diperoleh melalui KOLOMAP, sedangkan ekspresi dan parameter bentuk untuk setiap frame diperoleh dari DARI ITU.

Penentuan posisi lebih dioptimalkan melalui pemasangan tengara dan parameter kamera COLMAP, dan, karena pembatasan sumber daya komputasi, output video diturunkan ke resolusi 256×256 untuk pelatihan (proses penyusutan yang dibatasi perangkat keras yang juga mengganggu adegan deepfaking autoencoder).

Setelah itu, jaringan deformasi dilatih pada empat V100 – perangkat keras tangguh yang kemungkinan besar tidak akan bisa dijangkau oleh para penggemar biasa (namun, jika menyangkut pelatihan pembelajaran mesin, sering kali kita bisa menukar bobot dengan waktu, dan menerima saja model tersebut. pelatihan akan memakan waktu berhari-hari atau bahkan berminggu-minggu).

Kesimpulannya, para peneliti menyatakan:

'Berbeda dengan metode lain, RigNeRF, berkat penggunaan modul deformasi yang dipandu 3DMM, mampu memodelkan pose kepala, ekspresi wajah, dan pemandangan potret 3D penuh dengan fidelitas tinggi, sehingga memberikan rekonstruksi yang lebih baik dengan detail yang tajam.'

Lihat video tersemat di bawah ini untuk detail lebih lanjut dan rekaman hasil.

RigNeRF: Potret 3D Neural yang Dapat Dikontrol Sepenuhnya

 

 

Pertama kali diterbitkan 15 Juni 2022.