Terhubung dengan kami

Kecerdasan Buatan

Menuju Manusia AI Real-Time Dengan Neural Lumigraph Rendering

mm
Rendering Neural Lumigraph

Terlepas dari gelombang minat saat ini di Neural Radiance Fields (NeRF), sebuah teknologi yang mampu menciptakan lingkungan dan objek 3D yang dihasilkan oleh AI, pendekatan baru untuk teknologi sintesis gambar ini masih membutuhkan banyak waktu pelatihan, dan tidak memiliki implementasi yang memungkinkan antarmuka real-time yang sangat responsif.

Namun, kolaborasi antara beberapa nama yang mengesankan di industri dan akademisi menawarkan pandangan baru untuk tantangan ini (umumnya dikenal sebagai Novel View Synthesis, atau NVS).

Penelitian kertas, berjudul Rendering Neural Lumigraph, mengklaim peningkatan pada kecanggihan sekitar dua kali lipat, yang mewakili beberapa langkah menuju rendering CG real-time melalui jalur pembelajaran mesin.

Neural Lumigraph Rendering (kanan) menawarkan resolusi artefak pencampuran yang lebih baik, dan penanganan oklusi yang lebih baik dibandingkan metode sebelumnya. Sumber: https://www.youtube.com/watch?v=maVF-7x9644

Neural Lumigraph Rendering (kanan) menawarkan resolusi artefak pencampuran yang lebih baik, dan penanganan oklusi yang lebih baik dibandingkan metode sebelumnya. sumber.

Meskipun kredit untuk makalah tersebut hanya mengutip Universitas Stanford dan perusahaan teknologi tampilan holografik Raxium (saat ini beroperasi di mode siluman), kontributornya mencakup pembelajaran mesin utama arsitek di Google, komputer ilmuwan di Adobe, dan CTO at File Cerita (yang membuat berita utama baru-baru ini dengan versi AI dari William Shatner).

Sehubungan dengan blitz publisitas Shatner baru-baru ini, StoryFile tampaknya menggunakan NLR dalam proses barunya untuk pembuatan entitas interaktif yang dihasilkan AI berdasarkan karakteristik dan narasi individu.

William Shatner untuk melestarikan hidupnya melalui AI

StoryFile membayangkan penggunaan teknologi ini dalam tampilan museum, narasi interaktif online, tampilan holografik, augmented reality (AR), dan dokumentasi warisan – dan juga tampaknya mengincar aplikasi baru NLR yang potensial dalam wawancara rekrutmen dan aplikasi kencan virtual:

Penggunaan yang diusulkan dari video online oleh StoryFile. Sumber: https://www.youtube.com/watch?v=2K9J6q5DqRc

Penggunaan yang diusulkan dari video online oleh StoryFile. Sumber: https://www.youtube.com/watch?v=2K9J6q5DqRc

Pengambilan Volumetrik Untuk Antarmuka Sintesis Tampilan Baru Dan Video

Prinsip penangkapan volumetrik, di berbagai kertas yang terakumulasi pada subjek, adalah ide untuk mengambil gambar diam atau video dari suatu subjek, dan menggunakan pembelajaran mesin untuk 'mengisi' sudut pandang yang tidak tercakup oleh dokumen asli. deretan kamera.

Sumber: https://research.fb.com/wp-content/uploads/2019/06/Neural-Volumes-Learning-Dynamic-Renderable-Volumes-from-Images.pdf

Sumber: https://research.fb.com/wp-content/uploads/2019/06/Neural-Volumes-Learning-Dynamic-Renderable-Volumes-from-Images.pdf

Pada gambar di atas, diambil dari penelitian AI 2019 AI Facebook (lihat di bawah), kita melihat empat tahap pengambilan volumetrik: beberapa kamera mendapatkan gambar/rekaman; arsitektur encoder/decoder (atau arsitektur lain) menghitung dan menggabungkan relativitas tampilan; algoritma ray-marching menghitung voxel (atau satuan geometri spasial XYZ lainnya) dari setiap titik dalam ruang volumetrik; dan (di sebagian besar makalah terbaru) pelatihan terjadi untuk mensintesis entitas lengkap yang dapat dimanipulasi secara real-time.

Fase pelatihan yang seringkali ekstensif dan padat data inilah yang, hingga saat ini, mempertahankan sintesis tampilan baru di luar ranah penangkapan waktu nyata atau tangkapan yang sangat responsif.

Fakta bahwa Sintesis Tampilan Novel membuat peta 3D lengkap dari ruang volumetrik berarti bahwa relatif sepele untuk menyatukan titik-titik ini menjadi jala yang dihasilkan komputer tradisional, secara efektif menangkap dan mengartikulasikan manusia CGI (atau objek lain yang relatif terbatas) di- lalat.

Pendekatan yang menggunakan NeRF bergantung pada awan titik dan peta kedalaman untuk menghasilkan interpolasi antara titik pandang yang jarang dari perangkat penangkap:

NeRF dapat menghasilkan kedalaman volumetrik melalui perhitungan peta kedalaman, daripada menghasilkan jerat CG. Sumber: https://www.youtube.com/watch?v=JuH79E8rdKc

NeRF dapat menghasilkan kedalaman volumetrik melalui perhitungan peta kedalaman, daripada menghasilkan jerat CG. Sumber: https://www.youtube.com/watch?v=JuH79E8rdKc

Meskipun NeRF adalah mampu menghitung jaring, sebagian besar implementasi tidak menggunakan ini untuk menghasilkan adegan volumetrik.

Sebaliknya, Renderer Diferensial Implisit (IDR) mendekati, diterbitkan oleh Weizmann Institute of Science pada Oktober 2020, bergantung pada pemanfaatan informasi mesh 3D yang dihasilkan secara otomatis dari susunan tangkapan:

Contoh tangkapan IDR berubah menjadi jaring CGI interaktif. Sumber: https://www.youtube.com/watch?v=C55y7RhJ1fE

Contoh tangkapan IDR berubah menjadi jaring CGI interaktif. Sumber: https://www.youtube.com/watch?v=C55y7RhJ1fE

Sementara NeRF tidak memiliki kemampuan IDR untuk estimasi bentuk, IDR tidak dapat menandingi kualitas gambar NeRF, dan keduanya memerlukan sumber daya yang luas untuk melatih dan menyusun (walaupun inovasi terbaru dalam NeRF adalah awal untuk alamat ini).

Rig kamera khusus NLR menampilkan 16 kamera GoPro HERO7 dan 6 kamera Back-Bone H7PRO pusat. Untuk rendering 'real time', ini beroperasi minimal 60fps. Sumber: https://arxiv.org/pdf/2103.11571.pdf

Rig kamera khusus NLR menampilkan 16 kamera GoPro HERO7 dan 6 kamera Back-Bone H7PRO pusat. Untuk rendering 'real time', ini beroperasi minimal 60fps. Sumber: https://arxiv.org/pdf/2103.11571.pdf

Sebaliknya, Neural Lumigraph Rendering memanfaatkan SIRENE (Jaringan Representasi Sinusoidal) untuk menggabungkan kekuatan dari setiap pendekatan ke dalam kerangka kerjanya sendiri, yang dimaksudkan untuk menghasilkan keluaran yang dapat langsung digunakan dalam saluran grafik real-time yang masih ada.

SIREN telah digunakan untuk implementasi serupa selama setahun terakhir, dan sekarang mewakili a panggilan API populer untuk penggemar Colab di komunitas sintesis gambar; namun, inovasi NLR adalah menerapkan SIREN ke pengawasan gambar multi-tampilan dua dimensi, yang bermasalah karena sejauh mana SIREN menghasilkan keluaran yang terlalu pas daripada keluaran umum.

Setelah mesh CG diekstraksi dari gambar array, mesh di-raster melalui OpenGL, dan posisi verteks mesh dipetakan ke piksel yang sesuai, setelah itu campuran dari berbagai peta yang berkontribusi dihitung.

Jala yang dihasilkan lebih umum dan representatif daripada NeRF (lihat gambar di bawah), memerlukan lebih sedikit perhitungan, dan tidak menerapkan detail berlebihan pada area (seperti kulit wajah halus) yang tidak dapat memanfaatkannya:

Sumber: https://arxiv.org/pdf/2103.11571.pdf

Sumber: https://arxiv.org/pdf/2103.11571.pdf

Sisi negatifnya, NLR belum memiliki kapasitas untuk pencahayaan dinamis atau menyalakan kembali, dan keluaran dibatasi pada peta bayangan dan pertimbangan pencahayaan lainnya yang diperoleh pada saat pengambilan. Para peneliti bermaksud untuk mengatasi hal ini dalam pekerjaan masa depan.

Selain itu, makalah tersebut mengakui bahwa bentuk yang dihasilkan oleh NLR tidak seakurat beberapa pendekatan alternatif, seperti Pilihan Tampilan Pixelwise untuk Stereo Multi-Tampilan Tidak Terstruktur, atau penelitian Institut Weizmann yang disebutkan sebelumnya.

Bangkitnya Sintesis Gambar Volumetrik

Gagasan untuk membuat entitas 3D dari serangkaian foto terbatas dengan jaringan saraf sudah ada sebelum NeRF, dengan makalah visioner kembali ke tahun 2007 atau lebih awal. Pada tahun 2019 departemen penelitian AI Facebook menghasilkan makalah penelitian penting, Volume Neural: Mempelajari Volume Renderable Dinamis dari Gambar, yang pertama kali mengaktifkan antarmuka responsif untuk manusia sintetik yang dihasilkan oleh tangkapan volumetrik berbasis pembelajaran mesin.

Riset Facebook tahun 2019 memungkinkan terciptanya antarmuka pengguna yang responsif untuk orang yang volumetrik. Sumber: https://research.fb.com/publications/neural-volumes-learning-dynamic-renderable-volumes-from-images/

Riset Facebook tahun 2019 memungkinkan terciptanya antarmuka pengguna yang responsif untuk orang yang volumetrik. Sumber: https://research.fb.com/publications/neural-volumes-learning-dynamic-renderable-volumes-from-images/

 

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai