Kecerdasan buatan

The New CGI: Membuat Lingkungan Saraf Dengan Block-NeRF

Published February 11, 2022

Updated April 28, 2026

Martin Anderson

Bidang Radiasi Saraf (NeRF) memungkinkan objek untuk dibuat kembali dan dijelajahi di dalam jaringan saraf menggunakan hanya beberapa foto dari sudut pandang yang berbeda sebagai input, tanpa kompleksitas dan biaya metode CGI tradisional.

Namun, proses ini memerlukan komputasi yang mahal, yang awalnya membatasi lingkungan NeRF pada model meja. Meskipun demikian, NeRF telah diadopsi oleh komunitas penelitian yang dedikasi, bahkan giat, yang selama setahun terakhir memungkinkan rekonstruksi eksterior serta manusia saraf yang dapat diedit, serta banyak inovasi lainnya.

Sekarang, sebuah inisiatif penelitian baru, yang melibatkan partisipasi Google Research, mengakui kemungkinan batas keras pada optimasi NeRF, dan berkonsentrasi pada menyatukan lingkungan NeRF untuk membuat lingkungan tetangga on-demand yang terdiri dari beberapa instance NeRF yang terkordinasi.

Sudut pandang dari jaringan Block-NeRF yang terhubung. Lihat video yang disematkan di akhir artikel, dan juga tautan sumber untuk video suplemen beresolusi tinggi. Sumber: https://waymo.com/research/block-nerf/

Mengarahkan jaringan NeRF yang terhubung secara efektif membuat NeRF scalable dan modular, menyediakan lingkungan yang dapat dinavigasi yang memuat bagian tambahan dari lingkungan tetangga saat diperlukan, dengan cara yang mirip dengan metode optimasi sumber daya videogame, di mana apa yang ada di sekitar sudut jarang dimuat sampai jelas bahwa lingkungan tersebut akan diperlukan.

Dalam upaya besar untuk memisahkan aspek-aspek terpisah seperti cuaca dan jam, Block-NeRF juga memperkenalkan ‘kode penampilan’, memungkinkan perubahan dinamis waktu hari:

Mengubah waktu hari dengan Block-NeRF. Lihat video yang disematkan di akhir artikel, dan juga tautan sumber untuk video suplemen beresolusi tinggi. Sumber: https://waymo.com/research/block-nerf/

Makalah baru tersebut menunjukkan bahwa optimasi NeRF mendekati batas termalnya, dan bahwa penerapan lingkungan radiasi saraf di realitas virtual, jenis interaktif lainnya, dan VFX, kemungkinan akan bergantung pada operasi paralel, mirip dengan cara Moore’s Law akhirnya digantikan oleh arsitektur multi-inti, optimasi paralel, dan pendekatan caching baru.

Penulis makalah (berjudul Block-NeRF: Scalable Large Scene Neural View Synthesis) menggunakan 2,8 juta gambar untuk membuat adegan saraf terbesar yang pernah dicoba – sebuah seri lingkungan tetangga di San Francisco.

Block-NeRF menavigasi Katedral Grace di San Francisco. Lihat video yang disematkan di akhir artikel, dan juga tautan sumber untuk video suplemen beresolusi tinggi. Sumber: https://waymo.com/research/block-nerf/

Penulis utama makalah, yang mewakili UC Berkley, adalah Matthew Tancik, penemu Neural Radiance Fields, yang melakukan pekerjaan ini saat menjadi magang di perusahaan pengembangan teknologi kendaraan otonom Waymo, tuan rumah halaman proyek. Inisiatif ini juga menawarkan video ringkasan di YouTube, disematkan di akhir artikel, serta banyak contoh video pendukung dan suplemen di halaman proyek.

Makalah ini ditulis bersama oleh beberapa penemu NeRF lainnya, termasuk Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research), dan Jonathan T. Barron (Google Research). Kontributor lainnya adalah Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar, dan Vincent Casser, semua dari Waymo.

Block-NeRF dikembangkan terutama sebagai penelitian tentang lingkungan virtual untuk sistem kendaraan otonom, termasuk mobil dan drone yang dapat mengemudi sendiri.

Jalan Embarcadero dari sudut pandang 180 derajat di Block-NeRF. Lihat video yang disematkan di akhir artikel, dan juga tautan sumber untuk video suplemen beresolusi tinggi. Sumber: https://waymo.com/research/block-nerf/

Faktor lain yang dapat diubah secara dinamis di Block-NeRF adalah aperture lensa (lihat gambar di atas), cuaca, dan musim.

Namun, mengubah musim dapat menyebabkan perubahan terkait di lingkungan, seperti pohon tanpa daun, yang memerlukan dataset input yang lebih ekstensif daripada yang dibangun untuk Block-NeRF. Makalah tersebut menyatakan:

‘[Daun] berubah musim dan bergerak di angin; ini menghasilkan representasi kabur dari pohon dan tanaman. Demikian pula, inkonsistensi temporal dalam data pelatihan, seperti pekerjaan konstruksi, tidak secara otomatis ditangani dan memerlukan pelatihan ulang manual dari blok yang terkena.’

Rendering Apokaliptik

Jika Anda melihat video yang disematkan di akhir, Anda akan melihat Walking Dead-style kesunyian di lingkungan Block-NeRF yang terhubung. Untuk berbagai alasan, tidak hanya untuk menyediakan lingkungan starter yang disimulasikan untuk sistem robot, mobil, pejalan kaki, dan objek sementara lainnya, sengaja dihapus dari materi sumber, tetapi ini telah meninggalkan beberapa artifact di belakang, seperti bayangan kendaraan yang ‘dihapus’:

Bayangan hantu dari mobil yang dihapus. Sumber: https://waymo.com/research/block-nerf/

Untuk mengakomodasi berbagai lingkungan pencahayaan seperti siang atau malam, jaringan telah dilatih untuk mengincorporasi aliran data yang terpisah yang terkait dengan setiap kondisi yang diinginkan. Di gambar di bawah, kita melihat aliran yang berkontribusi untuk footage Block-NeRF dari jalan raya di siang dan malam:

Faset on-demand di balik render Block-NeRF yang tampaknya ‘baked’, memungkinkan pengguna untuk mengaktifkan malam sesuai kebutuhan. Sumber: https://waymo.com/research/block-nerf/

Pertimbangan Lingkungan dan Etika

Selama beberapa tahun terakhir, pengajuan penelitian telah mulai menyertakan catatan dan penafian tentang kemungkinan dampak etika dan lingkungan dari pekerjaan yang diusulkan. Dalam kasus Block-NeRF, penulis mencatat bahwa kebutuhan energi sangat tinggi, dan bahwa menghitung objek sementara jangka pendek dan panjang (seperti daun di pohon dan pekerjaan konstruksi, masing-masing) akan memerlukan pemindaian ulang data sumber secara teratur, yang akan meningkatkan ‘pengawasan’ di area perkotaan yang model sarafnya perlu diperbarui.

Penulis menyatakan:

‘Tergantung pada skala ini diterapkan, kebutuhan komputasi dapat menyebabkan atau memperburuk kerusakan lingkungan jika energi yang digunakan untuk komputasi menyebabkan peningkatan emisi karbon. Seperti yang disebutkan dalam makalah, kami memandang pekerjaan lebih lanjut, seperti metode caching, yang dapat mengurangi kebutuhan komputasi dan dengan demikian mengurangi kerusakan lingkungan.’

Mengenai pengawasan, mereka melanjutkan:

‘Aplikasi masa depan dari pekerjaan ini mungkin memerlukan upaya pengumpulan data yang lebih besar, yang meningkatkan kekhawatiran privasi lebih lanjut. Sementara gambar detail dari jalan umum sudah dapat ditemukan di layanan seperti Google Street View, metode kami dapat mempromosikan pemindaian ulang lingkungan yang lebih sering. Beberapa perusahaan di ruang kendaraan otonom dikenal melakukan pemindaian area secara teratur menggunakan armada kendaraan mereka; namun beberapa mungkin hanya menggunakan pemindaian LiDAR yang kurang sensitif daripada mengumpulkan gambar kamera.’

Metode dan Solusi

Lingkungan NeRF individual dapat diskalakan ke bawah, secara teori, ke ukuran apa pun sebelum disatukan menjadi array Block-NeRF. Ini membuka jalan untuk inklusi granular konten yang pasti berubah, seperti pohon, dan untuk identifikasi dan pengelolaan pekerjaan konstruksi, yang mungkin bertahan dalam waktu selama bertahun-tahun, tetapi kemungkinan akan berkembang dan akhirnya menjadi entitas yang konsisten.

Namun, dalam penelitian awal ini, blok NeRF diskrit terbatas pada blok kota sebenarnya dari setiap lingkungan yang digambarkan, dijahit bersama, dengan tumpang tindih 50% untuk memastikan transisi konsisten dari satu blok ke blok lainnya saat pengguna menavigasi jaringan.

Setiap blok dibatasi oleh filter geografis. Penulis mencatat bahwa bagian dari kerangka kerja ini terbuka untuk otomatisasi, dan, secara mengejutkan, bahwa implementasi mereka bergantung pada OpenStreetMap bukan Google Maps.

Radius persimpangan untuk ruang render ‘aktif’ Block-NeRF. Sumber: Waymo

Blok dilatih secara paralel, dengan blok yang diperlukan dirender secara on-demand. Kode penampilan inovatif juga diorkestrasi di antara set blok, memastikan bahwa satu tidak melakukan perjalanan secara tidak terduga ke cuaca, waktu hari, atau bahkan musim yang berbeda.

Segmen Block-NeRF dikondisikan pada eksposur dengan cara yang analog dengan High Dynamic Range (HDR) dalam bahan sumber fotografi. Sumber: Waymo

Kemampuan untuk mengubah pencahayaan dan variabel lingkungan lainnya berasal dari Optimasi Laten Generatif yang diperkenalkan di NeRF di Alam (NeRF-W), yang sendiri berasal dari metode yang diperkenalkan dalam makalah penelitian Facebook AI 2019 Optimizing the Latent Space of Generative Networks.

Model segmentasi semantik yang berasal dari Panoptic-DeepLab pada tahun 2020 digunakan untuk memblokir elemen yang tidak diinginkan (seperti orang dan kendaraan)

Data

Menemukan bahwa dataset perkotaan umum seperti CityScapes tidak sesuai untuk pekerjaan detail yang intensif seperti Block-NeRF, peneliti membuat dataset mereka sendiri. Data gambar dikumpulkan dari 12 kamera yang mencakup sudut pandang 360 derajat, dengan footage diambil pada 10 Hz dengan nilai eksposur skalar.

Lingkungan tetangga San Francisco yang diliput adalah Alamo Square dan Mission Bay. Untuk pengambilan Alamo Square, area sekitar 960m x 570m diliput, dibagi menjadi 35 instance Block-NeRF, masing-masing dilatih pada data dari 38 hingga 48 pengambilan data yang berbeda, dengan waktu pengemudi total 18-28 menit.

Jumlah gambar yang berkontribusi untuk setiap Block-NeRF berkisar antara 64.575 hingga 108.216, dan waktu pengemudi total yang diwakili untuk area ini adalah 13,4 jam di seluruh 1.330 pengambilan data yang berbeda. Ini menghasilkan 2.818.745 gambar pelatihan hanya untuk Alamo Square. Lihat makalah untuk detail lebih lanjut tentang pengumpulan data untuk Mission Bay.

Dipublikasikan pertama kali pada 11 Februari 2022.

Martin Anderson

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.

Unite.AI

The New CGI: Membuat Lingkungan Saraf Dengan Block-NeRF

Rendering Apokaliptik

Pertimbangan Lingkungan dan Etika

Metode dan Solusi

Data

You may like