Kecerdasan buatan

ST-NeRF: Komposisi dan Pengeditan untuk Sintesis Video

Published May 7, 2021

Updated April 5, 2026

Martin Anderson

Konsorsium penelitian Tiongkok telah mengembangkan teknik untuk membawa kemampuan pengeditan dan komposisi ke salah satu sektor penelitian sintesis gambar terpanas tahun lalu – Neural Radiance Fields (NeRF). Sistem ini dinamakan ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).

Apa yang tampak seperti gerakan kamera fisik di gambar di bawah sebenarnya hanya pengguna ‘menggulir’ melalui sudut pandang pada konten video yang ada di ruang 4D. POV tidak terkunci pada kinerja orang-orang yang digambarkan dalam video, yang gerakannya dapat dilihat dari bagian mana pun dari radius 180 derajat.

ST-NeRF

Setiap fasad dalam video adalah elemen yang ditangkap secara terpisah, dikomposisi bersama menjadi adegan yang kohesif yang dapat dieksplorasi secara dinamis.

Fasad dapat dengan bebas diduplikasi dalam adegan, atau diubah ukurannya:

ST-NeRF

Selain itu, perilaku temporal dari setiap fasad dapat dengan mudah diubah, diperlambat, dijalankan mundur, atau dimanipulasi dengan berbagai cara, membuka jalan untuk arsitektur filter dan tingkat interpretasi yang sangat tinggi.

Dua fasad NeRF terpisah berjalan pada kecepatan yang berbeda dalam adegan yang sama. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Tidak perlu melakukan rotoskopi pada pemain atau lingkungan, atau memiliki pemain melakukan gerakan mereka secara buta dan di luar konteks adegan yang diinginkan. Sebaliknya, footage direkam secara alami melalui array 16 kamera video yang menutupi 180 derajat:

16 kamera ST-NeRF

Tiga elemen yang digambarkan di atas, dua orang dan lingkungan, adalah terpisah, dan hanya digarisbawahi untuk tujuan ilustrasi. Setiap elemen dapat dipertukarkan, dan setiap elemen dapat dimasukkan ke dalam adegan pada titik yang lebih awal atau lebih akhir dalam timeline capture individu.

ST-NeRF adalah inovasi pada penelitian Neural Radiance Fields (NeRF), sebuah kerangka kerja pembelajaran mesin yang menyintesis penangkapan sudut pandang multiple menjadi ruang virtual yang dapat dinavigasi dengan pelatihan yang ekstensif (meskipun penangkapan sudut pandang tunggal juga merupakan sub-sektor penelitian NeRF).

Neural Radiance Fields bekerja dengan mengumpulkan multiple capture viewpoints menjadi satu ruang 3D yang kohesif dan dapat dinavigasi, dengan celah antara cakupan yang diperkirakan dan dirender oleh jaringan neural. Di mana video (bukan gambar diam) digunakan, sumber daya rendering yang dibutuhkan seringkali sangat besar. Source: https://www.matthewtancik.com/nerf

Minat pada NeRF telah menjadi intens dalam sembilan bulan terakhir, dan daftar yang dipelihara Reddit list dari kertas penelitian turunan atau eksplorasi NeRF saat ini mencantumkan enam puluh proyek.

Beberapa dari banyak cabang dari kertas asli NeRF. Source: https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

Pelatihan yang Terjangkau

Kertas ini adalah kolaborasi antara peneliti di Shanghai Tech University dan DGene Digital Technology, dan telah diterima dengan antusias di Open Review.

ST-NeRF menawarkan sejumlah inovasi atas inisiatif sebelumnya dalam ruang navigasi video yang dihasilkan ML. Tidak kurang, itu mencapai tingkat realisme yang tinggi dengan hanya 16 kamera. Meskipun Facebook’s DyNeRF menggunakan hanya dua kamera lebih dari ini, itu menawarkan busur navigasi yang jauh lebih terbatas.

Contoh lingkungan Facebook’s DyNeRF, dengan bidang gerak yang lebih terbatas, dan lebih banyak kamera per kaki persegi yang dibutuhkan untuk merekonstruksi adegan. Source: https://neural-3d-video.github.io

Selain kekurangan kemampuan untuk mengedit dan mengkomposisi fasad individual, DyNeRF sangat mahal dalam hal sumber daya komputasi. Sebaliknya, peneliti Tiongkok menyatakan bahwa biaya pelatihan untuk data mereka berkisar antara $900-$3,000, dibandingkan dengan $30,000 untuk model generasi video state-of-the-art DVDGAN, dan sistem intensif seperti DyNeRF.

Pengulas juga mencatat bahwa ST-NeRF membuat inovasi besar dalam memisahkan proses pembelajaran gerak dari proses sintesis gambar. Pemisahan ini memungkinkan pengeditan dan komposisi, dengan pendekatan sebelumnya yang terbatas dan linier dibandingkan.

Meskipun 16 kamera adalah array yang sangat terbatas untuk setengah lingkaran penuh, peneliti berharap untuk mengurangi jumlah ini lebih lanjut dalam pekerjaan selanjutnya melalui penggunaan latar belakang statis yang telah dipindai sebelumnya, dan pendekatan pemodelan adegan yang lebih berbasis data. Mereka juga berharap untuk mengintegrasikan kemampuan re-lighting, sebuah inovasi baru dalam penelitian NeRF.

Mengatasi Keterbatasan ST-NeRF

Dalam konteks kertas penelitian akademis CS yang cenderung membuang kegunaan sebenarnya dari sistem baru di paragraf akhir, bahkan keterbatasan yang diakui oleh peneliti untuk ST-NeRF adalah tidak biasa.

Mereka mengamati bahwa sistem tidak dapat saat ini mengindividuasi dan merender objek tertentu dalam adegan, karena orang-orang dalam footage dipecah menjadi entitas individual melalui sistem yang dirancang untuk mengenali manusia dan tidak objek – masalah yang tampaknya mudah diselesaikan dengan YOLO dan kerangka kerja serupa, dengan pekerjaan yang lebih sulit dari ekstraksi video manusia sudah diselesaikan.

Meskipun peneliti mencatat bahwa saat ini tidak mungkin untuk menghasilkan gerakan lambat, tampaknya tidak ada yang mencegah implementasi ini menggunakan inovasi yang ada dalam interpolasi bingkai seperti DAIN dan RIFE.

Seperti semua implementasi NeRF, dan di banyak sektor lain penelitian penglihatan komputer, ST-NeRF dapat gagal dalam kasus oklusi yang parah, di mana subjek sementara terhalang oleh orang lain atau objek, dan mungkin sulit untuk terus melacak atau mereakuisisi dengan akurat setelahnya. Seperti di tempat lain, kesulitan ini mungkin harus menunggu solusi hulu. Sementara itu, peneliti mengakui bahwa intervensi manual diperlukan dalam bingkai yang teroklusi.

Akhirnya, peneliti mengamati bahwa prosedur segmentasi manusia saat ini bergantung pada perbedaan warna, yang dapat menyebabkan penggabungan tidak sengaja dua orang menjadi satu blok segmentasi – hambatan yang tidak terbatas pada ST-NeRF, tetapi intrinsik pada perpustakaan yang digunakan, dan yang mungkin dapat diselesaikan oleh analisis aliran optik dan teknik lain yang muncul.

Dipublikasikan pertama kali 7 Mei 2021.