Connect with us

Kecerdasan buatan

Apakah Lingkungan Realitas Tambah Apple dengan HDR Dapat Menyelesaikan Masalah Refleksi untuk Rendering Saraf?

mm

Investasi Apple yang kuat dan jangka panjang dalam teknologi Realitas Tambah dipercepat tahun ini, dengan serangkaian alat pengembang baru untuk menangkap dan mengonversi objek dunia nyata menjadi aspek Realitas Tambah, dan keyakinan industri yang tumbuh bahwa perangkat Realitas Tambah khusus akan segera hadir untuk mendukung pengalaman imersif yang dapat diaktifkan oleh badai penelitian dan pengembangan ini.

Di antara sejumlah informasi baru tentang upaya Apple dalam Realitas Tambah, makalah baru dari divisi penelitian visi komputer perusahaan ini mengungkapkan metode untuk menggunakan gambar panorama 360 derajat dengan rentang dinamis tinggi (HDR) untuk menyediakan refleksi dan pencahayaan spesifik adegan untuk objek yang disuperimposisikan ke dalam adegan Realitas Tambah.

Berjudul Perkiraan Peta Lingkungan HDR untuk Realitas Tambah Waktu Nyata, makalah tersebut, oleh Insinyur Penelitian Visi Komputer Apple Gowri Somanath dan Manajer Pembelajaran Mesin Senior Daniel Kurz, mengusulkan pembuatan dinamis lingkungan HDR waktu nyata melalui jaringan saraf konvolusional (CNN) yang berjalan di lingkungan pemrosesan seluler. Hasilnya adalah objek reflektif dapat secara harfiah memantulkan lingkungan baru yang tidak terlihat sebelumnya sesuai permintaan:

Dalam alur kerja pembuatan objek AR Apple yang baru, sebuah panci tekan diinstansiasi oleh fotogrametri lengkap dengan lingkungannya, menghasilkan refleksi yang meyakinkan yang tidak 'dipanggang' ke dalam tekstur. Sumber: https://docs-assets.developer.apple.com/

Dalam alur kerja pembuatan objek AR Apple yang baru, sebuah panci tekan diinstansiasi oleh fotogrametri lengkap dengan lingkungannya, menghasilkan refleksi yang meyakinkan yang tidak ‘dipanggang’ ke dalam tekstur. Sumber: https://docs-assets.developer.apple.com/

Metode ini, yang debut di CVPR 2021, mengambil snapshot dari seluruh adegan dan menggunakan EnvMapNet CNN untuk memperkirakan gambar panorama HDR yang secara visual lengkap, juga dikenal sebagai ‘penyelidik cahaya’.

Peta hasil mengidentifikasi sumber cahaya yang kuat (ditandai di akhir dalam animasi di atas) dan memperhitungkannya dalam rendering objek virtual.

Arsitektur EnvMapNet, yang memproses citra terbatas menjadi penyelidik cahaya HDR penuh adegan. Sumber: https://arxiv.org/pdf/2011.10687.pdf

Arsitektur EnvMapNet, yang memproses citra terbatas menjadi penyelidik cahaya HDR penuh adegan. Sumber: https://arxiv.org/pdf/2011.10687.pdf

Algoritma dapat berjalan dalam waktu kurang dari 9ms pada iPhone XS, dan mampu rendering objek yang menyadari refleksi secara waktu nyata, dengan kesalahan arah yang berkurang 50% dibandingkan dengan pendekatan sebelumnya dan berbeda untuk masalah ini.

Penyelidik Cahaya

Lingkungan pencahayaan HDR telah menjadi faktor dalam efek visual sejak gambar dengan rentang dinamis tinggi (HDR) menjadi kekuatan yang terkenal melalui kemajuan teknologi komputer pada 1990-an. Siapa pun yang menonton footage di balik layar mungkin telah memperhatikan kehadiran teknisi yang memegang bola cermin di tongkat – gambar referensi yang akan diintegrasikan sebagai faktor lingkungan ketika merekonstruksi elemen CGI untuk adegan.

Sumber: https://beforesandafters.com/

Sumber: https://beforesandafters.com/

Namun, menggunakan bola krom untuk pemetaan refleksi tekstur mendahului 1990-an, kembali ke makalah SIGGRAPH 1983 Pyramidal Parametrics, yang menampilkan gambar diam robot CGI yang reflektif dalam gaya yang akan menjadi terkenal hampir satu dekade kemudian melalui efek ‘logam cair’ dari film James Cameron Terminator 2: Judgement Day.

Lingkungan HDR dalam Rendering Saraf?

Rendering saraf menawarkan kemungkinan untuk menghasilkan video fotorealistik dari input yang sangat jarang, termasuk peta segmentasi kasar.

gambar rendering saraf (2017). Sumber: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis” width=”738″ height=”395″ /> Intel ISL’s segmentasi>gambar rendering saraf (2017). Sumber: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Pada Mei, peneliti Intel mengungkap inisiatif baru dalam sintesis gambar saraf di mana footage dari Grand Theft Auto V digunakan untuk menghasilkan output fotorealistik berdasarkan dataset citra jalan Jerman.

Sumber: https://www.youtube.com/watch?v=0fhUJT21-bs

Sumber: https://www.youtube.com/watch?v=0fhUJT21-bs

Tantangan dalam mengembangkan lingkungan rendering saraf yang dapat disesuaikan dengan berbagai kondisi pencahayaan adalah untuk memisahkan konten objek dari faktor lingkungan yang mempengaruhinya.

Seperti yang berdiri sekarang, refleksi dan efek anisotropik tetap menjadi fungsi dari footage dataset asli (yang membuatnya tidak fleksibel), atau memerlukan skema yang sama seperti yang digunakan oleh peneliti Intel, yang menghasilkan output semi-fotorealistik dari mesin (game) yang kasar, melakukan segmentasi pada itu dan kemudian menerapkan transfer gaya dari dataset ‘dipanggang’ (seperti dataset pandangan jalan Jerman Mapillary yang digunakan dalam penelitian terbaru).

Dalam rendering saraf ini (footage GTA V ada di sebelah kiri), kendaraan di depan menunjukkan kilap yang meyakinkan dan bahkan menyaturasi sensor kamera virtual dengan refleksi dari matahari. Namun, aspek pencahayaan ini berasal dari footage game asli, karena fasad saraf dalam adegan tidak memiliki struktur pencahayaan otonom dan self-referential yang dapat diubah.

Dalam rendering saraf ini (footage GTA V ada di sebelah kiri), kendaraan di depan menunjukkan kilap yang meyakinkan dan bahkan menyaturasi sensor kamera virtual dengan refleksi dari matahari. Namun, aspek pencahayaan ini berasal dari footage game asli, karena fasad saraf dalam adegan tidak memiliki struktur pencahayaan otonom dan self-referential yang dapat diubah.

Refleksi Dalam NeRF

Gambar yang dihasilkan dari Lapangan Radiasi Saraf (NeRF) juga menghadapi tantangan yang sama.

Pendekatan NeRFactor MIT dan Google memisahkan keluar normal, visibilitas (bayangan), tekstur dan albedo lokal, tetapi tidak memantulkan lingkungan, karena ada dalam vakum. Sumber: https://arxiv.org/pdf/2106.01970.pdf

Pendekatan NeRFactor MIT dan Google memisahkan keluar normal, visibilitas (bayangan), tekstur dan albedo lokal, tetapi tidak memantulkan lingkungan, karena ada dalam vakum. Sumber: https://arxiv.org/pdf/2106.01970.pdf

NeRF dapat menyelesaikan masalah ini dengan menggunakan pemetaan HDR yang sama seperti yang digunakan oleh Apple. Setiap piksel dalam lapangan radiasi saraf dihitung pada jalur dari kamera virtual hingga titik di mana ‘sinar’ tidak dapat berjalan lebih jauh, mirip dengan pelacakan sinar dalam CGI tradisional. Menambahkan input HDR ke perhitungan sinar tersebut adalah metode potensial untuk mencapai refleksi lingkungan yang sebenarnya, dan pada dasarnya adalah analog dari metode ‘pencahayaan global’ atau rendering radiasi dalam CGI, di mana adegan atau objek sebagian diterangi oleh refleksi lingkungannya yang dirasakan.

Meskipun jelas bahwa matriks HDR tidak akan melakukan apa pun untuk mengurangi beban komputasi NeRF yang terkenal, sejumlah besar penelitian dalam bidang ini saat ini berfokus pada menangani aspek pipa pemrosesan ini. Tidak diragukan lagi, refleksi adalah salah satu dari banyak faktor yang menunggu di sayap untuk mengisi dan menantang arsitektur yang baru dioptimalkan. Namun, NeRF tidak dapat mencapai potensinya sebagai metode sintesis gambar dan video saraf diskrit tanpa mengadopsi cara untuk memperhitungkan lingkungan sekitar.

Refleksi Dalam Pipa Rendering Saraf

Dalam skenario rendering saraf Intel GTA V yang diaktifkan HDR, satu HDR tidak dapat menampung refleksi dinamis yang perlu diekspresikan dalam objek yang bergerak. Misalnya, untuk melihat refleksi kendaraan di depan saat mendekati lampu lalu lintas, kendaraan di depan dapat memiliki penyelidik cahaya HDR yang dianimasikan, resolusi yang akan menurun secara bertahap saat menjauh dari titik pandang pengguna, menjadi rendah dan hanya representatif saat menjauh ke kejauhan – LOD berbasis kedekatan yang mirip dengan pembatas ‘jarak gambar’ dalam game.

Potensi sebenarnya dari pekerjaan Apple dalam pencahayaan HDR dan peta refleksi tidak terletak pada bahwa itu sangat inovatif, karena membangun pada pekerjaan sebelumnya dalam sintesis gambar umum dan dalam pengembangan adegan AR. Sebaliknya, kemungkinan terobosan yang diwakili oleh cara bahwa keterbatasan komputasi lokal yang parah telah digabungkan dengan inovasi perangkat keras pembelajaran mesin Apple M-series untuk menghasilkan pemetaan HDR ringan, rendah-latensi yang dirancang untuk beroperasi di bawah sumber daya yang terbatas.

Jika masalah ini dapat diselesaikan secara ekonomis, kemajuan sintesis gambar>video fotorealistik dapat menjadi lebih dekat.

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.