Kecerdasan buatan

Mengubah LiDAR ke Citra Foto-Real dengan Jaringan Adversarial Generatif

Published December 23, 2021

Updated April 28, 2026

Martin Anderson

Awal minggu ini, footage dirilis menunjukkan sistem autopilot Tesla menabrak langsung ke sisi kendaraan yang berhenti di jalan raya pada Juni 2021. Fakta bahwa mobil itu gelap dan sulit dikenali telah memicu diskusi tentang keterbatasan mengandalkan penglihatan komputer dalam skenario mengemudi otonom.

Footage dirilis pada Desember 2021 menunjukkan saat benturan. Sumber: https://twitter.com/greentheonly/status/1473307236952940548

Meskipun kompresi video pada footage yang banyak dibagikan memberikan kesan yang sedikit dilebih-lebihkan tentang seberapa cepat truk yang dimatikan ‘muncul’ pada pengemudi dalam kasus ini, video dengan kualitas lebih tinggi dari peristiwa yang sama menunjukkan bahwa pengemudi yang sepenuhnya waspada juga akan mengalami kesulitan untuk merespons dengan apa pun kecuali dengan manuver yang terlambat atau pengereman yang tidak efektif.

Footage tersebut menambah kontroversi seputar keputusan Tesla untuk menghapus sensor radar untuk Autopilot, yang diumumkan pada Mei 2021, dan sikapnya terhadap penggunaan sistem berbasis visi daripada teknologi echo-location lainnya, seperti LiDAR.

Dengan kebetulan, sebuah makalah penelitian baru dari Israel minggu ini menawarkan pendekatan untuk memadukan domain LiDAR dan penglihatan komputer, dengan mengubah awan titik LiDAR ke citra foto-real dengan menggunakan Jaringan Adversarial Generatif (GAN).

Dalam proyek baru dari Israel, mobil hitam yang diidentifikasi dalam footage LiDAR diubah menjadi skenario ‘siang hari’ untuk analisis berbasis penglihatan komputer, serupa dengan pendekatan yang Tesla lakukan untuk pengembangan sistem Autopilot-nya. Sumber: https://arxiv.org/pdf/2112.11245.pdf

Para penulis menyatakan:

‘Model kami belajar bagaimana memprediksi gambar yang terlihat realistis dari hanya data awan titik, bahkan gambar dengan mobil hitam.

‘Mobil hitam sulit dideteksi langsung dari awan titik karena tingkat reflektivitas yang rendah. Pendekatan ini mungkin digunakan di masa depan untuk melakukan pengenalan objek visual pada gambar foto-real yang dihasilkan dari awan titik LiDAR.’

Citra Foto-Real, Aliran Gambar Berbasis LiDAR

Makalah baru tersebut berjudul Menghasilkan Gambar Foto-Real dari Awan Titik LiDAR dengan Jaringan Adversarial Generatif, dan berasal dari tujuh peneliti di tiga fakultas akademik Israel, bersama dengan enam peneliti dari Innoviz Technologies yang berbasis di Israel.

Para peneliti bertujuan untuk mengetahui apakah gambar sintetis berbasis GAN dapat dihasilkan pada tingkat yang sesuai dari awan titik yang dihasilkan oleh sistem LiDAR, sehingga aliran gambar yang dihasilkan dapat digunakan dalam alur kerja pengenalan objek dan segmentasi semantik.

Data

Gagasan sentral, seperti dalam banyak proyek novel [x]>[x] image transliteration, adalah untuk melatih algoritma pada data yang dipasangkan, di mana gambar awan titik LiDAR (yang bergantung pada cahaya yang dipancarkan perangkat) dilatih melawan bingkai yang sesuai dari kamera depan.

Karena footage diambil pada siang hari, di mana sistem penglihatan komputer dapat lebih mudah membedakan kendaraan hitam (seperti yang ditabrak oleh Tesla pada Juni), pelatihan ini seharusnya menyediakan kebenaran dasar yang lebih tahan terhadap kondisi gelap.

Data dikumpulkan dengan sensor LiDAR InnovizOne, yang menawarkan tingkat pengambilan 10fps atau 15fps, tergantung pada model.

Data LiDAR yang dikumpulkan oleh perangkat Innoviz. Sumber: https://www.youtube.com/watch?v=wmcaf_VpsQI

Dataset yang dihasilkan berisi sekitar 30.000 gambar dan 200.000 titik 3D yang dikumpulkan. Para peneliti melakukan dua tes: satu di mana data awan titik hanya membawa informasi reflektivitas; dan yang kedua, di mana data awan titik memiliki dua saluran, satu untuk reflektivitas dan jarak.

Untuk eksperimen pertama, GAN dilatih hingga 50 epoch, di mana setelah itu overfitting menjadi masalah.

Gambar yang dihasilkan GAN dari eksperimen pertama. Di sebelah kiri, data awan titik; di tengah, bingkai asli dari footage yang dikumpulkan, digunakan sebagai kebenaran dasar; kanan, representasi sintetis yang dihasilkan oleh Jaringan Adversarial Generatif.

Para penulis mengomentari:

‘Set tes adalah rekaman baru yang GAN belum pernah lihat sebelumnya. Ini diprediksi menggunakan hanya informasi reflektivitas dari awan titik.

‘Kami memilih untuk menampilkan bingkai dengan mobil hitam karena mobil hitam biasanya sulit dideteksi dari LiDAR. Kami dapat melihat bahwa generator belajar menghasilkan mobil hitam, mungkin dari informasi kontekstual, karena warna dan bentuk objek dalam gambar yang diprediksi tidak identik dengan gambar asli.’

Untuk eksperimen kedua, para penulis melatih GAN hingga 40 epoch dengan ukuran batch 1, menghasilkan presentasi ‘representatif’ mobil hitam yang diperoleh terutama dari konteks. Konfigurasi ini juga digunakan untuk menghasilkan video yang menunjukkan footage yang dihasilkan GAN (digambarkan di atas, dalam gambar contoh di bawah) bersama dengan footage kebenaran dasar.

Evaluasi

Proses evaluasi dan perbandingan dengan teknologi existing tidak mungkin dilakukan dengan proyek ini, karena sifatnya yang unik. Sebaliknya, para peneliti merancang metrik kustom tentang seberapa besar mobil (bagian kecil dan sesaat dari footage sumber) direpresentasikan dalam footage output.

Mereka memilih 100 pasang gambar LiDAR/Hasil dari setiap set dan secara efektif membagi jumlah gambar mobil yang ada dalam footage sumber ke jumlah yang ada dalam data sintetis yang dihasilkan, menghasilkan skala metrik dari 0 hingga 1.

Para penulis menyatakan:

‘Skor dalam kedua eksperimen berada antara 0,7 dan 0,8. Mengingat kenyataan bahwa kualitas gambar yang diprediksi secara umum lebih rendah daripada gambar asli (lebih sulit secara umum untuk mendeteksi objek dalam gambar dengan kualitas yang lebih rendah), skor ini menunjukkan bahwa sebagian besar mobil yang ada dalam kebenaran dasar ada dalam gambar yang diprediksi.’

Para peneliti menyimpulkan bahwa deteksi kendaraan hitam, yang merupakan masalah bagi sistem berbasis penglihatan komputer dan LiDAR, dapat dilakukan dengan mengidentifikasi kekurangan data untuk bagian gambar:

‘Kenyataan bahwa dalam gambar yang diprediksi, informasi warna dan bentuk yang tepat tidak identik dengan kebenaran dasar, menunjukkan bahwa prediksi mobil hitam sebagian besar berasal dari informasi kontekstual dan tidak dari reflektivitas LiDAR dari titik-titik itu sendiri.

‘Kami sarankan bahwa, selain sistem LiDAR konvensional, sistem kedua yang menghasilkan gambar foto-real dari awan titik LiDAR akan berjalan secara paralel untuk pengenalan objek visual dalam waktu nyata.’

Para peneliti berencana untuk mengembangkan pekerjaan ini di masa depan, dengan dataset yang lebih besar.

Latensi, dan Tumpukan Pengolahan SDV yang Padat

Seorang komentator pada postingan Twitter tentang kecelakaan Autopilot memperkirakan bahwa, dengan kecepatan sekitar 75mph (110 kaki per detik), umpan video yang beroperasi pada 20fps hanya akan mencakup 5,5 kaki per bingkai. Namun, jika kendaraan tersebut menggunakan perangkat keras dan perangkat lunak terbaru Tesla, kecepatan bingkai akan menjadi 36fps (untuk kamera utama), yang menetapkan tingkat evaluasi pada 110 kaki per detik (tiga kaki per bingkai).

Selain biaya dan ergonomi, masalah dengan menggunakan LiDAR sebagai aliran data tambahan adalah skala besar ‘macet’ informasi dari input sensor ke kerangka pengolahan SDV. Dikombinasikan dengan sifat kritis tugas tersebut, ini tampaknya telah memaksa radar dan LiDAR keluar dari tumpukan Autopilot demi metode evaluasi berbasis gambar.

Oleh karena itu, tampaknya tidak mungkin bahwa sistem yang menggunakan LiDAR – yang pada dirinya sendiri akan menambahkan bottleneck pengolahan pada Autopilot – untuk menginfer gambar foto-real adalah layak dari sudut pandang Tesla.

Pendiri Tesla, Elon Musk, bukanlah pengkritik LiDAR, yang ia tunjukkan digunakan oleh SpaceX untuk prosedur docking, tetapi menganggap bahwa teknologi tersebut ‘tidak berguna’ untuk kendaraan swa-kemudi. Musk menyarankan bahwa panjang gelombang yang dapat menembus oklusi, seperti ~4mm presisi radar, akan lebih berguna.

Namun, hingga Juni 2021, kendaraan Tesla tidak dilengkapi dengan radar. Tidak ada banyak proyek yang dirancang untuk menghasilkan aliran gambar dari radar dengan cara yang sama seperti proyek Israel saat ini (meskipun Departemen Energi AS mensponsori satu upaya untuk gambar GAN yang bersumber dari radar pada 2018).

Dipublikasikan pertama kali pada 23 Desember 2021.