Kecerdasan buatan
Meningkatkan Fotorealisme Simulasi Mengemudi dengan Jaringan Adversarial Generatif

Inisiatif penelitian baru antara AS dan Cina telah mengusulkan penggunaan Jaringan Adversarial Generatif (GAN) untuk meningkatkan realisme simulator mengemudi.
Dalam pendekatan baru untuk menghasilkan skenario mengemudi POV yang fotorealistik, peneliti telah mengembangkan metode hibrida yang memanfaatkan kekuatan dari berbagai pendekatan, dengan menggabungkan output yang lebih fotorealistik dari sistem berbasis CycleGAN dengan elemen yang dihasilkan secara konvensional, yang memerlukan tingkat detail dan konsistensi yang lebih tinggi, seperti marka jalan dan kendaraan yang diamati dari sudut pandang pengemudi.

Hybrid Generative Neural Graphics (HGNG) menawarkan arah baru untuk simulasi mengemudi yang mempertahankan akurasi model 3D untuk elemen penting (seperti marka jalan dan kendaraan), sambil memanfaatkan kekuatan GAN dalam menghasilkan detail latar belakang dan ambient yang menarik dan tidak berulang. Sumber
Sistem, yang disebut Hybrid Generative Neural Graphics (HGNG), menyuntikkan output yang sangat terbatas dari simulator mengemudi konvensional berbasis CGI ke dalam pipa GAN, di mana kerangka kerja NVIDIA SPADE mengambil alih pekerjaan generasi lingkungan.
Kelebihan, menurut penulis, adalah bahwa lingkungan mengemudi akan menjadi lebih beragam, menciptakan pengalaman yang lebih imersif. Saat ini, bahkan mengubah output CGI ke output rendering neural fotorealistik tidak dapat menyelesaikan masalah pengulangan, karena footage asli yang memasuki pipa neural dibatasi oleh keterbatasan model lingkungan, dan kecenderungan mereka untuk mengulangi tekstur dan mesh.

Footage yang diubah dari makalah 2021 ‘Peningkatan fotorealisme’, yang masih bergantung pada footage CGI-rendered, termasuk latar belakang dan detail ambient umum, membatasi keragaman lingkungan dalam pengalaman simulasi. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0
Makalah tersebut menyatakan*:
‘Kualitas simulator mengemudi konvensional bergantung pada kualitas pipa grafik komputernya, yang terdiri dari model 3D, tekstur, dan mesin rendering. Model 3D dan tekstur yang berkualitas tinggi memerlukan keterampilan, sedangkan mesin rendering harus menjalankan perhitungan fisik yang rumit untuk representasi pencahayaan dan shading yang realistis.’
Makalah baru ini berjudul Fotorealisme dalam Simulasi Mengemudi: Menggabungkan Sintesis Gambar Adversarial Generatif dengan Rendering, dan berasal dari peneliti di Departemen Teknik Elektro dan Komputer di Universitas Negeri Ohio, dan Chongqing Changan Automobile Co Ltd di Chongqing, Cina.
Material Latar Belakang
HGNG mengubah tata letak semantik dari adegan CGI-dihasilkan dengan menggabungkan bahan latar depan sebagian dengan lingkungan yang dihasilkan GAN. Meskipun peneliti bereksperimen dengan berbagai dataset untuk melatih model, yang paling efektif terbukti adalah KITTI Vision Benchmark Suite, yang sebagian besar menampilkan cuplikan material sudut pandang pengemudi dari kota Jerman Karlsruhe.

HGNG menghasilkan tata letak segmentasi semantik dari output CGI-rendered, dan kemudian memasukkan SPADE, dengan pengkodean gaya yang berbeda, untuk membuat gambar latar belakang fotorealistik yang acak dan beragam, termasuk objek di dekatnya dalam adegan perkotaan. Makalah baru menyatakan bahwa pola berulang, yang umum pada pipa CGI yang terbatas sumber daya, ‘menghancurkan imersi’ untuk pengemudi manusia yang menggunakan simulator, dan bahwa latar belakang yang lebih beragam yang dapat disediakan GAN dapat mengurangi masalah ini.
Peneliti bereksperimen dengan Conditional GAN (cGAN) dan CYcleGAN (CyGAN) sebagai jaringan generatif, menemukan bahwa masing-masing memiliki kekuatan dan kelemahan: cGAN memerlukan dataset berpasangan, dan CyGAN tidak. Namun, CyGAN tidak dapat saat ini mengungguli keadaan saat ini dalam simulator konvensional, menunggu perbaikan lebih lanjut dalam adaptasi domain dan konsistensi siklus. Oleh karena itu cGAN, dengan persyaratan data berpasangan tambahan, mendapatkan hasil terbaik saat ini.

Arsitektur konseptual HGNG.
Dalam pipa grafik neural HGNG, representasi 2D dibentuk dari adegan CGI-sintetis. Objek yang dilewatkan ke aliran GAN dari rendering CGI terbatas pada elemen ‘esensial’, termasuk marka jalan dan kendaraan, yang GAN itu sendiri tidak dapat saat ini merender dengan konsistensi temporal dan integritas yang memadai untuk simulator mengemudi. Gambar yang disintesis cGAN kemudian digabungkan dengan render berbasis fisik sebagian.
Pengujian
Untuk menguji sistem, peneliti menggunakan SPADE, dilatih pada Cityscapes, untuk mengubah tata letak semantik adegan menjadi output fotorealistik. Sumber CGI berasal dari simulator mengemudi sumber terbuka CARLA, yang menggunakan Unreal Engine 4 (UE4).

Output dari simulator mengemudi sumber terbuka CARLA. Sumber: https://arxiv.org/pdf/1711.03938.pdf
Mesin pencahayaan dan shading UE4 menyediakan tata letak semantik dan gambar yang sebagian dirender, dengan hanya kendaraan dan marka jalan yang dioutput. Penggabungan dilakukan dengan instance GP-GAN yang dilatih pada Transient Attributes Database, dan semua eksperimen dijalankan pada NVIDIA RTX 2080 dengan 8 GB GDDR6 VRAM.
Peneliti menguji untuk retensi semantik – kemampuan gambar output untuk sesuai dengan masker segmentasi semantik awal yang dimaksudkan sebagai template untuk adegan.
Dalam gambar di atas, kita dapat melihat bahwa dalam gambar ‘render saja’ (kiri bawah), render penuh tidak mendapatkan bayangan yang masuk akal. Peneliti mencatat bahwa di sini (lingkaran kuning) bayangan pohon yang jatuh ke trotoar salah diklasifikasikan oleh DeepLabV3 (kerangka kerja segmentasi semantik yang digunakan untuk eksperimen ini) sebagai ‘konten jalan’.
Dalam kolom aliran tengah, kita dapat melihat bahwa kendaraan yang dibuat cGAN tidak memiliki definisi yang konsisten untuk digunakan dalam simulator mengemudi (lingkaran merah). Dalam kolom aliran paling kanan, gambar yang digabungkan sesuai dengan definisi semantik asli, sambil mempertahankan elemen CGI-berbasis yang esensial.
Untuk mengevaluasi realisme, peneliti menggunakan Frechet Inception Distance (FID) sebagai metrik kinerja, karena dapat beroperasi pada data berpasangan atau tidak berpasangan.
Tiga dataset digunakan sebagai kebenaran: Cityscapes, KITTI, dan ADE20K.
Gambar output dibandingkan dengan gambar lain menggunakan skor FID, dan terhadap pipa berbasis fisik (yaitu CGI), sementara retensi semantik juga dievaluasi.

Dalam hasil di atas, yang terkait dengan retensi semantik, skor yang lebih tinggi lebih baik, dengan pendekatan piramida cGAN (salah satu pipa yang diuji oleh peneliti) mencetak skor tertinggi.

Hasil yang ditampilkan langsung di atas terkait dengan skor FID, dengan HGNG mencetak skor tertinggi melalui penggunaan dataset KITTI.
Metode ‘Hanya render’ (ditandai sebagai [23]) terkait dengan output dari CARLA, aliran CGI yang tidak diharapkan untuk fotorealistik.
Hasil kualitatif pada mesin rendering konvensional (‘c’ dalam gambar langsung di atas) menunjukkan informasi latar belakang jarak jauh yang tidak realistis, seperti pohon dan vegetasi, sementara memerlukan model yang terperinci dan penggunaan mesh just-in-time, serta prosedur lain yang intensif prosesor. Dalam gambar tengah (b), kita dapat melihat bahwa cGAN gagal mendapatkan definisi yang memadai untuk elemen esensial, mobil dan marka jalan. Dalam output yang diusulkan yang digabungkan (a), definisi kendaraan dan jalan baik, sementara lingkungan ambient beragam dan fotorealistik.
Makalah tersebut menyimpulkan dengan menyarankan bahwa konsistensi temporal dari bagian GAN-dihasilkan dari pipa rendering dapat ditingkatkan melalui penggunaan dataset perkotaan yang lebih besar, dan bahwa pekerjaan masa depan dalam arah ini dapat menawarkan alternatif nyata untuk transformasi neural yang mahal dari aliran CGI-berbasis, sementara menyediakan realisme dan keragaman yang lebih besar.
* Konversi saya dari kutipan inline penulis ke tautan.
Dipublikasikan pertama kali 23 Juli 2022.














