Connect with us

Kecerdasan buatan

Berpikir di Jalan: Apakah Alpamayo NVIDIA Dapat Menyelesaikan Masalah ‘Edge Case’ Kendaraan Otonom?

mm
Reasoning on the Road: Can NVIDIA’s Alpamayo Solve the Self-Driving ‘Edge Case’ Problem?

Kendaraan otonom telah membuat kemajuan luar biasa selama dekade terakhir, mengumpulkan jutaan mil dan berperforma baik di jalan raya, di area uji terkendali, dan di zona perkotaan tertentu. Namun, bahkan di tahun 2026, mengemudi di dunia nyata terus memperlihatkan keterbatasan kritis. Misalnya, belok kiri tanpa perlindungan selama hujan lebat, zona konstruksi dengan marka jalan yang memudar atau hilang, dan persimpangan di mana petugas darurat menggunakan isyarat tangan yang tidak terstruktur masih dapat menantang sistem kendaraan otonom yang canggih.

Situasi-situasi ini tidak jarang dan bukan anomali yang dapat diselesaikan dengan hanya menambahkan lebih banyak data. Sebaliknya, mereka menyoroti masalah yang lebih dalam dalam teknologi kendaraan otonom saat ini. Sistem modern kompeten dalam mendeteksi objek dan memetakan lingkungan, namun mereka bergumul untuk berpikir tentang peristiwa masa depan, menafsirkan niat pengguna jalan lain, dan membuat keputusan yang sensitif terhadap konteks. Konsekuensinya, persepsi saja tidak cukup untuk memastikan keamanan dalam skenario yang kompleks dan tidak terduga.

Untuk menangani tantangan ini, NVIDIA memperkenalkan Alpamayo di CES 2026. Keluarga model Vision-Language-Action terbuka ini mengintegrasikan lapisan penalaran eksplisit di atas persepsi. Dengan menggabungkan persepsi dengan penalaran, Alpamayo memungkinkan kendaraan untuk menavigasi situasi mengemudi yang langka dan kompleks dengan lebih aman sambil menyediakan penjelasan yang dapat dipahami untuk setiap keputusan. Oleh karena itu, ini merupakan langkah penting menuju sistem otonom yang dapat berpikir, menjelaskan, dan beradaptasi daripada hanya mengamati.

Mengenal Masalah Edge Case dalam Mengemudi Otonom

Kasus tepi (edge case) adalah salah satu masalah paling kompleks dalam mobil otonom. Ini adalah situasi langka di mana tindakan yang paling aman bergantung pada konteks yang halus, aturan sosial yang tidak tertulis, dan interaksi waktu nyata dengan pengguna jalan lain. Misalnya, seorang pejalan kaki mungkin mengisyaratkan sebuah mobil untuk melintas di persimpangan bahkan jika mereka secara teknis memiliki hak jalan. Atau, zona konstruksi mungkin memiliki marka jalan yang memudar yang bertentangan dengan kerucut sementara. Situasi-situasi ini tidak terjadi sering, mungkin hanya sekali setiap beberapa ribu mil, tetapi mereka menyebabkan sebagian besar insiden keamanan dan kesalahan sistem.

Laporan California 2024 tentang penghentian sementara secara jelas menunjukkan hal ini. Di antara 31 perusahaan kendaraan otonom yang memiliki izin, lebih dari 2.800 kendaraan uji mengemudi ratusan ribu mil. Namun, banyak kegagalan terjadi dalam tata letak jalan yang tidak biasa, kontrol lalu lintas yang tidak terstruktur, atau ketika perilaku manusia tidak terduga. Ini adalah situasi langka yang sistem kendaraan otonom tradisional gagal tangani. Manusia, di sisi lain, dapat menavigasi mereka menggunakan pengalaman, berpikir cepat, dan penilaian dalam situasi.

Teknologi kendaraan otonom modern sangat baik dalam persepsi. Sistem dapat mendeteksi kendaraan, pengendara sepeda, pejalan kaki, dan tanda lalu lintas dengan akurasi tinggi menggunakan kamera, lidar, dan radar. Selain itu, model ujung-ke-ujung mengubah data sensor langsung menjadi perintah setir dan gas. Di jalan yang familiar, ini memungkinkan kendaraan untuk mengemudi dengan lancar dan aman.

Namun, persepsi saja tidak dapat menangani semua situasi. Ini tidak dapat menjawab pertanyaan penting yang muncul dalam skenario yang kompleks atau tidak terduga. Misalnya, apakah seorang pejalan kaki akan melangkah ke jalan? Apakah lebih aman untuk mengalah di saat ini atau mengambil risiko kecil? Mengapa satu manuver lebih aman daripada yang lain? Model kotak hitam membuat pertanyaan-pertanyaan ini lebih sulit karena mereka tidak dapat menjelaskan keputusan mereka. Akibatnya, tim keamanan dan regulator mungkin menemukan sulit untuk mempercayai sistem-sistem ini.

Perencana berbasis aturan juga memiliki keterbatasan. Sementara mereka menyediakan instruksi yang jelas, memprogram aturan untuk setiap situasi langka dengan cepat menjadi mustahil. Oleh karena itu, mengandalkan persepsi atau aturan tetap saja meninggalkan celah dalam keamanan dan pengambilan keputusan.

Tantangan-tantangan ini menunjukkan mengapa lapisan penalaran diperlukan untuk kendaraan otonom. Sistem seperti itu dapat memahami situasi, memprediksi apa yang mungkin terjadi selanjutnya, dan membuat keputusan yang dapat dipercayai oleh manusia dan regulator. Selain itu, model penalaran dapat menghasilkan penjelasan yang dapat ditinjau, meningkatkan kepercayaan dalam tindakan kendaraan.

NVIDIA Alpamayo dan Pergeseran Menuju Otonomi Berbasis Penalaran

NVIDIA memperkenalkan Alpamayo, sebuah platform yang berfokus pada penalaran untuk menangani kasus tepi yang terus memperlambat kemajuan menuju kendaraan otonom Level 4. Namun, bukan sebagai sistem kendaraan otonom yang sepenuhnya di dalam kendaraan, Alpamayo berfungsi sebagai lingkungan penelitian dan pengembangan yang terbuka. Ini menggabungkan tiga komponen yang terkait erat: model Vision-Language-Action dasar, kerangka simulasi AlpaSim, dan dataset Physical AI pengemudi skala besar. Bersama-sama, elemen-elemen ini mendukung studi, pengujian, dan penyempurnaan kebijakan mengemudi yang harus beroperasi di bawah ketidakpastian dan kompleksitas sosial sambil tetap dapat dipahami oleh peninjau manusia.

Inti dari platform ini adalah Alpamayo 1. Dalam model ini, sekitar 10 miliar parameter menggabungkan tulang punggung visi-bahasa yang luas dengan modul prediksi tindakan dan trajektori yang didedikasikan. Akibatnya, sistem dapat memproses input dari beberapa tampilan kamera, memprediksi gerakan kendaraan masa depan, dan menghasilkan penjelasan bahasa alami yang jelas untuk setiap keputusan. Penjelasan-penjelasan ini mengikuti urutan terstruktur. Pertama, sistem mengidentifikasi pengguna jalan terdekat. Kemudian, itu memperkirakan niat mereka yang mungkin. Setelah itu, itu mengevaluasi batasan visibilitas dan risiko keamanan. Akhirnya, itu memilih manuver yang sesuai. Misalnya, ketika sebuah kendaraan pengiriman memblokir sebagian lajur, model mungkin mempertimbangkan kemungkinan seorang pejalan kaki muncul dari belakangnya. Kemudian, itu memeriksa lalu lintas di lajur yang berdekatan. Akibatnya, mungkin memilih penyesuaian jalur yang hati-hati daripada perubahan lajur yang tiba-tiba. Proses penalaran ini mencerminkan dengan dekat bagaimana seorang pengemudi manusia yang hati-hati akan memikirkan situasi yang sama.

Metode pelatihan lebih lanjut memperkuat fokus pada penalaran. Awalnya, Alpamayo mengembangkan pemahaman sebab-akibat yang umum dari dataset multimodal besar. Setelah itu, itu diperhalus menggunakan data spesifik dari rekaman dunia nyata dan simulasi. Selain itu, simulasi berbasis fisika memaksakan konstrain keamanan seperti mempertahankan jarak pengereman yang cukup dan menghindari asumsi tanggung jawab yang tidak aman. Pada saat yang sama, sistem mengevaluasi hasil masa depan alternatif sebagai gantinya mengandalkan satu prediksi. Oleh karena itu, dengan mempertimbangkan apa yang mungkin terjadi selanjutnya dan memfavoritkan respons konservatif, model mengurangi risiko kegagalan dalam kondisi yang tidak familiar.

Bagaimana Alpamayo Menerapkan Penalaran Rantai Pemikiran pada Kasus Tepi

Alpamayo menangani situasi mengemudi yang sulit melalui penalaran dunia nyata yang eksplisit yang beradaptasi dengan perilaku jalan yang sebenarnya. Sebagai gantinya untuk bereaksi terhadap adegan sebagai keseluruhan, sistem memecah setiap situasi menjadi urutan langkah logis. Oleh karena itu, keputusan dihasilkan bukan sebagai satu output, tetapi sebagai hasil dari analisis terstruktur. Pendekatan ini mencerminkan penalaran manusia dan mengurangi perilaku yang tidak terduga dalam kondisi yang tidak familiar.

Pertama, model mengidentifikasi semua agen yang relevan dalam adegan, termasuk kendaraan, pejalan kaki, pengendara sepeda, dan objek sementara. Kemudian, itu menyimpulkan niat yang mungkin dengan memeriksa pola gerakan, konteks, dan isyarat sosial. Setelah itu, itu mengevaluasi batasan visibilitas, oklusi, dan bahaya tersembunyi yang mungkin. Selain itu, itu mempertimbangkan hasil kontrafaktual, seperti apa yang mungkin terjadi jika seorang pejalan kaki tiba-tiba melangkah maju. Hanya setelah itu sistem membandingkan beberapa trajektori yang mungkin dengan konstrain keamanan sebelum memilih tindakan akhir. Pada saat yang sama, sistem menghasilkan jejak penalaran bahasa alami yang jelas yang menjelaskan setiap langkah dalam urutan.

Proses ini menjadi kritis dalam lingkungan yang ambigu. Misalnya, ketika sebuah kendaraan pengiriman memblokir sebagian lajur sempit perkotaan, Alpamayo tidak hanya mengandalkan pola yang dipelajari. Sebaliknya, itu melakukan penalaran melalui situasi langkah demi langkah. Ini mengidentifikasi area yang terhalang di belakang kendaraan. Kemudian, itu memprediksi kemungkinan munculnya seorang pejalan kaki atau pengendara sepeda. Setelah itu, itu memeriksa lalu lintas yang mendekat dalam cakrawala waktu yang singkat. Akibatnya, mungkin memilih penyesuaian lateral kecil yang mempertahankan bantalan keamanan daripada melakukan perubahan lajur yang lengkap. Keputusan ini didukung oleh penalaran daripada skor kepercayaan saja.

Menutup Celah Data Panjang Melalui Penalaran dan Simulasi

Sistem berbasis penalaran seperti Alpamayo tidak menyelesaikan masalah kasus tepi dengan hanya mengumpulkan lebih banyak data mengemudi. Sebaliknya, mereka mengubah cara data yang ada diinterpretasikan, diperluas, dan diuji. Oleh karena itu, kemajuan bergantung pada menggunakan data lebih efektif daripada hanya meningkatkan jarak tempuh. NVIDIA menangani tantangan ini melalui integrasi erat dataset Physical AI dengan lingkungan simulasi AlpaSim, keduanya dirancang untuk mendukung pengembangan yang berfokus pada penalaran.

Dataset Physical AI NVIDIA mencakup lebih dari 1.700 jam data mengemudi yang disinkronkan yang dikumpulkan di seluruh 25 negara dan ribuan kota. Data ini menggabungkan input dari kamera, lidar, dan radar untuk menangkap berbagai perilaku jalan yang nyata. Yang penting, rekaman ini meluas di luar satu wilayah atau budaya mengemudi. Akibatnya, mereka mencerminkan norma lalu lintas yang berbeda, pola cuaca, desain jalan, dan praktik mengemudi tidak resmi. Ini memaparkan model pada contoh nyata situasi yang langka dan membingungkan, seperti persimpangan yang tidak jelas, marka jalan yang rusak, atau jalan di mana negosiasi menggantikan pengikut aturan yang ketat. Akibatnya, model penalaran dilatih pada kondisi yang lebih mirip dengan kompleksitas dunia nyata.

Namun, data nyata saja tidak dapat mewakili setiap skenario yang langka. Untuk alasan ini, simulasi memainkan peran sentral dalam menutup celah panjang. Melalui AlpaSim, pengembang dapat menghasilkan sejumlah besar skenario yang terkendali namun realistis yang mencerminkan situasi yang sulit dan tidak umum. Ini mungkin termasuk degradasi sensor sebagian, gerakan pejalan kaki yang tidak terduga, atau bahaya lingkungan yang tidak biasa. Karena simulasi beroperasi dalam loop tertutup, setiap keputusan mengemudi mempengaruhi apa yang terjadi selanjutnya. Oleh karena itu, sistem harus melakukan penalaran melalui kondisi yang berkembang daripada bereaksi terhadap input statis.

Validasi juga menjadi lebih terstruktur dalam lingkungan ini. Selain mengukur akurasi trajektori, pengembang dapat mengevaluasi apakah jejak penalaran tetap konsisten dan kredibel di bawah tekanan. Ini memungkinkan menilai tidak hanya apakah sebuah kendaraan berperilaku dengan aman, tetapi juga apakah proses pengambilan keputusannya masuk akal—dengan demikian menggeser evaluasi keamanan dari trial dan error ke penalaran sistematis. Dengan menggabungkan data dunia nyata yang beragam dengan simulasi yang sadar penalaran, Alpamayo membantu mengurangi tantangan panjang dalam cara yang dapat diukur dan ditinjau, mendukung kemajuan yang lebih aman menuju mengemudi otonom yang maju.

Dampak Industri dan Tantangan Berkelanjutan

Alpamayo sejalan dengan strategi mengemudi otonom NVIDIA yang lebih luas dengan mengintegrasikan pelatihan skala besar, simulasi, dan penerapan kendaraan. Pelatihan dan evaluasi terjadi pada sistem GPU kinerja tinggi di pusat data. Sementara itu, model yang lebih kecil yang dihasilkan dari pekerjaan ini berjalan pada perangkat keras otomotif, seperti platform DRIVE Thor, memungkinkan pengambilan keputusan waktu nyata di kendaraan. Demikian pula, sistem terkait diperluas ke robotika melalui platform berbasis Jetson. Oleh karena itu, Alpamayo memungkinkan baik kendaraan jalan maupun sistem fisik lainnya untuk berbagi kerangka pengembangan yang sama.

Minat industri mencerminkan pendekatan ini. Beberapa produsen dan kelompok penelitian menguji Alpamayo sebagai lapisan penalaran di atas sistem persepsi yang ada. Misalnya, Mercedes-Benz berencana untuk mengeksplorasi integrasi di kendaraan masa depan, sementara Jaguar Land Rover mempelajari penggunaannya untuk mengevaluasi situasi mengemudi yang kompleks. Pada saat yang sama, organisasi seperti Lucid, Uber, dan Berkeley DeepDrive menerapkan Alpamayo untuk pengujian kebijakan dan validasi keamanan. Akibatnya, platform ini dilihat tidak sebagai pengganti tumpukan otonomi, tetapi sebagai alat untuk meningkatkan logika keamanan dan mendukung tujuan Level 4.

Meskipun kemajuan ini, beberapa tantangan kunci tetap ada dan memerlukan perhatian yang cermat. Terutama, penalaran rantai pemikiran mungkin menjelaskan keputusan setelah fakta daripada mencerminkan proses internal yang sebenarnya, mempersulit penyelidikan kecelakaan. Selain itu, mentransfer perilaku yang hati-hati dari model besar ke model yang lebih kecil untuk penerapan perangkat keras kendaraan berisiko melemahkan margin keamanan jika validasi tidak memadai. Oleh karena itu, pengujian yang ketat diperlukan untuk mempertahankan perilaku yang konsisten di bawah keterbatasan komputasi yang ketat.

Perbedaan distribusi menciptakan risiko yang berkelanjutan. Penalaran yang dilatih dalam lingkungan perkotaan yang terstruktur mungkin tidak berpindah dengan mulus ke daerah dengan lalu lintas tidak formal, persimpangan Asia yang padat, atau jalan tanah. Oleh karena itu, validasi dan adaptasi lokal yang cermat sangat penting untuk mempertahankan keamanan di berbagai kondisi. Selain itu, kepercayaan publik dan persetujuan regulator bergantung pada demonstrasi bahwa output penalaran mengarah pada perbaikan nyata dalam keamanan, seperti pengurangan penghentian, hampir kecelakaan, dan pelanggaran aturan.

Sementara pendekatan pengembangan terbuka Alpamayo mendorong kolaborasi, integrasinya dengan ekosistem NVIDIA menimbulkan pertanyaan tentang ketergantungan jangka panjang pada NVIDIA. Namun, pergeseran keseluruhan menuju otonomi berbasis penalaran jelas, dan dengan menekankan transparansi, akuntabilitas, dan hasil keamanan yang dapat diukur, pendekatan ini membawa sistem kendaraan otonom lebih dekat ke penerapan yang aman di luar program pilot yang terkendali.

Intinya

Mengemudi otonom telah mencapai titik di mana persepsi saja tidak cukup lagi. Sementara kendaraan dapat melihat jalan dengan akurasi tinggi, situasi yang sulit masih memerlukan pemahaman, penilaian, dan penjelasan. Oleh karena itu, sistem berbasis penalaran seperti Alpamayo menandai pergeseran penting dalam cara tantangan ini ditangani. Dengan menggabungkan penalaran terstruktur, simulasi yang realistis, dan evaluasi yang transparan, pendekatan ini menargetkan kasus tepi yang paling penting untuk keamanan.

Selain itu, ini menyediakan alat yang dapat diperiksa dan dipertanyakan oleh insinyur dan regulator, yang sangat penting untuk kepercayaan. Namun, penalaran tidak menghilangkan semua risiko. Validasi yang cermat, pengujian lokal, dan pengawasan regulator tetap diperlukan. Bahkan demikian, dengan fokus pada mengapa keputusan dibuat daripada hanya pada tindakan yang diambil, otonomi berbasis penalaran membawa teknologi kendaraan otonom lebih dekat ke penerapan yang aman dan bertanggung jawab di jalan nyata.

Dr. Assad Abbas, seorang Associate Professor Tetap di COMSATS University Islamabad, Pakistan, memperoleh gelar Ph.D. dari North Dakota State University, USA. Penelitiannya berfokus pada teknologi canggih, termasuk cloud, fog, dan edge computing, big data analytics, dan AI. Dr. Abbas telah membuat kontribusi yang signifikan dengan publikasi di jurnal ilmiah dan konferensi yang terkemuka. Ia juga merupakan pendiri dari MyFastingBuddy.