Robotika

Kemajuan dalam “Spatial-AI” Memungkinkan Robot untuk Mengenal Lingkungan Fisik seperti Manusia

Published July 17, 2020

Updated April 27, 2026

Alex McFarland

Insinyur di MIT bekerja untuk memberi robot kemampuan untuk mengikuti perintah tingkat tinggi, seperti pergi ke ruangan lain untuk mengambil barang untuk seseorang. Agar ini memungkinkan, robot perlu memiliki kemampuan untuk mengenal lingkungan fisik mereka secara serupa dengan cara manusia melakukannya.

Luca Carlone adalah asisten profesor aeronautika dan astronautika di MIT.

“Untuk membuat keputusan apa pun di dunia, Anda perlu memiliki model mental dari lingkungan di sekitar Anda,” kata Carlone. “Ini adalah sesuatu yang sangat mudah bagi manusia. Tapi untuk robot itu adalah masalah yang sangat sulit, di mana itu tentang mengubah nilai piksel yang mereka lihat melalui kamera, menjadi pemahaman tentang dunia.”

Untuk menghadapi tantangan ini, peneliti membuat model representasi persepsi spasial untuk robot berdasarkan pada cara manusia mengenal dan menavigasi lingkungan fisik mereka.

3D Dynamic Scene Graphs

Model baru ini disebut 3D Dynamic Scene Graphs, dan memungkinkan robot untuk menghasilkan peta 3D dari lingkungan fisik sekitarnya, termasuk objek dan label semantik mereka. Robot juga dapat memetakan orang, ruangan, dinding, dan struktur lainnya di lingkungan.

Model ini kemudian memungkinkan robot untuk mengekstrak informasi dari peta 3D, informasi yang dapat digunakan untuk menemukan objek, ruangan, dan pergerakan orang.

“Representasi lingkungan yang dikompresi ini berguna karena memungkinkan robot kami untuk dengan cepat membuat keputusan dan merencanakan jalur mereka,” kata Carlone. “Ini tidak terlalu jauh dari apa yang kita lakukan sebagai manusia. Jika Anda perlu merencanakan jalur dari rumah Anda ke MIT, Anda tidak merencanakan setiap posisi yang perlu Anda ambil. Anda hanya berpikir pada tingkat jalan dan landmark, yang membantu Anda merencanakan rute Anda lebih cepat.”

Menurut Carlone, robot yang mengandalkan model ini akan dapat melakukan lebih dari sekedar tugas domestik. Mereka juga dapat digunakan untuk keterampilan tingkat tinggi dan bekerja bersama orang di pabrik, atau membantu menemukan korban bencana.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Metode Saat Ini vs Model Baru

Metode saat ini untuk visi robot dan navigasi terutama fokus pada pemetaan 3D yang memungkinkan robot untuk merekonstruksi lingkungan mereka dalam tiga dimensi secara real-time, atau segmentasi semantik, yang terjadi ketika robot mengklasifikasikan fitur lingkungan sebagai objek semantik, seperti mobil versus sepeda. Segmentasi semantik sering dilakukan pada gambar 2D.

Model persepsi spasial baru ini adalah yang pertama dari jenisnya untuk menghasilkan peta 3D dari lingkungan dalam waktu nyata dan melabeli objek, orang, dan struktur dalam peta 3D secara bersamaan.

Untuk mencapai model baru ini, peneliti mengandalkan Kimera, sebuah perpustakaan sumber terbuka. Kimera sebelumnya dikembangkan oleh tim yang sama untuk membuat model geometris 3D dari lingkungan, sambil mengkodekan apa yang mungkin objek, seperti kursi versus meja.

“Seperti makhluk mitos yang merupakan campuran dari hewan yang berbeda, kami ingin Kimera menjadi campuran dari pemetaan dan pemahaman semantik dalam 3D,” kata Carlone.

Kimera menggunakan gambar dari kamera robot dan pengukuran inersia dari sensor onboard untuk merekonstruksi adegan sebagai mesh 3D secara real-time. Untuk melakukan ini, Kimera menggunakan jaringan neural yang telah dilatih pada jutaan gambar dunia nyata. Kemudian dapat memprediksi label setiap piksel dan menggunakan ray-casting untuk memproyeksikan mereka dalam 3D.

Melalui penggunaan teknik ini, lingkungan robot dapat dipetakan dalam mesh tiga dimensi di mana setiap wajah diwarnai, mengidentifikasinya sebagai bagian dari objek, struktur, atau orang dalam lingkungan.

3D Mesh ke 3D Dynamic “Scene Graphs”

Karena model mesh semantik 3D memerlukan banyak daya komputasi dan memakan waktu, peneliti menggunakan Kimera untuk mengembangkan algoritma yang menghasilkan 3D dinamis “scene graphs.”

Mesh semantik 3D dipecah menjadi lapisan semantik yang berbeda, dan robot kemudian dapat melihat adegan melalui lapisan. Lapisan ini mulai dari objek dan orang, ke ruang terbuka dan struktur, ke ruangan, koridor, aula, dan bangunan utuh.

Metode pelapisan ini memungkinkan robot untuk memfokuskan perhatian mereka daripada harus menganalisis miliaran poin dan wajah. Metode pelapisan ini juga memungkinkan algoritma untuk melacak manusia dan pergerakan mereka dalam lingkungan secara real-time.

Model baru ini diuji dalam simulator foto-realistik yang mensimulasikan robot yang menavigasi lingkungan kantor dengan orang yang bergerak.

“Kami pada dasarnya memungkinkan robot untuk memiliki model mental yang serupa dengan yang digunakan manusia,” kata Carlone. “Ini dapat mempengaruhi banyak aplikasi, termasuk mobil self-driving, pencarian dan penyelamatan, manufaktur kolaboratif, dan robotika domestik.

Carlone bergabung dengan penulis utama dan mahasiswa pascasarjana MIT Antoni Rosinol.

“Pendekatan kami baru saja dimungkinkan berkat kemajuan baru-baru ini dalam pembelajaran dalam dan dekade penelitian tentang pemetaan dan lokalisisasi simultan,” kata Rosinol. “Dengan pekerjaan ini, kami membuat lompatan menuju era baru persepsi robotik yang disebut spatial-AI, yang baru saja lahir tetapi memiliki potensi besar dalam robotika dan realitas virtual dan augmented yang besar.”

Penelitian ini dipresentasikan pada konferensi virtual Robotics: Science and Systems.

Alex McFarland

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.