Robotică

Progrese în „Spatial-AI” care permit roboților să perceapă mediile fizice la fel ca oamenii

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

Inginerii de la MIT lucrează pentru a da roboților capacitatea de a urma comenzi de nivel înalt, cum ar fi mergerea într-o altă cameră pentru a recupera un obiect pentru un individ. Pentru ca acest lucru să fie posibil, roboții vor trebui să aibă capacitatea de a percepe mediile lor fizice similar cu modul în care o fac oamenii.

Luca Carlone este profesor asistent de aeronautică și astronautică la MIT.

„Pentru a lua orice decizie în lume, trebuie să ai un model mental al mediului din jurul tău,” spune Carlone. „Acest lucru este atât de lipsit de efort pentru oameni. Dar pentru roboți este o problemă dureroasă, unde este vorba despre transformarea valorilor pixelilor pe care îi văd prin intermediul unei camere, într-o înțelegere a lumii.”

Pentru a aborda această provocare, cercetătorii au modelat o reprezentare a percepției spațiale pentru roboți pe baza modului în care oamenii percep și navighează în mediile lor fizice.

Grafuri de scenă dinamice 3D

Noul model se numește Grafuri de scenă dinamice 3D și permite unui robot să genereze o hartă 3D a mediului său fizic, inclusiv obiecte și etichetele lor semantice. Robotul poate, de asemenea, să cartografieze oameni, camere, pereți și alte structuri din mediu.

Modelul permite apoi robotului să extragă informații din harta 3D, informații care pot fi utilizate pentru a localiza obiecte, camere și mișcarea oamenilor.

“Această reprezentare comprimată a mediului este utilă, deoarece permite robotului nostru să ia decizii rapide și să-și planifice traseul,” spune Carlone. “Acest lucru nu este prea departe de ceea ce facem noi, oamenii. Dacă trebuie să planificați un traseu de la casa dvs. la MIT, nu planificați fiecare poziție pe care trebuie să o luați. Gândiți-vă doar la nivelul străzilor și al punctelor de reper, ceea ce vă ajută să planificați traseul mai rapid.”

Conform lui Carlone, roboții care se bazează pe acest model ar putea face mult mai mult decât doar sarcini domestice. Ei ar putea fi, de asemenea, utilizați pentru abilități de nivel înalt și pentru a lucra alături de oameni în fabrici sau pentru a ajuta la localizarea supraviețuitorilor unui dezastru.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Metode curente vs Noul model

Metodele curente pentru viziunea robotică și navigare se concentrează în principal pe cartografierea 3D care permite roboților să reconstruiască mediul lor în trei dimensiuni în timp real sau segmentarea semantică, care are loc atunci când roboții clasifică caracteristicile mediului ca obiecte semantice, cum ar fi o mașină versus o bicicletă. Segmentarea semantică se face adesea pe imagini 2D.

Noul model de percepție spațială este primul de acest fel care generează o hartă 3D a mediului în timp real și etichetează obiecte, oameni și structuri în interiorul hărții 3D în același timp.

Pentru a realiza acest nou model, cercetătorii s-au bazat pe Kimera, o bibliotecă open-source. Kimera a fost dezvoltată anterior de aceeași echipă pentru a construi un model geometric 3D al unui mediu, în timp ce încorporează ceea ce obiectul este probabil, cum ar fi un scaun versus o masă.

“Ca o creatură mitică care este un amestec de diferite animale, am vrut ca Kimera să fie un amestec de cartografiere și înțelegere semantică în 3D,” spune Carlone.

Kimera a utilizat imagini de la camera robotului și măsurători inerțiale de la senzorii de bord pentru a reconstrui scena ca o rețea 3D în timp real. Pentru a face acest lucru, Kimera a utilizat o rețea neurală care a fost antrenată pe milioane de imagini din lumea reală. A putut apoi să prevadă eticheta fiecărui pixel și să utilizeze ray-casting pentru a le proiecta în 3D.

Prin utilizarea acestei tehnici, mediul robotului poate fi cartografiat într-o rețea 3D în care fiecare față este codificată cu culori, identificându-se ca parte a obiectelor, structurilor sau oamenilor din mediu.

De la rețea 3D la grafuri de scenă dinamice 3D

Deoarece modelul rețelei semantice 3D necesită multă putere de calcul și este consumator de timp, cercetătorii au utilizat Kimera pentru a dezvolta algoritmi care au rezultat în grafuri de scenă dinamice 3D.

Rețeaua semantică 3D se descompune în straturi semantice distincte, iar robotul poate apoi să vadă o scenă prin intermediul unui strat. Straturile merg de la obiecte și oameni la spații deschise și structuri, la camere, coridoare, săli și clădiri întregi.

Această metodă de stratificare permite robotului să-și îngusteze focusul, în loc de a fi nevoit să analizeze miliarde de puncte și fețe. Această metodă de stratificare permite, de asemenea, algoritmilor să urmărească oamenii și mișcarea lor în mediu în timp real.

Noul model a fost testat într-un simulator foto-realistic care simulează un robot care navighează într-un mediu de birou cu oameni în mișcare.

“Esential, permitem roboților să aibă modele mentale similare cu cele pe care le folosim oamenii,” spune Carlone. “Acest lucru poate avea un impact asupra multor aplicații, inclusiv mașini autonome, căutare și salvare, fabricație colaborativă și robotică domestică.

Carlone a fost alături de autorul principal și studentul absolvent al MIT, Antoni Rosinol.

“Abordarea noastră a fost posibilă datorită progreselor recente în învățarea profundă și a deceniilor de cercetare privind localizarea și cartografierea simultană,” spune Rosinol. “Cu această lucrare, facem saltul către o nouă eră a percepției robotice numită spatial-AI, care este încă în stadiul de început, dar are un potențial mare în robotică și realitate virtuală și augmentată pe scară largă.”

Cercetarea a fost prezentată la conferința virtuală Robotics: Science and Systems.

Alex McFarland

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.