Robotik

Fremgang i “Spatial-AI” gør det muligt for robotter at opfatte fysiske omgivelser som et menneske

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

Ingeniører på MIT arbejder på at give robotter evnen til at følge højniveaufordringer, såsom at gå til et andet rum for at hente et objekt til en person. For at dette skal være muligt, skal robotter have evnen til at opfatte deres fysiske omgivelser på samme måde som vi mennesker gør.

Luca Carlone er adjunkt i aeronautik og astronautik på MIT.

“For at træffe nogen beslutning i verden, skal du have en mental model af omgivelserne omkring dig,” siger Carlone. “Dette er noget, der er så ubesværet for mennesker. Men for robotter er det et smertefuldt hårdt problem, hvor det handler om at omdanne pixelværdier, som de ser gennem en kamera, til en forståelse af verden.”

For at møde denne udfordring, har forskerne modelleret en repræsentation af rumlig perception for robotter baseret på, hvordan mennesker opfatter og navigerer i deres fysiske omgivelser.

3D Dynamiske Scenegrafer

Den nye model kaldes 3D Dynamiske Scenegrafer, og den giver en robot mulighed for at generere en 3D-kort over dens fysiske omgivelser, herunder objekter og deres semantiske mærker. Robotten kan også kortlægge mennesker, rum, vægge og andre strukturer i omgivelserne.

Modellen giver derefter robotten mulighed for at trække informationer ud af 3D-kortet, informationer, der kan bruges til at lokalisere objekter, rum og menneskers bevægelser.

“Denne komprimerede repræsentation af omgivelserne er nyttig, fordi den giver vores robot mulighed for hurtigt at træffe beslutninger og planlægge sin rute,” siger Carlone. “Dette er ikke så langt fra, hvad vi gør som mennesker. Hvis du skal planlægge en rute fra dit hjem til MIT, planlægger du ikke hver enkelt position, du skal tage. Du tænker bare på niveauet med gader og vartegn, hvilket hjælper dig med at planlægge din rute hurtigere.”

Ifølge Carlone vil robotter, der afhænger af denne model, kunne gøre meget mere end bare huslige opgaver. De kunne også bruges til højniveaufærdigheder og arbejde sammen med mennesker på fabrikker eller hjælpe med at lokalisere overlevende på et katastrofeområde.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Nuværende metoder vs. ny model

De nuværende metoder for robotvision og navigation fokuserer hovedsagelig på 3D-kortlægning, der giver robotter mulighed for at rekonstruere deres omgivelser i tre dimensioner i realtid, eller semantisk segmentering, der sker, når robotter klassificerer funktioner i omgivelserne som semantiske objekter, såsom en bil versus en cykel. Semantisk segmentering udføres ofte på 2D-billeder.

Den nyligt udviklede model for rumlig perception er den første af sin art, der genererer et 3D-kort over omgivelserne i realtid og mærker objekter, mennesker og strukturer inden for 3D-kortet på samme tid.

For at opnå denne nye model, har forskerne afhængt af Kimera, en open-source-bibliotek. Kimera blev tidligere udviklet af det samme team til at konstruere en 3D-geometrisk model af en omgivelse, samtidig med at det kodificerer, hvad objektet sandsynligvis er, såsom en stol versus et skrivebord.

“Ligesom den mytiske skabning, der er en blanding af forskellige dyr, ville vi have Kimera til at være en blanding af kortlægning og semantisk forståelse i 3D,” siger Carlone.

Kimera brugte billeder fra en robotkamera og inertialmålinger fra onboard-sensorer til at rekonstruere scenen som en 3D-mesh i realtid. For at gøre dette, brugte Kimera et neuralt netværk, der var trænet på millioner af billeder fra den virkelige verden. Det kunne derefter forudsige mærket på hver pixel og bruge ray-casting til at projicere dem i 3D.

Gennem brugen af denne teknik kan robotens omgivelse kortlægges som en tredimensionel mesh, hvor hver overflade er farvekodet, hvilket identificerer det som en del af objekter, strukturer eller mennesker i omgivelserne.

3D-mesh til 3D-dynamiske “scenegrafer”

Fordi den 3D-semantiske mesh-model kræver meget beregningskraft og er tidskrævende, har forskerne brugt Kimera til at udvikle algoritmer, der resulterer i 3D-dynamiske “scenegrafer”.

Den 3D-semantiske mesh deles op i distinkte semantiske lag, og robotten kan derefter se en scene gennem et lag. Lagene går fra objekter og mennesker til åbne rum og strukturer, til rum, gange, korridorer og hele bygninger.

Denne lagdelingsmetode giver robotten mulighed for at indsnævre sin fokus i stedet for at skulle analysere milliarder af punkter og overflader. Denne lagdelingsmetode giver også algoritmerne mulighed for at spore mennesker og deres bevægelser i omgivelserne i realtid.

Den nye model blev testet i en foto-realitetsimulator, der simulerer en robot, der navigerer i et kontormiljø med mennesker i bevægelse.

“Vi giver i virkeligheden robotter mulighed for at have mentale modeller, der ligner dem, mennesker bruger,” siger Carlone. “Dette kan have indvirkning på mange anvendelser, herunder selvstændige biler, redning og genopretning, samarbejdende fremstilling og huslige robotter.

Carlone blev ledsaget af den førende forfatter og MIT-studerende Antoni Rosinol.

“Vores tilgang er blevet mulig takket være de seneste fremskridt i dyb læring og årtiers forskning i simultan lokalisation og kortlægning,” siger Rosinol. “Med dette arbejde springer vi over til en ny æra af robotperception kaldet spatial-AI, der kun er i sin barndom, men har stor potentiale i robotteknik og stor skala virtuel og forstærket virkelighed.”

Forskningen blev præsenteret på Robotics: Science and Systems virtuel konference.

Alex McFarland

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.