Robotika

Pokrok v „Spatial-AI“ umožňuje robotům vnímat fyzické prostředí podobně jako lidé

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

Inženýři na MIT pracují na tom, aby robotům poskytli schopnost následovat vysoké úrovně příkazů, jako je jít do jiného pokoje, aby získali předmět pro jednotlivce. Aby bylo toto možné, roboti budou muset mít schopnost vnímat své fyzické prostředí podobně jako to děláme my lidé.

Luca Carlone je asistent profesora leteckého a kosmického inženýrství na MIT.

„Abyste mohli učinit jakékoli rozhodnutí ve světě, musíte mít mentální model prostředí kolem vás,” říká Carlone. „To je něco tak bezúsilného pro lidi. Ale pro roboty je to bolestně tvrdý problém, kde se jedná o transformaci pixelových hodnot, které vidí prostřednictvím kamery, do porozumění světa.”

Aby se této výzvy zhostili, výzkumníci modelovali reprezentaci prostorového vnímání pro roboty na základě toho, jak lidé vnímají a navigují ve svém fyzickém prostředí.

3D Dynamické Scénické Grafy

Nový model se nazývá 3D Dynamické Scénické Grafy a umožňuje robotovi generovat 3D mapu svého fyzického okolí, včetně objektů a jejich sémantických popisků. Robot může také mapovat lidi, pokoje, zdi a další struktury v prostředí.

Model pak umožňuje robotovi extrahovat informace z 3D mapy, informace, které lze použít k lokalizaci objektů, pokojů a pohybu lidí.

“Tato komprimovaná reprezentace prostředí je užitečná, protože umožňuje našemu robotovi rychle učinit rozhodnutí a naplánovat svou cestu,” říká Carlone. “To není příliš daleko od toho, co děláme jako lidé. Pokud potřebujete naplánovat cestu ze svého domova na MIT, neplánujete každou jednotlivou pozici, kterou potřebujete zaujmout. Myslíte si pouze na úrovni ulic a orientačních bodů, což vám pomáhá naplánovat svou cestu rychleji.”

Podle Carla by roboti, kteří se spoléhají na tento model, mohli dělat mnohem více než jen domácí úkoly. Mohli by být také použiti pro vysoké úrovně dovedností a pracovat vedle lidí v továrnách nebo pomáhat lokalizovat přeživší na místě katastrofy.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Aktuální Metody vs Nový Model

Aktuální metody pro robotické vidění a navigaci se zaměřují hlavně na 3D mapování, které umožňuje robotům rekonstruovat své prostředí ve třech dimenzích v reálném čase, nebo sémantické segmentace, které se vyskytují, když roboti klasifikují funkce v prostředí jako sémantické objekty, jako je auto versus kolo. Sémantické segmentace se často provádějí na 2D obrazech.

Nově vyvinutý model prostorového vnímání je první svého druhu, který generuje 3D mapu prostředí v reálném čase a označuje objekty, lidi a struktury v rámci 3D mapy současně.

Aby bylo možné dosáhnout tohoto nového modelu, výzkumníci se spoléhali na Kimera, open-source knihovnu. Kimera byla dříve vyvinuta stejným týmem pro konstrukci 3D geometrického modelu prostředí, zatímco současně kódování toho, co je objekt pravděpodobně, jako je židle versus stůl.

“Jako mytologická bytost, která je směsí různých zvířat, jsme chtěli, aby Kimera byla směsí mapování a sémantického porozumění ve 3D,” říká Carlone.

Kimera používala obrázky z robotovy kamery a inerciální měření z palubních senzorů k rekonstrukci scény jako 3D mřížky v reálném čase. K tomu využila neuronovou síť, která byla trénována na milionech reálných obrazů. Mohla pak předpovědět popisek každého pixelu a použít ray-casting k jejich projekci ve 3D.

Pomocí této techniky může být robotovo prostředí mapováno v trojrozměrné mřížce, kde každá strana je barevně kódována, identifikující se jako část objektů, struktur nebo lidí v prostředí.

3D Mřížka na 3D Dynamické „Scénické Grafy“

Protože 3D sémantický model mřížky vyžaduje大量 výpočetní síly a je časově náročný, výzkumníci použili Kimera k vývoji algoritmů, které vedly k 3D dynamickým „scénickým grafům”.

3D sémantická mřížka se rozkládá na samostatné sémantické vrstvy a robot může pak prohlížet scénu prostřednictvím vrstvy. Vrstvy sahají od objektů a lidí, přes otevřené prostory a struktury, až po pokoje, chodby, sály a celé budovy.

Tato vrstvená metoda umožňuje robotovi zúžit své zaměření, místo aby musel analyzovat miliardy bodů a stran. Tato vrstvená metoda také umožňuje algoritmům sledovat lidi a jejich pohyb v prostředí v reálném čase.

Nový model byl testován v foto-realistické simulaci, která simuluje robota navigujícího v kancelářském prostředí s pohybujícími se lidmi.

“V podstatě umožňujeme robotům mít mentální modely podobné těm, které používají lidé,” říká Carlone. “To může mít dopad na mnoho aplikací, včetně samořízených aut, vyhledávání a záchrany, spolupracující výroby a domácí robotiky.

Carlone byl doprovázen vedoucím autorem a studentem MIT Antoni Rosinolem.

“Náš přístup byl umožněn díky nedávným pokrokům v hlubokém učení a desetiletím výzkumu o simultánní lokalizaci a mapování,” říká Rosinol. “S touto prací děláme skok směrem k nové éře robotického vnímání nazvané spatial-AI, která je teprve v plenkách, ale má velký potenciál v robotice a velké virtuální a rozšířené realitě.”

Výzkum byl prezentován na konferenci Robotics: Science and Systems virtual conference.

Alex McFarland

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.