Myslitelé
Učili jsme roboty chodit. Nyní je učíme žít

Moderní robotika dospěla do fáze, kdy pohyb již není hlavní výzvou – stroje již mohou navigovat, uchopení a operovat v prostoru s působivou přesností. Přesto umožnění jim skutečně “žít” a fungovat ve skutečném světě zůstává nevyřešeným problémem.
V tomto procesu hraje klíčovou roli to, co by se dalo nazvat “míchou”: systém zodpovědný za základní reakce, chování a interakci s prostředím.
Když se podíváme na vývoj robotů skrze tuto optiku, stává se zřejmým, že tato posloupnost fází – kde systém naučí něco nového v každém kroku, od jednoduchého pohybu k komplexním, kontextově vědomým akcím – úzce připomíná lidský vývoj.
A je právě v tomto vývoji – od “prázdného” hardwaru k smysluplnému chování – že se dnes děje hlavní posun v fyzické AI. Zajímavé je to prozkoumat hlouběji.
Základ robotiky: fáze, která se málokdy diskutuje
Co je robot v praktických termínech? Je to fyzické zařízení původně vytvořené jako univerzální platforma. V podstatě je to “prázdná stránka”, která musí být poté přizpůsobena konkrétním úkolum, naučena operovat v daném prostředí a učit se provádět požadované akce.
Pokud se přesuneme za každodenní scénáře a zvažujeme více realistické blízké budoucnosti aplikace, stává se zřejmým, že plné přijetí robotů se bude primárně vyskytovat v průmyslových a potenciálně nebezpečných prostředích. To následněimplikuje významně vyšší požadavky na jejich chování, robustnost a kvalitu školení.
Proces začíná s nejjednoduššími kroky – sestavením zařízení samotného. Robot se skládá z mnoha komponent, včetně aktuátorů, motorů, senzorů, kamer, LiDARů. Může být humanoidní, kolečkový, bipedální nebo kvadrupedální – formát je sekundární. Co záleží, je to, že v této fázi skončíme s funkčním, ale stále “prázdným” zařízením.
Následující fáze je instalace základního modelu, který slouží jako základ pro jeho chování. V širokém smyslu je “model” celý funkční kontrolní vrstva. Je zodpovědný za základní schopnosti: udržení rovnováhy, stání a pohyb, navigace z bodu A do bodu B, vyhnutí se překážkám, nezpůsobení poškození prostředí a bezpečné interakce s lidmi.
Tady vstupuje do hry upevňující se učení. V takových systémech se spouští miliardy simulací. Často vidíme videa robotů “učení” se v komplexních prostředích: většina z nich spadne, ztratí rovnováhu nebo nedokáže dokončit úkol. Ale ti, kteří se dokážou udržet vzpřímeně a pokračovat v pohybu, jsou ti, kteří postupují.
Toto je podstata upevňujícího se učení: výběr úspěšného chování. Algoritmy těch, kteří “přežijí”, se stávají základem pro následující iterace. Jako výsledek, po enormním množství běhů, vyvstává model, který může sebevědomě zvládnout překážky. Tento algoritmus se poté přenese do fyzického zařízení.
Je to zakořeněná, ale kriticky důležitá fáze – často zahrnující málo nebo žádné počítačové vidění, které není vyžadováno v tomto bodě. S tím, co se zde zabýváme, je fundamentální fyzika a mechanika, které musí být vloženy do systému od samého začátku.
Jak roboti začínají “cítit” svět
Takže, už máme “hardwar”: robota s nainstalovaným základním modelem: může stát, chodit a udržovat rovnováhu. Ale je to dostatečné pro reálné úkoly, například v průmyslových prostředích? Zřetelně ne.
Následující úroveň začíná zde. Integrujeme senzory a učíme model jednat na základě senzorických vstupů. Nová vrstva základních dovedností vyvstává – už daleko komplexnější než jednoduchý pohyb.
Analogie s lidským vývojem je zde užitečná. V první fázi jsme přivedli systém na úroveň zhruba jednoho roku starého dítěte: může stát, udělat první kroky a udržovat rovnováhu bez pádu. Následující krok je více v souladu s úrovní osmiletého dítěte.
V tomto věku dítě aktivně používá své “senzory”: může vnímat riziko a vyhodnotit důsledky svých akcí. Chápe, že by nemělo dotknout se něčeho horkého nebo vložit něco velmi studeného do úst. Může vylézt na stůl, jet na kole a interagovat s objekty. Je schopno uchopení, nošení a manipulace s předměty a provádění základních samoobslužných akcí.
Označujeme tuto fázi jako předběžné školení. A v tomto bodě již simulace samotné nejsou dostatečné.
Ano, některé scénáře mohou být stále účinně modelovány: jak vzít sklenici, nebo vyměnit baterii, například odstranění jednoho komponentu, umístění jej na nabíječku, vzít další a instalovat jej zpět.
Ale celkově se rovnováha posouvá: kolem 80 % školení může stále probíhat v simulaci, zatímco asi 20 % dat musí pocházet ze skutečného světa. A právě zde začínáme diskutovat egocentrická data.
Egocentrická data jako základ porozumění prostředí
Dnes se egocentrická data sbírají v masivním měřítku po celém světě – protože bez nich není možné přejít od základních mechanik k smysluplné interakci se skutečným světem. Můj kolega, který řídí síť autoservisů, má zaměstnance, kteří používají kamery nasazené na hlavě, aby nahráli celý proces opravy auta. Majitel budovy v New Yorku implementoval podobný přístup: uklízeči nosí čelní kamery, které zachycují, jak čistí prostory a udržují hygienické oblasti.
S časem se tyto nahrávky stávají samostatným produktem – jsou zabalené a prodané. Jejich klíčová hodnota spočívá v jejich vhodnosti pro fázi předběžného školení, pomáhající budovat základní porozumění prostředí a sekvencí akcí.
Například taková služba existovala na Keymakr, kde tým nezávisle vytvořil celé sbírky egocentrických dat od jednoduchých scénářů, jako je mytí nádobí, až po komplexnější.
Proč je to tak důležité? Protože taková data poskytují něco, co čistá simulace nemůže – rozmanitost skutečných prostředí. Kanceláře, autoservisy, staveniště, restaurace a hotely – každá z nich přidává svou vlastní kontext, scénáře a nuance. Společně tvoří dataset, který umožňuje systému ne jen “vidět”, ale postupně začít chápat dynamiku skutečného světa.
V této fázi již není cílem učit robota dokonale provést konkrétní akci. Co záleží více, je umožnění mu orientovat se ve svém okolí na prvním místě.
Dnes téměř všechny společnosti pracující v robotice – od Tesla po Unitree Robotics a Figure AI – se soustředí na tuto přesně fázi. Jejich cílem je postavit základový model, jehož schopnosti nejdříve připomínají ty “osmiletého dítěte”, a poté postupují směrem k “dvanáctiletému”. To je také to, na čem se soustředíme v Introspector – připravujeme data vyžadovaná pro předběžné školení, nejkritičtější fázi ve “dospívání” moderní robotiky.
Poslední míle školení: kde univerzálnost končí a specializace začíná
Představme si, že robot již dokončil předběžné školení a je vyroben od začátku s základním porozuměním světa a souborem dovedností srovnatelným s tím teenagera. Ale ani to není dostatečné pro reálné obchodní případy. Společnosti nepotřebují jen “univerzálního” robota – potřebují specialistu.
Vezměme si výrobu automobilů jako příklad. Některé úkoly jsou stále prováděny lidmi, protože vyžadují citlivost, přesnost a kontinuální vizuální kontrolu. Tradiční automatizace zde bojuje. Průmyslové manipulátory vynikají v opakujících se, rigidních úkolech – “zvednout, přesunout, umístit”. Ale úkoly, které vyžadují adaptabilitu, tlakové snímání a reálné úpravy, zůstávají v lidské doméně.
Tady vyvstává nová poptávka: naučit robota provést konkrétní operaci přesně jako zkušený pracovník na výrobní lince. Jinými slovy, po základním školení přichází další úroveň: školení pro konkrétní profesi a scénář.
V tomto bodě vyvstává praktická otázka: co přesně je vyžadováno pro tuto úroveň školení? Pokud chceme, aby robot replikoval lidské výkony, potřebujeme zachytit to lidské chování co nejpřesněji. Například specialista na tovární podlaze by musel nosit kameru a po delší dobu, měsíce nebo dokonce rok, nahrát, jak provádí úkol.
Co je potřeba, aby roboti “žili” v lidském světě
Kamera sama o sobě nestačí. Je nutné zachytit nejen vizuální perspektivu, ale také fyziku pohybu. To se provádí pomocí specializovaných rukavic s taktilními senzory, které měří tlak, aplikovanou sílu a povahu interakce s objekty. To je zejména důležité, protože objekty samy mohou značně variovat. Například těsnicí pásky se mohou lišit v tuhosti podle modelu auta, což přímo ovlivňuje, jak je úkol proveden.
Další je kinematické sledování. Značky – vizuální nebo senzorové – se umístí na zápěstí, loktech a někdy ramenou. Tyto mohou zahrnovat, například, náramky s identifikovatelnými značkami (podobné QR kódům), které umožňují systému sledovat polohu ruky v prostoru z videa. Další senzory, jako gyroskopy, se používají pro zachycení pohybů kloubů.
Konečným cílem je plně rekonstruovat mechaniku pohybu: jak se rameno pohybuje, jak se loket ohýbá, jak se zápěstí otáčí. To vše se stává nezbytným pro následující fázi – post-školení.
Pokud během předběžného školení jsme mohli stále částečně spoléhat na simulaci, v této fázi již to nefunguje. Tato “poslední míle” je téměř nemožné modelovat přesně. Nemůžete plně simulerovat, například, jak šéfkuchař rozválí těsto – aplikovanou sílu, jak je tlak rozložen, jak je materiál cítit.
Proto během post-školení téměř všechna data musí pocházet ze skutečného světa. A právě zde se stává zřejmým: hlavní výzva se posouvá do praktické domény – jak získat taková data ve skutečnosti. Sběr egocentrických dat na této úrovni je složitý, vícekrokový proces, který zahrnuje přístup k prostředím, specializované vybavení, účast zkušených pracovníků a následnou přípravu dat.
Mimo teorii je to místo, kde roboti skutečně “přicházejí k životu” – poté, co zvládneme uspořádat tento proces, překonat omezení, kterým čelí týmy napříč průmysly, a anotovat taková data ve velkém měřítku. To bude pokryto v další části, kde se budeme blíže zabývat všemi výzvami, které vyvstávají během jejich označení a přípravy.












