Myslitelé
Uvnitř nové robotické soutěže: Data, modely a výroba

Inovace se zřídka objevují v izolaci. Často se rodí v rozhovorech mezi inženýry, zakladateli, výzkumníky a investory, kteří se snaží pochopit, kam se technologie ubírá.
Během roku jsem navštívil desítky konferencí po celém světě. Obchodní cesty někdy trvají měsíce a setkání s partnery a klienty se konají od Asie po Severní Ameriku. Ale jedna z mých nedávných cest do Švýcarska se ukázala být zvláště zajímavou – zejména kvůli lidem a rozhovorům, které tam probíhaly.
Curych se ukázal jako jedno z míst, kde se dnes aktivně diskutuje o budoucnosti robotiky a Physical AI. A čím hlouběji tyto rozhovory postupují, tím více je zřejmé, že skutečná soutěž v robotice se odehrává kolem dat.
Evropa의 Silicon Valley
Curych byl tradičně spojen s finančním sektorem, ale v posledních letech je stále více označován jako Evropa의 Silicon Valley. Velká část této pověsti je spojena s ETH Curych, jednou z nejuznávanějších inženýrských univerzit v Evropě. Přitahuje výzkumníky, doktorandy, podnikatele a inženýry z celého světa. V důsledku toho se kolem univerzity vytvořil silný technologický ekosystém, kde výzkum, startupy a průmyslové projekty probíhají téměř současně.
Jedním z důvodů mé cesty bylo získat hlubší pochopení toho, co Introspector může nabídnout trhu s robotikou, který boomuje od začátku roku 2025. Je to průmysl, do kterého se snaží vstoupit široká škála startupů, zatímco technologické průlomy ze strany velkých technologických společností aktivně mění trh. Přestože je zde tolik impulzů, obor stále vyvolává více otázek než odpovědí.
Curych je také domovem našich partnerů Lightly, kteří mi pomohli seznámit se s kolegy, kteří pracují na rozhraní robotiky, počítačového vidění a umělé inteligence. Existuje jeden důležitý aspekt místního technologického ekosystému, který bych chtěl zdůraznit: lidé zde jsou pozoruhodně otevření a vstřícní. Není jim strach sdílet své nápady a hypotézy, mluvit o výzvách, kterým čelí, a experimentech, které provádějí. V důsledku toho začínáte mnohem rychleji chápat skutečný kontext trhu a kam se průmysl ubírá.
Mezi tím, když lidé ptají, jak se evropské “Silicon Valley” liší od amerického, odpověď je často překvapuje. V Curychu je rovnováha mezi prací a životem mnohem silnější: sporty ráno, soustředěná práce během dne v klidném, ale produktivním rytmu, a večery strávené v horách s rodinou nebo prostě relaxací. V San Francisku je často pocit, že musíte neustále prokazovat, že pracujete tvrději než všichni ostatní. V Curychu je tempo jiné – udržitelnější. Přesto je úroveň technologické ambice zde nikoli nižší.
Lepší data před lepšími roboty
Jedním z hlavních závěrů z této cesty byla poměrně jednoduchá pozorování: mnoho lidí dnes chce pracovat v robotice. Ale navzdory enormnímu zájmu o průmysl jsou mnohé týmy stále ve fázi výzkumu, snaží se pochopit, jakou roli mohou hrát v nové vlně robotiky a Physical AI, a jaký příspěvek mohou udělat.
Mnohé rozhovory nakonec konvergují na stejnou téma: data. Dnes průmysl postrádá data o jemných motorických dovednostech, tj. jemných motorických dovednostech. V této oblasti jsou schopnosti robotů extrémně omezené. Co lidé dělají svýma rukama téměř automaticky – zvedání objektu, otočení, pečlivé umístění někam, nebo provedení malé manipulace – zůstává jednou z nejobtížnějších úkolů pro roboty.
Klíč k pokroku zde leží primárně ve velkých, správně shromážděných datech. Dnes lidé často mluví o egocentrických datech, zaznamenaných z první osoby, kde systém zachycuje lidské akce, jako by je sám prováděl. Avšak v praxi se ukazuje, že samotný koncept “egocentrických dat” může znamenat velmi odlišné věci a vyvolává řadu technických otázek. Kde by měla být kamera umístěna? Na čele, na hrudi, nebo perhaps na úrovni očí? Jaké senzory by měly doprovázet videozáznam? Pokud zachycujeme pohyby rukou, měli by operátoři používat speciální rukavice? A pokud ano, měly by tyto rukavice obsahovat taktilní senzory, gyroskopy nebo jiné systémy pro sledování pohybu?
Ještě složitější otázka vyvstává: jak správně zachytit hloubku pohybu. Je důležité pochopit nejen polohu ruky v dvourozměrné rovině, ale také, jak se pohybuje třemirozměrným prostorem – dopředu, dozadu, nahoru nebo dolů.
Dosud průmysl nedosáhl jednotné odpovědi. Proto mnoho týmů dnes experimentuje s různými konfiguracemi senzorů, metodami záznamu a formáty dat.
Multimodální systémy
Jakmile se rozhovor otočí na sběr dat pro robotiku, další téma rychle vyvstává – další senzory a multimodalita, které umožňují zachytit pohyby těla, akce rukou a interakce s objekty s větší přesností. Také pomáhají snížit chyby během sběru dat.
Když osoba zaznamenává své akce na kameru, existuje vždy riziko, že část materiálu bude nepoužitelná. Kamera se může mírně pohnout, úhel záběru může být nesprávný, operátor se může náhodou otočit špatným směrem, nebo operátor může provést pohyb příliš rychle. V důsledku toho je značná část zaznamenaného materiálu odstraněna. Jednoduchý příklad: aby se získala jedna hodina skutečně použitelného videa, operátor často potřebuje zaznamenat kolem dvou hodin surového materiálu.
Další senzory pomáhají kompenzovat některé z těchto problémů. I když se kamera mírně pohne, data ze senzorů mohou stále umožnit rekonstrukci pohybu ruky nebo polohy těla v prostoru. V důsledku toho místo dvou hodin záznamu může stačit přibližně jedna hodina a dvacet minut, aby se získala stejná množství použitelných dat. To výrazně zvyšuje efektivitu sběru dat a snižuje náklady na jejich vytváření.
Není tedy náhodou, že mnoho týmů také zaznamenává rostoucí zájem o multimodální anotaci dat. To se stalo jedním z více viditelných trendů přímo spojených s rozvojem robotiky a embodované umělé inteligence.
Dalším bodem je označení takových dat. Setkali jsme se s podobnými otázkami v Keymakr, když jsme pracovali s klienty na datech pro robotiku: jak by takové označení mělo vypadat v praxi? Mělo by být skeletální? Dvourozměrné nebo trojrozměrné? Měly by být zahrnuty prvky učení s posilováním do potrubí? Existuje desítky takových otázek. Inženýři sami přiznávají, že dosud nikdo nemůže s jistotou říci, která konkrétní konfigurace dat nakonec povede k skutečnému technologickému průlomu.
Tyto obavy jsou pochopitelné. Budování komplexních dat je nákladný proces. Každá chyba ve struktuře dat může stát tisíce nebo dokonce miliony dolarů. Je možné shromáždit “špatná” data nebo zaznamenat je za podmínek, které jsou obtížně reprodukovatelné ve skutečném světě, nakonec podkopávající celý projekt. Právě proto se dnes věnuje stále více pozornosti jak samotným modelům, tak kvalitě a architektuře dat, na kterých jsou tyto modely trénovány.
Jaké roboty potřebuje trh?
Klasické průmyslové roboty, které fungují na automobilových montážních linkách po desetiletí, vlastně vyžadují velmi málo počítačového vidění nebo komplexních modelů umělé inteligence. Jejich úkolem je extrémně specifický: provést striktně opakované pohyby – vlevo, vpravo, nahoru, dolů – s vysokou přesností a konzistencí. V této oblasti již dlouho překonali lidi.
Úplně jiná kategorie jsou humanoidní roboti. Tyto systémy vyžadují “mozky”: schopnost navigovat v prostoru, vnímat okolní prostředí, pochopit kontext situace a ovládat manipulátory ne prostřednictvím předem naprogramovaných trajektorií, ale přizpůsobením se skutečnému světu.
I přes vysokou úroveň automatizace na moderních továrních podlahách jsou mnohé úkoly stále prováděny lidmi. Přesunutí objektu, zvednutí krabice, seřazení součástí, upevnění součásti nebo organizace materiálů – tyto jsou malé akce, které vyžadují flexibilitu a koordinaci. Tato oblast zůstává jednou z nejobtížnějších na automatizaci, a je přesně zde, kde humanoidní systémy mohou najít svou roli.
Mnohé z týmů, se kterými jsem mluvil, používají podobný obchodní model. Přístupují k továrně a navrhují řešení konkrétního výrobního případu. Například pracovník může strávit celý den přesouváním krabic mezi skladovými zónami. Inženýři navrhují relativně jednoduchý experiment: vybavit pracovníka kamerou a sadou senzorů, zaznamenat tisíce hodin jejich akcí a použít tato data k trénování modelu, který bude ovládat humanoidního robota. Takto se robot učí provádět přesně ty úkoly, které provádí lidský pracovník.
V podstatě společnost kupuje humanoidní platformu, zatímco vývojový tým buduje přizpůsobený model, který replikuje chování konkrétního operátora. To není univerzální inteligence schopná řešit jakýkoli úkol. Spíše se jedná o soubor dovedností trénovaných pro konkrétní scénář nebo skupinu výrobních úkolů. Pro mnoho inženýrů dnes se tato přístup zdá mnohem realističtější. Místo pokusu o vytvoření univerzálního robota okamžitě se týmy soustředí na úzké, ale ekonomicky životaschopné scénáře automatizace.
Obchodní rozměr
Pokud budoucnost leží v přizpůsobených modelech, je důležité pochopit, že z ekonomického hlediska je to poměrně dlouhá vývojová cesta.
Každý průmysl je vlastně svým vlastním světem. Každé výrobní prostředí má své vlastní procesy, pracovní postupy a výjimky. Robot trénovaný pro provoz v automobilové továrně nemůže být jednoduše přenesen do potravinářské výroby nebo skladové logistiky. V každém případě musí být systém přeškolován od začátku.
To vede k další logické otázce: kdo budou první zákazníci takové technologie?
V této fázi jsou primárními uživateli pravděpodobně velké podniky – ty, které mají rozpočty a pro které může automatizace generovat významný ekonomický dopad. Dnes stojí humanoidní robot přibližně 60 000 – 90 000 dolarů pouze za hardware. To je pouze základní konfigurace. K tomu jsou přidány náklady na údržbu, baterie, nabíjecí stanice, infrastrukturu a software.
V důsledku toho jsou společnosti, které jsou nejvíce schopné experimentovat s takovými systémy, velké organizace, automobilky, potravinářské korporace a velké průmyslové podniky.
Samozřejmě, menší sektory mohou také vidět některé rané uživatele. Některé společnosti mohou koupit jeden nebo dva roboty pro konkrétní úkoly. Avšak ve většině případů tyto podniky prostě nejsou připraveny investovat stovky tisíc eur do sběru a anotace přizpůsobených dat, která jsou vyžadována pro trénování systémů pro vysoce specifické provozní scénáře. Pro ně je lidská práce stále levnější možnost.
Dlouhá hra inovací v robotice
Nakonec dospíváme k fundamentální ekonomické otázce: co je efektivnější – člověk nebo robot? Pokud se podíváme na dnešní ekonomiku, odpověď je zřejmá: lidská práce je levnější, přizpůsobuje se novým podmínkám rychleji a nevyžaduje komplexní infrastrukturu.
Proč tedy průmysl pokračuje v investicích do robotiky dnes? Odpověď je převážně strategická.
Mnohé společnosti chápou, že určitá soutěž o technologické vedení je na místě. Již nyní vyvíjejí řešení, navzdory vysokým nákladům, aby byly vpředu, až se ekonomika robotiky změní.
Představte si, že nové regulace umožní rozsáhlé použití humanoidních robotů ve výrobě. Nebo že vlády začnou dotovat robotizaci průmyslu. V takovém scénáři by trh mohl dramaticky růst během pouhých několika let. A ti, kteří se připravili dopředu, kteří již mají modely, výzkum, data a technologickou infrastrukturu, budou těmi, kdo budou nejvíce profitovat.
Právě proto pokračuje vývoj i nyní, navzdory faktu, že ekonomika podnikání nemusí vypadat ideálně. Pro mnoho společností je to investice do budoucnosti – do okamžiku, kdy technologie budou více dostupné a poptávka prudce vzroste.
A v této soutěži, jako v mnoha technologických revolucích, často rozhoduje jeden faktor: kdo začal dříve. V tomto smyslu dnešní robotika silně připomíná rané fáze umělé inteligence. I tehdy byly více otázky než odpovědi. Přesto to byly týmy, které začaly pracovat s daty a infrastrukturou dříve než ostatní, které nakonec určily směr celého průmyslu.












