Connect with us

Myslitelé

Skutečná cena školení robotů

mm

V první části jsme diskutovali, jak se roboti vyvíjejí od základních mechanik až po pochopení svého prostředí. Ve fázi “posledního míli” – kdy roboti absolvují post-školení pro specifické, přizpůsobené úkoly – se objeví neočekávaná bariéra. Je spojena s daty: jejich sběrem, organizací a škálováním v reálných podmínkách.

Přesně v této fázi se mezera mezi konceptem a implementací stává nejzřetelnější. Jaké jsou klíčové úzká místa a jak je lze překonat s minimálním třením?

Proč tisíce hodin dat se proměňují v roky práce

Tak si představme, že už máme vyškoleného robota, který absolvoval předběžné školení. Může navigovat ve svém okolí, pohybovat se, vyhýbat se překážkám a interagovat s objekty. Je to jako “desetileté dítě”, které je obecně schopné jednat nezávisle. Další krok spočívá v tom, aby se naučil provádět specifické akce za specifických podmínek, například instalovat skleněné panely a těsnicí proužky na automobilní výrobní lince.

Na první pohled se úkol zdá jednodušší. Spočívá v ovládnutí jediného scénáře a objem dat, který je vyžadován, je podstatně menší než během předběžného školení. Zatímco základní školení může vyžadovat stovky tisíc hodin, post-školení může trvat pouze tisíce. Ale tato čísla jsou zavádějící.

Když jsou přeložena do reálného času, proces odhaluje svou skutečnou složitost. Za standardního pracovního rozvrhu pracuje člověk asi 160 hodin měsíčně. To však neznamená, že veškerý tento čas lze využít pro záznam.

V praxi dochází k neustálým přerušením: baterie se vybíjejí, kamery se posunou, senzory selhávají. Čím je složitější vybavení, tím vyšší je pravděpodobnost problémů. I jednoduchá závada, jako je selhání senzorů na rukavicích, může zastavit proces a vést ke ztrátě času.

Jako výsledek je skutečná rychlost sběru dat 2-3krát nižší. Jedna hodina vysoké kvality záznamu může vyžadovat až tři hodiny reálné práce. To radikálně mění výpočet: 5 000 hodin dat se překládá do přibližně 15 000 hodin práce.

Vrstvy složitosti

Během předběžného školení může stačit dát člověku kameru a požádat ho, aby nahrál každodenní činnosti. V této fázi je však vyžadován přístup ke specifickému prostředí, jako je továrna, staveniště nebo specializované výrobní zařízení.

To okamžitě zavádí praktické omezení. Například na staveništi jsou pracovníci povinni nosit bezpečnostní přilby, což znamená, že je třeba vyvinout specializované vybavení: přilby s integrovanými kamerami, které jsou odolné proti prachu, vlhkosti a nárazu.

Pak je tu přístup na místo samotné. Je třeba uzavřít dohody s majiteli místa, získat povolení a sjednat podmínky. To téměř vždy zahrnuje dodatečné náklady: společnosti očekávají kompenzaci a pracovníci očekávají, že budou placeni za účast.

Pojištění a dodržování bezpečnostních předpisů se také stávají kritickými problémy. Pokud vybavení nesplňuje požadované standardy, pojištění může být zrušeno, což nutí整个 proces restrukturalizovat.

I na úrovni denních operací přetrvávají výzvy. Kamery musí být zapnuty, monitorovány a udržovány. Pracovníci pracují v rukavicích a drsných podmínkách. Vybavení se znečišťuje, opotřebovává a rozbití. Kamera se může vypnout po několika minutách a osoba si toho možná ani nevšimne.

To vytváří potřebu, aby se účastníci sami školovali – musí rozumět, jak používat vybavení. Kromě toho je vyžadováno nepřetržité dohled. Někdo musí zajistit, aby záznam pokračoval a zařízení fungovala správně.

Od surového videa k tréninkovým datům

Po nahrání začíná další fáze: sběr dat, nahrání, strukturalizace, ověření kvality a označení.

Jakákoliv surová data se skládají z videozáznamu a signálů senzorů. Aby se z nich stalo tréninkový materiál, musí být strukturalizována: objekty musí být identifikovány, akce zachyceny a stavy, pohyby a interakce s prostředím popsány. To je místo, kde vstupuje do hry anotace. Logická otázka vzniká – co je zlatý standard pro takový anotační workflow?

V některých případech stačí jednoduché obdélníky pro identifikaci objektů v rámci. V jiných případech je vyžadována temporální anotace pro popis sekvencí akcí v čase. V určitých scénářích se používají klíčové body a skeletální modely pro zachycení pohybů těla. V složitějších případech se používají 3D mřížky nebo sledování polohy ruky pro přesné znázornění interakčních mechanismů. Často se integrují další senzory, jako jsou akcelerometry, pro zachycení dynamiky pohybu a aplikované síly.

Projekty, jako je tento, také často vyžadují škálování týmu. Označení je velkou a složitou úlohou, která vyžaduje čas, odborné znalosti a podstatné lidské zdroje. To je místo, kde vstupují do hry poskytovatelé datových řešení s vlastními anotačními týmy. Jako Keymakr, který se ukázal jako zvláště efektivní díky své schopnosti škálovat týmy na libovolný objem dat, od jediného specialisty až po stovky anotátorů.

Neexistuje správný přístup ke školení

Průmysl je stále ve fázi výzkumu, protože neexistuje shoda na tom, která kombinace dat poskytuje nejlepší výsledky. Mnoho přístupů je ověřeno empiricky, protože fungují ve specifických experimentech. Jako výsledek pokračují různé týmy v závislosti na různých technologiích, které jsou tvarovány jejich vlastními zkušenostmi, úkoly a omezeními.

Na akademické i aplikované úrovni to vede k fragmentaci: laboratoře a společnosti se pohybují v různých směrech. Situace připomíná rané dny autonomního řízení, kdy Tesla vsadila na přístup založený pouze na vidění bez LiDARu, zatímco většina ostatních hráčů zvolila LiDAR jako základní senzor.

Dnes tendují LiDARové systémy k prokázání stabilnějšího výkonu, zatímco přístup Tesly pokračuje v evoluci. Rozdíl spočívá v tom, že v autonomním řízení se trh již podstatně zral: stabilní architektury se objevily, omezení jsou dobře pochopena a podstatné odborné znalosti byly nahromaděny.

Naopak pro Physical AI a podobné modely školení nebyla dosud dosažena tato úroveň zralosti. Trh se stále formuje, chybí standardy a většina pokroku je poháněna experimentováním. Nové metody pro školení modelů, zlepšování efektivity a přizpůsobování se reálným scénářům pokračují v objevování, což naznačuje, že nejvýznamnější průlomy v tomto oboru jsou stále před námi.

Člověk jako posilovací systém

Označení neexistuje v izolaci, ani pro model samotný. Slouží jako nástroj pro inženýra, který buduje tento model. Prostřednictvím něj formalizuje realitu, identifikuje klíčové parametry a definuje pravidla chování systému.

Úkol inženýra spočívá v tom, aby naučil systém provádět akce správně v reálných podmínkách. Například základní scénář může sestávat ze čtyř akcí: vzít sklo, zapnout kohoutek, naplnit ho a vypnout kohoutek. Ale v realitě dochází k odchylce – sklo přeteče.

V tomto okamžiku se od modelu očekává, že dokončí scénář a provede další akce: zastaví tok vody, upraví úroveň vody a zabrání rozlití. To je behaviorální logika založená na kontextuálním pochopení.

Inženýr následuje cyklus: označí data, vyškolí model, otestuje ho. Pokud systém funguje, hypotéza je potvrzena. Pokud ne, začíná analýza.

V某 okamžiku může být jasné, že model chybí důležitý parametr, jako je úroveň plnění skla. Předtím mohla data zahrnovat označení pro objekty (sklo, kohoutek, rukojeť) a akce (otevření, plnění, zavření), ale postrádala označení pro stav, jako je stupeň plnosti.

Nová vrstva je pak přidána do procesu: označení úrovně plnění, následované formalizací, například definováním čehokoliv nad 85% jako kritického stavu.

To vede k další iteraci školení. Můžete mít stovky takových iterací.

Nikdo nepředpokládá, že systém bude fungovat správně okamžitě. Naopak, proces je postaven kolem sukcesivních aproximací: nejprve je vytvořena základní verze; pak je otestována v reálných nebo téměř reálných podmínkách; jsou identifikovány mezery; a systém je rafinován. To je něco, co často diskutuji s klienty v Introspector, se kterými procházíme celou cestu Physical AI společně.

V某 okamžiku je dosaženo požadovaného výsledku. Ale jeho hodnota spočívá nejen v tom, že systém začíná fungovat, ale v nahromaděné zkušenosti, která umožňuje tento výsledek reprodukovat předvídatelněji.

Ekonomika, kterou všichni zapomínají

Za poslední rok nebo tak jsem si všiml, že největší chyba, kterou společnosti dělají, když pracují s egocentrickými daty, má málo co do činění s technologií.

Jádro problému spočívá ve skutečnosti, že společnosti podceňují ekonomiku projektu.

Ve fázi nápady je technologie na prvním místě – které modely použít, jak je trénovat a které přístupy aplikovat. Studujete, zkoumáte, diskutujete architektury a testujete hypotézy. To je přirozené: technologie se zdá být nejzřetelnější a nejzjevnější částí problému.

Ale mnohem méně často se týmy ve této fázi ptají přímé a praktické otázky: kolik to bude stát?

Když projekt přechází z teorie do implementace, stává se jasné, že za každým modelem jsou desítky tisíc hodin dat. Sběr těchto dat vyžaduje čas, přístup k reálným prostředím a zapojení specialistů. Označení přidává další vrstvu složitosti a nákladů. Jako výsledek jsou konečná čísla často o několik řádů vyšší, než se původně očekávalo.

To neznamená, že takové projekty by se neměly realizovat. Naopak, jsou to projekty, které pohánějí průmysl vpřed.

Ale co je důležité, je pochopit rozsah výzvy od samého začátku. Rozpoznat, že při školení modelů je za každým úžasným algoritmem složitá, náročná na zdroje práce s daty.

I silné nápady selhávají v dosažení plné implementace, když náklady na data začínají stoupat vysoko nad sedmimístná čísla.

A možná nejdůležitější posun, který se dnes děje v robotice, je spojen s touto realizací. Budoucnost těchto systémů bude definována jejich “inteligencí” a tím, jak efektivně a přesně je celý datový pipeline postaven – od sběru dat až po konečnou interpretaci.

Michael Abramov je zakladatel a CEO Introspector, který přináší více než 15 let zkušeností se softwarovým inženýrstvím a systémy počítačového vidění AI do budování nástrojů pro označování podnikové třídy.

Michael začal svou kariéru jako softwarový inženýr a manažer výzkumu a vývoje, budování škálovatelných datových systémů a řízení mezioborových inženýrských týmů. Do roku 2025 působil jako CEO Keymakr, společnosti poskytující služby označování dat, kde průkopnickým způsobem zaváděl pracovní postupy s lidskou účastí, pokročilé systémy QA a speciální nástroje na podporu velkých počítačových vidění a autonomních datových potřeb.

Vystudoval bakalářský studijní program v oboru počítačové vědy a má背景 v inženýrství a tvůrčích uměních, což mu umožňuje přistupovat k řešení složitých problémů z mezioborového hlediska. Michael žije na rozhraní technologických inovací, strategického produktového vedení a skutečného dopadu, přičemž pohání další hranice autonomních systémů a inteligentní automatizace.