Liderzy opinii
Nauczyliśmy roboty, aby poruszać się. Teraz uczymy je żyć

Współczesna robotyka osiągnęła punkt, w którym ruch nie jest już głównym wyzwaniem – maszyny mogą już nawigować, chwytać i działać w przestrzeni z imponującą precyzją. Jednak umożliwienie im prawdziwego „życia” i funkcjonowania w świecie rzeczywistym pozostaje nierozwiązanym problemem.
W tym procesie kluczową rolę odgrywa to, co można by nazwać „rdzeniem kręgowym”: system odpowiedzialny za podstawowe reakcje, zachowanie i interakcję ze środowiskiem.
Gdy spoglądamy na ewolucję robotów przez tę perspektywę, staje się jasne, że ta sekwencja etapów – gdzie system uczy się czegoś nowego na każdym kroku, od prostego ruchu do złożonych, świadomych kontekstu działań – ściśle przypomina rozwój ludzki.
I to właśnie w tej ewolucji – od „pustego” sprzętu do znaczącego zachowania – zachodzi główna zmiana w fizycznej sztucznej inteligencji, która dzieje się dzisiaj. Ciekawe, aby dowiedzieć się o tym więcej głęboko.
Podstawa robotyki: etap rzadko dyskutowany
Co to jest robot w praktyce? Jest to urządzenie fizyczne początkowo stworzone jako uniwersalna platforma. W istocie jest to „pusty” element, który musi być następnie dostosowany do określonych zadań, przeszkolony do działania w danym środowisku i nauczonego wykonywać wymagane czynności.
Jeśli wyjdziemy poza codzienne scenariusze i rozważymy bardziej realistyczne aplikacje w najbliższej przyszłości, staje się jasne, że pełne przyjęcie robotów będzie miało miejsce głównie w środowiskach przemysłowych i potencjalnie niebezpiecznych. To z kolei oznacza znacznie wyższe wymagania dotyczące ich zachowania, wytrzymałości i jakości szkolenia.
Proces zaczyna się od najbardziej podstawowego kroku – budowy samej maszyny. Robot składa się z wielu komponentów, w tym siłowników, silników, czujników, kamer, LiDARów. Może być humanoidalny, kołowy, dwunożny lub czworonożny – kształt jest drugorzędny. Liczy się to, że na tym etapie kończymy z funkcjonalnym, ale wciąż „pustym” urządzeniem.
Następnym etapem jest zainstalowanie modelu podstawowego, który służy jako podstawa jego zachowania. W szerokim sensie „model” jest to cała warstwa kontrolna. Odpowiada za podstawowe możliwości: utrzymanie równowagi, stanie i poruszaniu, nawigowaniu z punktu A do punktu B, unikaniu przeszkód, nieuszkadzaniu środowiska i bezpiecznej interakcji z ludźmi.
To tutaj wkracza uczenie się wzmocnione. W takich systemach uruchamiane są miliardy symulacji. Często widzimy filmy, na których roboty „uczą się” w złożonych środowiskach: większość z nich upada, traci równowagę lub nie jest w stanie wykonać zadania. Ale te, które udaje się utrzymać na nogach i kontynuować ruch, są tymi, które postępują.
To jest istota uczenia się wzmocnionego: wybór udanego zachowania. Algorytmy tych, którzy „przetrwają”, stają się podstawą dla następnych iteracji. W wyniku ogromnej liczby przebiegów pojawia się model, który może pewnie radzić sobie z przeszkodami. Ten algorytm jest następnie przenoszony na urządzenie fizyczne.
Jest to ugruntowany, ale krytycznie ważny etap – często niezwiązany z widzeniem komputerowym, które nie jest wymagane na tym etapie. Mamy tu do czynienia z podstawową fizyką i mechaniką, które muszą być wbudowane w system od samego początku.
Jak roboty zaczynają „czuć” świat
Mamy już „sprzęt” – robota z zainstalowanym modelem podstawowym: może stać, chodzić i utrzymywać równowagę. Ale czy to wystarczy dla zadań w świecie rzeczywistym, na przykład w środowiskach przemysłowych? Oczywiście nie.
Następny poziom zaczyna się tutaj. Integrujemy czujniki i trenujemy model, aby działał na podstawie danych sensorycznych. Pojawia się nowa warstwa podstawowych umiejętności – już znacznie bardziej złożona niż proste poruszanie się.
Przydatna jest tu analogia z rozwojem ludzkim. Na pierwszym etapie doprowadziliśmy system do poziomu około rocznego dziecka: może stać, zrobić pierwsze kroki i utrzymać równowagę bez upadku. Następny krok jest bardziej zgodny z poziomem ośmioletniego dziecka.
W tym wieku dziecko aktywnie używa swoich „czujników”: może postrzegać ryzyko i oceniać konsekwencje swoich działań. Rozumie, że nie należy dotykać czegoś gorącego lub wkładać czegoś bardzo zimnego do ust. Może wspiąć się na stół, jeździć na rowerze i wchodzić w interakcje z obiektami. Potrafi chwytać, przenosić i manipulować przedmiotami oraz wykonywać podstawowe czynności pielęgnacyjne.
Nazywamy ten etap pre-trenowaniem. I na tym etapie same symulacje już nie są wystarczające.
Tak, niektóre scenariusze mogą nadal być skutecznie modelowane: jak podnieść szklankę lub wymienić baterię, na przykład usuwając jeden komponent, umieszczając go na ładowarce, biorąc inny i instalując go z powrotem.
Ale ogólnie rzecz biorąc, równowaga przesuwa się: około 80% treningu może nadal odbywać się w symulacji, podczas gdy około 20% danych musi pochodzić ze świata rzeczywistego. I to jest miejsce, w którym zaczynamy dyskutować o danych egocentrycznych.
Dane egocentryczne jako podstawa zrozumienia środowiska
Dziś dane egocentryczne są zbierane na ogromną skalę na całym świecie – ponieważ bez nich nie można przejść od podstawowej mechaniki do znaczącej interakcji ze światem rzeczywistym. Mój kolega, który prowadzi sieć warsztatów samochodowych, ma pracowników, którzy używają kamer zamontowanych na głowie, aby nagrać cały proces naprawy samochodu. Właściciel budynku w Nowym Jorku wdrożył podobne podejście: personel sprzątający nosi kamery zamontowane na czole, które rejestrują, jak sprzątają przestrzenie i utrzymują obszary sanitarne.
Z biegiem czasu te nagrania stają się samodzielnym produktem – są pakowane i sprzedawane. Ich kluczowa wartość leży w ich przydatności do etapu pre-trenowania, pomagając budować podstawowe zrozumienie środowisk i sekwencji działań.
Na przykład taka usługa istniała w Keymakr, gdzie zespół niezależnie stworzył całe kolekcje danych egocentrycznych od prostych scenariuszy, takich jak mycie naczyń, do bardziej złożonych.
Dlaczego jest to takie ważne? Ponieważ takie dane dostarczają czegoś, czego nie może dostarczyć czysta symulacja – różnorodności środowisk rzeczywistych. Biura, warsztaty samochodowe, place budowy, restauracje i hotele – każde z nich dodaje swój kontekst, scenariusze i niuanse. Razem tworzą zestaw danych, który pozwala systemowi nie tylko „widzieć”, ale stopniowo zacząć rozumieć dynamikę świata rzeczywistego.
Na tym etapie celem nie jest już nauczenie robota, aby idealnie wykonał określoną czynność. Liczy się bardziej umożliwienie mu zorientowania się w swoim otoczeniu przede wszystkim.
Dziś prawie wszystkie firmy zajmujące się robotyką – od Tesla do Unitree Robotics i Figure AI – koncentrują się na tym dokładnie etapie. Ich celem jest zbudowanie modelu podstawowego, którego możliwości najpierw przypominają te „ośmioletniego dziecka”, a następnie postępują w kierunku „dwunastolatka”. To również to, na czym się koncentrujemy w Introspector – przygotowujemy dane wymagane do pre-trenowania, najbardziej krytycznej fazy w „dojrzewaniu” nowoczesnej robotyki.
Ostatni kilometr treningu: gdzie uniwersalność kończy się, a specjalizacja zaczyna
Wyobraźmy sobie, że robot już ukończył pre-trenowanie i jest produkowany od samego początku z podstawowym zrozumieniem świata i zestawem umiejętności porównywalnym do tego, jaki posiada nastolatek. Ale nawet to nie jest wystarczające dla rzeczywistych przypadków użycia w biznesie. Firmy nie potrzebują tylko „uniwersalnego” robota – potrzebują specjalisty.
Weźmy produkcję samochodów jako przykład. Niektóre zadania są nadal wykonywane przez ludzi, ponieważ wymagają wrażliwości, precyzji i ciągłej kontroli wzrokowej. Tradycyjna automatyka boryka się tutaj. Manipulatory przemysłowe wyróżniają się w powtarzalnych, sztywnych zadaniach – „chwyć, przenieś, umieść”. Ale zadania, które wymagają adaptacyjności, wrażliwości na nacisk i dostosowań w czasie rzeczywistym, pozostają w dziedzinie ludzkiej.
To tutaj pojawia się nowe zapotrzebowanie: nauczyć robota, aby wykonał określoną operację dokładnie tak, jak to robi wykwalifikowany pracownik na linii produkcyjnej. Innymi słowy, po treningu podstawowym następuje kolejny poziom: trening dla określonej profesji i scenariusza.
W tym momencie pojawia się praktyczne pytanie: co konkretnie jest wymagane do tego poziomu treningu? Jeśli chcemy, aby robot odtworzył ludzkie osiągnięcia, musimy uchwycić to ludzkie zachowanie jak najdokładniej. Na przykład specjalista na podłodze fabryki musiałby nosić kamerę i przez dłuższy czas, miesiące lub nawet rok, nagrać, jak wykonuje zadanie.
Co jest potrzebne, aby roboty „żyły” w świecie ludzkim
Kamera sama w sobie nie jest wystarczająca. Konieczne jest uchwycenie nie tylko perspektywy wizualnej, ale także fizyki ruchu. To jest robione za pomocą specjalnych rękawic z czujnikami dotyku, które mierzą nacisk, siłę i charakter interakcji z obiektami. Jest to szczególnie ważne, ponieważ same obiekty mogą się znacznie różnić. Na przykład uszczelki mogą się różnić sztywnością w zależności od modelu samochodu, co bezpośrednio wpływa na to, jak zadanie jest wykonywane.
Następnie następuje śledzenie kinematyczne. Markery – wizualne lub oparte na czujnikach – są umieszczane na nadgarstkach, łokciach i czasem barkach. Mogą to być na przykład bransoletki z identyfikowalnymi markerami (podobnymi do kodów QR), które pozwalają systemowi śledzić pozycję ręki w przestrzeni z filmu. Dodatkowe czujniki, takie jak żyroskopy, są używane do uchwycenia ruchu stawów.
Ostatecznym celem jest pełna rekonstrukcja mechaniki ruchu: jak ramie się porusza, jak łokieć zgięty, jak nadgarstek się obraca. Wszystko to staje się niezbędne do następnego etapu – post-trenowania.
Jeśli podczas pre-trenowania mogliśmy jeszcze częściowo polegać na symulacji, na tym etapie już to nie działa. Ten „ostatni kilometr” jest prawie niemożliwy do dokładnego modelowania. Nie można w pełni symulować, na przykład, jak kucharz rozwałkowuje ciasto – siła zastosowana, jak nacisk jest rozłożony, jak materiał jest odczuwany.
Dlatego podczas post-trenowania prawie wszystkie dane muszą pochodzić ze świata rzeczywistego. I to jest miejsce, w którym staje się jasne: główne wyzwanie przenosi się do dziedziny praktycznej – jak uzyskać takie dane w rzeczywistości. Zbieranie danych egocentrycznych na tym poziomie jest złożonym, wieloetapowym procesem, który obejmuje dostęp do środowisk, specjalistyczne wyposażenie, udział wykwalifikowanych pracowników oraz późniejsze przygotowanie danych.
Poza teorią to tutaj roboty naprawdę „przychodzą do życia” – po tym, jak udaje nam się zorganizować ten proces, pokonać ograniczenia, z którymi zespoły z całych branż się mierzą, i opisać takie zestawy danych na dużą skalę. To będzie przedmiotem następnej części, w której przyjrzymy się wszystkim wyzwaniom, które pojawiają się podczas ich oznaczania i przygotowania.












