Liderzy opinii
W środku nowego wyścigu robotycznego: dane, modele i produkcja

Innowacje rzadko pojawiają się w izolacji. Częściej rodzą się one w rozmowach między inżynierami, założycielami, badaczami i inwestorami starającymi się zrozumieć, dokąd zmierza technologia.
W ciągu roku uczestniczyłem w dziesiątkach konferencji na całym świecie. Podróże służbowe czasem trwają miesiącami, a spotkania z partnerami i klientami odbywają się od Azji po Amerykę Północną. Jednak jeden z moich ostatnich wyjazdów do Szwajcarii okazał się szczególnie interesujący – głównie ze względu na ludzi i rozmowy, które tam miały miejsce.
Zurich okazał się jednym z miejsc, gdzie aktywnie dyskutuje się o przyszłości robotyki i Physical AI. Im głębiej przebiegały te rozmowy, tym bardziej oczywistym stawało się, że prawdziwy wyścig w robotyce toczy się wokół danych.
Europejska Dolina Krzemowa
Zurich tradycyjnie kojarzony był z sektorem finansowym, ale w ostatnich latach coraz częściej nazywany jest Europejską Doliną Krzemową. Większość tej reputacji związana jest z ETH Zurich, jednym z najbardziej szanowanych uniwersytetów technicznych w Europie. Przyciąga on badaczy, studentów doktoranckich, przedsiębiorców i inżynierów z całego świata. W efekcie powstał potężny ekosystem technologiczny wokół uniwersytetu, gdzie badania, startupy i projekty przemysłowe ewoluują niemal jednocześnie.
Jednym z powodów mojej wizyty było głębsze zrozumienie, co Introspector może zaoferować rynkowi robotyki, który od początku 2025 roku rozwija się w błyskawicznym tempie. Jest to branża, do której próbują wejść liczne startupy, a przełomy technologiczne dużych firm technologicznych aktywnie ją przekształcają. Mimo to pole to wciąż budzi więcej pytań niż odpowiedzi.
Zurich jest również siedzibą naszych partnerów Lightly, którzy pomogli mi poznać kolegów pracujących na styku robotyki, widzenia komputerowego i sztucznej inteligencji. Jest jeden ważny aspekt lokalnego ekosystemu technologicznego, na który chciałbym zwrócić uwagę: ludzie tutaj są niezwykle otwarci i gościnni. Nie boją się dzielić swoimi pomysłami i hipotezami, rozmawiać o wyzwaniach, którym próbują sprostać, i eksperymentach, które prowadzą. W efekcie zaczynasz szybciej rozumieć prawdziwy kontekst rynku i kierunek, w którym zmierza branża.
Przy okazji, kiedy ludzie pytają mnie, jak europejska „Dolina Krzemowa” różni się od amerykańskiej, odpowiedź często ich zaskakuje. W Zurichu równowaga między pracą a życiem prywatnym wydaje się znacznie silniejsza: sporty rano, skupiona praca w ciągu dnia w spokojnym, ale produktywnym rytmie, oraz wieczory spędzane w górach z rodziną lub po prostu relaksując się. W San Francisco często panuje poczucie, że ciągle musisz udowadniać, że pracujesz ciężej niż wszyscy inni. W Zurichu tempo jest inne – bardziej zrównoważone. A poziom ambicji technologicznych tutaj nie jest niższy.
Lepsze dane przed lepszymi robotami
Jednym z głównych wniosków z tej wizyty była dość prosta obserwacja: wiele osób dzisiaj chce pracować w robotyce. Ale pomimo ogromnego zainteresowania branżą, wiele zespołów wciąż znajduje się w fazie eksploracyjnej, starając się zrozumieć, jaką rolę mogą odegrać w nowej fali robotyki i Physical AI, oraz jaki wkład mogą wnieść.
Wiele rozmów ostatecznie konwerguje do tego samego tematu: dane. Dzisiaj branża brakuje danych na temat zadań związanych z zręcznością, czyli drobnych umiejętności motorycznych. W tej dziedzinie możliwości robotów pozostają niezwykle ograniczone. To, co ludzie robią rękami niemal automatycznie – chwytanie obiektu, obracanie go, staranne umieszczanie w innym miejscu lub wykonywanie małej manipulacji – pozostaje jednym z najtrudniejszych zadań dla robotów.
Klucz do postępu leży przede wszystkim w dużych, właściwie zebranych zbiorach danych. Dzisiaj ludzie często mówią o zbiorach danych egocentrycznych, nagranych z perspektywy pierwszoosobowej, gdzie system rejestruje ludzkie działania tak, jakby je sam wykonywał. Jednak w praktyce okazuje się, że sam koncept „zbioru danych egocentrycznych” może oznaczać bardzo różne rzeczy i budzi szereg pytań technicznych. Gdzie umieścić kamerę? Na czole, na piersi, czy może na wysokości oczu? Jakie czujniki powinny towarzyszyć nagraniu wideo? Jeśli rejestrujemy ruchy rąk, czy operatorzy powinni używać specjalnych rękawic? A jeśli tak, to czy te rękawice powinny zawierać czujniki dotyku, żyroskopy, czy inne systemy śledzenia ruchu?
Jeszcze bardziej skomplikowane pytanie pojawia się: jak właściwie uchwycić głębię ruchu. Przecież ważne jest nie tylko zrozumienie położenia ręki w płaszczyźnie dwuwymiarowej, ale także to, jak porusza się ona w trójwymiarowej przestrzeni – do przodu, do tyłu, w górę lub w dół.
Na razie branża nie osiągnęła jeszcze jednolitej odpowiedzi. Dlatego wiele zespołów dzisiaj eksperymentuje z różnymi konfiguracjami czujników, metodami nagrywania i formatami zbiorów danych.
Systemy wielomodalne
Z chwilą, gdy rozmowa przechodzi na temat zbierania danych dla robotyki, pojawia się kolejny temat – dodatkowe czujniki i wielomodalność, które umożliwiają rejestrowanie ruchów ciała, działań rąk i interakcji z obiektami z większą precyzją. Pomagają one również zmniejszyć błędy podczas zbierania danych.
Kiedy osoba rejestruje swoje działania na kamerze, zawsze istnieje ryzyko, że część materiału będzie niezdatna do użycia. Kamera może się nieznacznie przesunąć, kąt nagrywania może być niepoprawny, operator może nieumyślnie skręcić w złym kierunku, lub operator może wykonać ruch zbyt szybko. W efekcie znaczna część zarejestrowanego materiału jest odrzucana. Prosty przykład: aby uzyskać jedną godzinę prawdziwie użytecznego wideo, operator często musi nagrać około dwóch godzin surowego materiału.
Dodatkowe czujniki pomagają rekompensować niektóre z tych problemów. Nawet jeśli kamera się nieznacznie przesunie, dane z czujników mogą nadal umożliwić odtworzenie ruchu ręki lub położenia ciała w przestrzeni. W efekcie zamiast dwóch godzin nagrywania, może to занять tylko około godziny i dwadzieścia minut, aby uzyskać tyle samo użytecznych danych. To znacznie zwiększa wydajność zbierania danych i redukuje koszty tworzenia ich.
Nie jest więc przypadkiem, że wiele zespołów zauważa również rosnące zainteresowanie wielomodalną adnotacją danych. To stało się jednym z bardziej widocznych trendów bezpośrednio związanych z rozwojem robotyki i ucieleśnionej sztucznej inteligencji.
Następny punkt to oznaczenie takich zbiorów danych. Mieliśmy podobne pytania w Keymakr, pracując z danymi klientów dla przypadków robotyki: jaki powinien być wygląd takiej adnotacji w praktyce? Czy powinna być szkieletowa? Dwuwymiarowa czy trójwymiarowa? Czy powinny być włączone elementy uczenia ze wzmocnieniem do potoku? Są dziesiątki takich pytań. Inżynierowie sami przyznają, że nikt jeszcze nie może powiedzieć z całą pewnością, jaka konkretna konfiguracja danych ostatecznie doprowadzi do prawdziwego przełomu technologicznego.
Te obawy są zrozumiałe. Budowanie złożonych zbiorów danych jest procesem kosztownym. Każdy błąd w strukturze danych może kosztować tysiące lub nawet miliony dolarów. Można zebrać „niewłaściwy” zbiór danych lub nagrać go w warunkach, które trudno odtworzyć w świecie rzeczywistym, co ostatecznie podważa cały projekt. Dlatego dzisiaj coraz więcej uwagi poświęca się zarówno samym modelom, jak i jakości oraz architekturze danych, na których te modele są trenowane.
Jakie roboty potrzebuje rynek?
Klasyczne roboty przemysłowe, które od dziesięcioleci działają na liniach montażowych w branży motoryzacyjnej, wymagają naprawdę niewielkiej ilości widzenia komputerowego lub złożonych modeli sztucznej inteligencji. Ich zadanie jest niezwykle szczegółowe: wykonywać ściśle powtarzalne ruchy – w lewo, w prawo, w górę, w dół – z wysoką precyzją i spójnością. W tej dziedzinie dawno już przewyższają ludzi.
Zupełnie inna kategoria to roboty humanoidne. Te systemy wymagają „mózgu”: zdolności do nawigacji w przestrzeni, postrzegania otoczenia, zrozumienia kontekstu sytuacji i kontrolowania manipulatorów nie przez zaprogramowane trajektorie, ale przez adaptację do świata rzeczywistego.
Nawet pomimo wysokiego poziomu automatyzacji na nowoczesnych podłogach fabrycznych, wiele zadań wciąż wykonywane jest przez ludzi. Przenoszenie obiektu, chwytanie pudełka, sortowanie części, zaciskanie elementu lub organizowanie materiałów – to małe działania, które wymagają elastyczności i koordynacji. Ta dziedzina pozostaje jedną z najtrudniejszych do zautomatyzowania, i to właśnie tutaj systemy humanoidne mogą znaleźć swoją rolę.
Wiele zespołów, z którymi rozmawiałem, stosuje podobny model biznesowy. Podchodzą do fabryki i proponują rozwiązanie konkretnego przypadku produkcyjnego. Na przykład, pracownik może spędzać cały dzień przenosząc pudełka między strefami magazynu. Inżynierowie proponują prosty eksperyment: wyposażyć pracownika w kamerę i zestaw czujników, nagrać tysiące godzin ich działań i wykorzystać te dane do trenowania modelu, który będzie kontrolował robota humanoidnego. W ten sposób robot uczy się wykonywać dokładnie te same zadania, które wykonuje pracownik ludzki.
W istocie, firma kupuje platformę humanoidną, a zespół developerski buduje niestandardowy model, który replikuje zachowanie konkretnego operatora. Nie jest to powszechna inteligencja zdolna rozwiązać każde zadanie. To raczej zestaw umiejętności wytrenowanych dla określonej sytuacji lub grupy zadań produkcyjnych. Dla wielu inżynierów dzisiaj ten podejście wydaje się o wiele bardziej realistyczne. Zamiast próbować stworzyć od razu uniwersalnego robota, zespoły koncentrują się na wąskich, ale ekonomicznie uzasadnionych scenariuszach automatyzacji.
Wymiar biznesowy
Jeśli przyszłość leży w niestandardowych modelach, ważne jest zrozumienie, że z ekonomicznego punktu widzenia jest to dość długa ścieżka rozwoju.
Każda branża jest zasadniczo swoim własnym światem. Każde środowisko produkcyjne ma swoje własne procesy, przepływy pracy i wyjątki. Robot zainspirowany do działania w fabryce samochodowej nie może być po prostu przeniesiony do produkcji żywności lub logistyki magazynowej. W każdym przypadku system musi być ponownie wytrenowany od podstaw.
To prowadzi do następnego logicznego pytania: kto będzie pierwszymi klientami takiej technologii?
Na tym etapie pierwszymi adoptorami będą prawdopodobnie duże przedsiębiorstwa – te, które mają budżety i dla których automatyzacja może wygenerować znaczący wpływ ekonomiczny. Dzisiaj robot humanoidny kosztuje około 60 000–90 000 dolarów tylko za sprzęt. To jest tylko konfiguracja podstawowa. Dodatkowo są koszty utrzymania, baterie, stacje ładowania, infrastruktura i oprogramowanie.
W efekcie, firmy, które są w stanie eksperymentować z takimi systemami, to duże organizacje, producenci samochodów, koncerny spożywcze i duże przedsiębiorstwa przemysłowe.
Oczywiście, mniejsze sektory również mogą zobaczyć wczesnych adoptorów. Niektóre firmy mogą kupić jeden lub dwa roboty do konkretnych zadań. Jednak w większości przypadków te firmy po prostu nie są gotowe zainwestować setek tysięcy euro w zbieranie i adnotowanie niestandardowych zbiorów danych wymaganych do trenowania systemów dla wysoko specyficznych scenariuszy operacyjnych. Dla nich praca ludzka wciąż pozostaje tańszą opcją.
Długa gra innowacji robotycznych
Ostatecznie dochodzimy do fundamentalnego pytania ekonomicznego: co jest bardziej efektywne – człowiek czy robot? Jeśli spojrzymy na dzisiejszą gospodarkę, odpowiedź jest oczywista: praca ludzka jest tańsza, szybciej adaptuje się do nowych warunków i nie wymaga skomplikowanej infrastruktury.
Dlatego branża nadal inwestuje w robotykę dzisiaj? Odpowiedź jest w dużej mierze strategiczna.
Wiele firm rozumie, że trwa rodzaj wyścigu o przywództwo technologiczne. Rozwijają już rozwiązania, pomimo wysokich kosztów, aby być na czele, kiedy ekonomika robotyki się zmieni.
Z postępem elektroniki, spadkiem kosztów komponentów i poprawą wydajności obliczeniowej, robotyka nieuchronnie stanie się bardziej przystępna. A kiedy to się stanie, przewagę będą miały firmy, które już zbudowały modele, zgromadziły dane i ustanowiły niezbędną infrastrukturę technologiczną.
Wyobraźmy sobie, na przykład, że pojawiają się nowe regulacje zezwalające na dużą skalę stosowanie robotów humanoidnych w produkcji. Albo że rządy zaczynają subsydiować robotyzację branż. W takim scenariuszu rynek mógłby wzrosnąć dramatycznie w ciągu zaledwie kilku lat. A ci, którzy przygotowali się wcześniej, ci z istniejącymi modelami, badaniami, zbiorami danych i gotową infrastrukturą technologiczną, będą tymi, którzy skorzystają najbardziej.
Dlatego rozwój trwa nawet teraz, pomimo faktu, że ekonomika biznesu może nie wyglądać idealnie. Dla wielu firm jest to inwestycja w przyszłość – w moment, kiedy technologie staną się bardziej dostępne, a popyt wzrośnie gwałtownie.
A w tym wyścigu, jak i w wielu rewolucjach technologicznych, jeden czynnik często okazuje się decydujący: kto zaczął wcześniej. Dzisiejsza robotyka niezwykle przypomina wczesne etapy sztucznej inteligencji. Wtedy również było więcej pytań niż odpowiedzi. A jednak to zespoły, które wcześniej zaczęły pracować z danymi i infrastrukturą, ostatecznie ukształtowały kierunek całej branży.












