Лідери думок
Всередині нової гонки робототехніки: дані, моделі та виробництво

Інновації рідко з’являються в ізоляції. Частіше, вони народжуються в розмовах серед інженерів, засновників, дослідників та інвесторів, які намагаються зрозуміти, куди рухається технологія.
За рік я відвідав десятки конференцій по всьому світу. Бізнес-поїздки іноді тривають місяцями, а зустрічі з партнерами та клієнтами відбуваються від Азії до Північної Америки. Однак одна з моїх недавніх поїздок до Швейцарії виявилася особливо цікавою – переважно через людей та розмови, які там відбулися.
Цюрих виявився одним із місць, де сьогодні активно обговорюється майбутнє робототехніки та Фізичної штучного інтелекту. І чим глибше ці розмови йдуть, тим очевиднішою стає те, що справжня гонка в робототехніці розгортається навколо даних.
Європа у стилі Кремнієвої долини
Цюрих традиційно асоціювався з фінансовим сектором, але в останні роки він все частіше називається Європою у стилі Кремнієвої долини. Багато цього репутації пов’язано з ETH Цюрих, одним із найповажніших інженерних університетів Європи. Він приваблює дослідників, аспірантів, підприємців та інженерів з усього світу. В результаті сформувався потужний технологічний екосистема навколо університету, де дослідження, стартапи та промислові проекти розвиваються майже одночасно.
Одна з причин моєї поїздки була глибше зрозуміти, що може пропонувати Introspector ринку робототехніки, який переживає бум з початку 2025 року. Це галузь, яку намагаються увійти широкий спектр стартапів, а технологічні прориви великих технологічних компаній активно змінюють її. Однак, попри весь цей імпульс, галузь все ще викликає більше питань, ніж відповідей.
Цюрих також є домом для наших партнерів Lightly, які допомогли мені познайомитися з колегами, які працюють на перетині робототехніки, комп’ютерного зору та штучного інтелекту. Є один важливий аспект місцевої технологічної екосистеми, який я хотів би підкреслити: люди тут надзвичайно відкриті та привітні. Вони не бояться ділитися своїми ідеями та гіпотезами, говорити про виклики, які вони намагаються вирішити, та про експерименти, які вони проводять. В результаті ви починаєте розуміти справжній контекст ринку та туди, куди рухається галузь, набагато швидше.
Між іншим, коли люди запитують мене, як європейська “Кремнієва долина” відрізняється від американської, відповідь часто дивує їх. У Цюриху баланс між роботою та життя відчувається значно сильніше: спорт у ранкові години, зосереджена робота протягом дня у спокійному, але продуктивному ритмі, та вечори, проведені в горах з сім’єю або просто відпочиваючи. У Сан-Франциско часто є відчуття, що вам постійно потрібно доводити, що ви працюєте більше, ніж усі інші. У Цюриху темп інший – більш сталий. Однак рівень технологічної амбіції тут не нижчий.
Кращі дані перед кращими роботами
Одним із основних висновків з цієї поїздки була досить проста спостереження: багато людей сьогодні хочуть працювати в робототехніці. Однак, попри величезний інтерес до галузі, багато команд все ще перебувають у дослідницькій фазі, намагаючись зрозуміти, яку роль вони можуть відігравати у новій хвилі робототехніки та Фізичної штучної інтелекту, та який внесок вони можуть зробити.
Багато розмов у підсумку зводяться до однієї й тієї ж теми: дані. Сьогодні галузь відстає за даними про завдання дexterності, тобто, тонкі моторні навички. У цій області можливості роботів залишаються надзвичайно обмеженими. Те, що люди роблять своїми руками майже автоматично – підняття об’єкта, повернення його, ретельне розміщення його десь, або виконання малих маніпуляцій – залишається однією з найбільш складних завдань для роботів.
Ключ до прогресу тут лежить переважно у великомасштабних, належним чином зібраних наборах даних. Сьогодні люди часто говорять про егocентричні набори даних, записані з першої особи, де система захоплює дії людини так, якби вона сама їх виконувала. Однак на практиці виявляється, що сама концепція “егocентричного набору даних” може означати зовсім різні речі та викликає ряд технічних питань. Де має бути розміщена камера? На лобі, на грудях, або, можливо, на рівні очей? Які сенсори повинні супроводжувати відеозапис? Якщо ми захоплюємо рухи рук, мають оператори використовувати спеціальні рукавички? І якщо так, мають ці рукавички включати тактильні сенсори, гіроскопи або інші системи відстеження руху?
Ще більш складне питання виникає: як належним чином захопити глибину руху. Адже важливо зрозуміти не тільки положення руки в двовимірній площині, але й як вона рухається у тривимірному просторі – вперед, назад, вгору або вниз.
На даний момент галузь ще не досягла єдиної відповіді. Тому багато команд сьогодні експериментують з різними конфігураціями сенсорів, методами запису та форматами наборів даних.
Мультимодальні системи
Як тільки розмова переходить до збору даних для робототехніки, інша тема швидко виникає – додаткові сенсори та мультимодальність, які дозволяють захоплювати рухи тіла, дії рук та взаємодію об’єктів з більшою точністю. Вони також допомагають зменшити помилки під час збору даних.
Коли людина записує свої дії на камеру, завжди існує ризик, що частина матеріалу буде невідповідною. Камера може трохи зсунутися, кут зйомки може бути неправильним, оператор може випадково повернути у неправильному напрямку, або оператор може виконати рух занадто швидко. В результаті значна частина записаного матеріалу відкидається. Простий приклад: щоб отримати один годину дійсно придатного відео, оператор часто потрібно записати близько двох годин сирого матеріалу.
Додаткові сенсори допомагають компенсувати деякі з цих проблем. Навіть якщо камера трохи зсунеться, дані сенсорів все одно можуть зробити можливим відновлення руху руки або положення тіла в просторі. В результаті замість двох годин запису може знадобитися близько години та двадцяти хвилин, щоб отримати ту саму кількість придатних даних. Це значно збільшує ефективність збору даних та зменшує вартість їх створення.
Саме тому багато команд також помічають зростаючий інтерес до мультимодальної анотації даних. Це стало однією з більш видимих тенденцій, безпосередньо пов’язаних з розвитком робототехніки та втіленої штучної інтелекту.
Наступна точка – позначення таких наборів даних. Ми зустріли подібні питання в Keymakr, коли працювали з наборами даних клієнтів для випадків робототехніки: як має виглядати така анотація на практиці? Чи повинна вона бути скелетною? Двовимірною чи тривимірною? Чи повинні бути включені елементи підкріплючого навчання у пайплайн? Є десятки таких питань. Інженери самі визнають, що ніхто ще не може з певністю сказати, яка саме конфігурація даних у підсумку приведе до реального технологічного прориву.
Ці занепокоєння зрозумілі. Будівництво складних наборів даних – це дорогий процес. Кожна помилка у структурі даних може коштувати тисяч або навіть мільйонів доларів. Можливо, зібрати “неправильний” набір даних або записати його під умовами, які важко відтворити у реальному світі, в результаті підірвавши весь проєкт. Саме тому сьогодні все більше уваги приділяється як самим моделям, так і якості та архітектурі даних, на яких ці моделі тренуються.
Які роботи потрібні ринку?
Класичні промислові роботи, які працюють на автомобільних складальних лініях протягом десятиліть, фактично потребують дуже мало комп’ютерного зору або складних моделей штучної інтелекту. Їхнє завдання надзвичайно специфічне: виконувати строго повторювані рухи – ліворуч, праворуч, вгору, вниз – з високою точністю та послідовністю. У цій області вони давно перевершують людей.
Інша категорія – гуманоїдні роботи. Ці системи потребують “мозку”: здатності орієнтуватися у просторі, сприймати навколишнє середовище, розуміти контекст ситуації та контролювати маніпулятори не за допомогою попередньо запрограмованих траєкторій, а адаптуючись до реального світу.
Поряд з високим рівнем автоматизації на сучасних фабричних підлогах багато завдань все ще виконуються людьми. Переміщення об’єкта, підняття коробки, сортування деталей, закріплення компонента або організації матеріалів – ці маленькі дії потребують гнучкості та координації. Ця область залишається однією з найскладніших для автоматизації, і саме тут гуманоїдні системи можуть знайти своє місце.
Багато команд, з якими я говорив, використовують схожу бізнес-модель. Вони підходять до фабрики та пропонують вирішити конкретний виробничий випадок. Наприклад, робітник може проводити весь день, переміщуючи коробки між зонами складу. Інженери пропонують досить простий експеримент: обладнати робітника камерою та набором сенсорів, записати тисячі годин його дій та використати ці дані для тренування моделі, яка буде контролювати гуманоїдного робота. Таким чином, робот вчиться виконувати саме ті завдання, які виконує людина.
По суті, компанія купує гуманоїдну платформу, а команда розробників будує спеціальну модель, яка реплікує поведінку конкретного оператора. Це не універсальний інтелект, здатний вирішувати будь-яке завдання. Це сукупність навичок, тренованих для конкретної сценарію або групи виробничих завдань. Для багатьох інженерів сьогодні цей підхід видається набагато реалістичнішим. Замість того, щоб намагатися створити універсального робота одразу, команди зосереджуються на вузьких, але економічно життєздатних сценаріях автоматизації.
Бізнес-аспект
Якщо майбутнє лежить у спеціальних моделях, важливо зрозуміти, що з економічної точки зору це досить довгий шлях розвитку.
Кожна галузь по суті є своїм світом. Кожне виробниче середовище має свої процеси, робочі потоки та винятки. Робот, тренований для роботи на автомобільній фабриці, не може просто бути переведений до виробництва харчових продуктів або логістики складу. У кожному випадку система повинна бути переобучена з нуля.
Це веде до наступного логічного питання: хто будуть першими клієнтами такої технології?
На цій стадії основними приймачами, ймовірно, будуть великі підприємства – ті, у яких є бюджети та для яких автоматизація може генерувати значний економічний вплив. Сьогодні гуманоїдний робот коштує приблизно $60 000-$90 000 лише за апаратне забезпечення. Це лише базова конфігурація. До цього додаються витрати на обслуговування, батареї, зарядні станції, інфраструктуру та програмне забезпечення.
В результаті компанії, які найздатніші експериментувати з такими системами, будуть великими організаціями, автомобільними виробниками, харчовими корпораціями та великими промисловими підприємствами.
Звичайно, менші сектори також можуть побачити деяких ранніх приймачів. Деякі компанії можуть купити один або два робота для конкретних завдань. Однак у більшості випадків ці підприємства просто не готові інвестувати сотні тисяч євро у збирання та анотацію спеціальних наборів даних, необхідних для тренування систем для високоспецифічних операційних сценаріїв. Для них людська праця все ще залишається дешевшим варіантом.
Довга гра інновацій у робототехніці
Ми зрештою прийходимо до фундаментального економічного питання: що є ефективнішим – людина чи робот? Якщо ми подивимося на сучасну економіку, відповідь очевидна: людська праця дешевша, швидше адаптується до нових умов та не потребує складної інфраструктури.
Так чому галузь продовжує інвестувати в робототехніку сьогодні? Відповідь в основному стратегічна.
Багато компаній розуміють, що відбувається певного роду гонка за технологічне лідерство. Вони вже розробляють рішення, попри високі витрати, щоб бути попереду, коли економіка робототехніки зміниться.
По мірі того, як електроніка просунеться, витрати на компоненти знижуватимуться, а ефективність обчислення покращуватиметься, робототехніка невідворотно стане більш доступною. І коли це станеться, перевага буде належати компаніям, які вже побудували моделі, накопичили дані та створили необхідну технологічну інфраструктуру.
Припустимо, наприклад, що з’являються нові правила, які дозволяють широкомасштабне використання гуманоїдних роботів у виробництві. Або що уряди починають субсидувати роботизацію галузей. У такому сценарії ринок міг би розвиватися драматично вже за кілька років. І ті, хто підготувався заздалегідь, ті, у кого вже є моделі, дослідження, набори даних та готовий технологічний стек, будуть тими, хто найбільше виграє.
Саме тому розвиток продовжується навіть зараз, попри те, що бізнес-економіка ще не виглядає ідеальною. Для багатьох компаній це інвестиція у майбутнє – у момент, коли технології стануть більш доступними, а попит різко зросте.
І в цій гонці, як і у багатьох технологічних революціях, одним з вирішальних факторів часто виявляється те, хто почав раніше. У цьому сенсі сучасна робототехніка сильно нагадує ранню стадію штучної інтелекту. Тоді також були більше питань, ніж відповідей. Однак саме ті команди, які почали працювати з даними та інфраструктурою раніше інших, у підсумку сформували напрямок усієї галузі.












