Лидеры мнений
Внутри новой робототехнической гонки: данные, модели и производство

Инновации редко возникают в изоляции. Чаще всего они рождаются в разговорах среди инженеров, основателей, исследователей и инвесторов, пытающихся понять, куда движется технология.
За год я посетил десятки конференций по всему миру. Бизнес-поездки иногда длятся несколько месяцев, и встречи с партнерами и клиентами проходят от Азии до Северной Америки. Однако одна из моих последних поездок в Швейцарию оказалась особенно интересной – в основном из-за людей и разговоров, которые там произошли.
Цюрих оказался одним из мест, где сегодня активно обсуждается будущее робототехники и Physical AI. И чем глубже эти разговоры, тем более очевидным становится, что настоящая гонка в робототехнике разворачивается вокруг данных.
Европа의 Кремниевая долина
Цюрих традиционно ассоциировался с финансовым сектором, но в последние годы он все чаще называется Европа’s Кремниевой долиной. Большая часть этой репутации связана с ETH Цюрих, одним из наиболее уважаемых инженерных университетов в Европе. Он привлекает исследователей, аспирантов, предпринимателей и инженеров со всего мира. В результате вокруг университета сформировался мощный технологический экосистема, где исследования, стартапы и промышленные проекты развиваются почти одновременно.
Одной из причин моей поездки было желание глубже понять, что может предложить Introspector рынку робототехники, который переживает бум с начала 2025 года. Это отрасль, в которую пытаются войти многие стартапы, а технологические прорывы крупных технологических компаний активно ее преобразуют. Однако, несмотря на всю эту динамику, отрасль все еще вызывает больше вопросов, чем ответов.
Цюрих также является домом для наших партнеров Lightly, которые помогли мне познакомиться с коллегами, работающими на пересечении робототехники, компьютерного зрения и ИИ. Есть один важный аспект местной технологической экосистемы, который я хотел бы выделить: люди здесь замечательно открыты и гостеприимны. Они не боятся делиться своими идеями и гипотезами, обсуждать проблемы, которые они пытаются решить, и эксперименты, которые они проводят. В результате вы начинаете понимать реальный контекст рынка и то, куда движется отрасль, намного быстрее.
Кстати, когда меня спрашивают, чем Европа’s Кремниевая долина отличается от американской, ответ часто удивляет их. В Цюрихе баланс между работой и жизнью feels намного сильнее: спорт утром, сосредоточенная работа в течение дня в спокойном, но продуктивном ритме, и вечера, проведенные в горах с семьей или просто расслабляясь. В Сан-Франциско часто есть чувство, что вы постоянно должны доказывать, что вы работаете усерднее, чем все остальные. В Цюрихе темп другой – более устойчивый. Однако уровень технологической амбиции здесь не ниже.
Лучшие данные перед лучшими роботами
Одним из главных выводов из этой поездки стала довольно простая наблюдение: многие люди сегодня хотят работать в робототехнике. Но, несмотря на огромный интерес к отрасли, многие команды все еще находятся в исследовательской фазе, пытаясь понять, какую роль они могут сыграть в новой волне робототехники и Physical AI, и какой вклад они могут сделать.
Многие разговоры в конечном итоге сходятся на одну и ту же тему: данные. Сегодня отрасль отсутствует данных о ловкости задач, т.е. тонких моторных навыках. В этой области возможности роботов остаются крайне ограниченными. То, что люди делают своими руками почти автоматически – поднимание объекта, его поворот, осторожное размещение в определенном месте или выполнение небольшой манипуляции – остается одной из наиболее сложных задач для роботов.
Ключ к прогрессу здесь лежит в первую очередь в крупномасштабных, правильно собранных наборах данных. Сегодня люди часто говорят об эгоцентрических наборах данных, записанных с точки зрения первого лица, где система захватывает человеческие действия так, как если бы она сама их выполняла. Однако, на практике оказывается, что сам концепт “эгоцентрического набора данных” может означать очень разные вещи и вызывает ряд технических вопросов. Где должна быть размещена камера? На лбу, на груди или, может быть, на уровне глаз? Какие датчики должны сопровождать видеозапись? Если мы захватываем движения рук, должны ли операторы использовать специальные перчатки? И если да, должны ли эти перчатки включать тактильные датчики, гироскопы или другие системы отслеживания движения?
Даже более сложный вопрос возникает: как правильно захватить глубину движения. Ведь важно понять не только положение руки в двумерной плоскости, но и то, как она движется в трехмерном пространстве – вперед, назад, вверх или вниз.
Пока что отрасль не пришла к единому ответу. Поэтому многие команды сегодня экспериментируют с различными конфигурациями датчиков, методами записи и форматами наборов данных.
Мультимодальные системы
Как только разговор переходит к сбору данных для робототехники, возникает другая тема – дополнительные датчики и мультимодальность, которые позволяют захватить движения тела, действия рук и взаимодействия с объектами с большей точностью. Они также помогают уменьшить ошибки во время сбора наборов данных.
Когда человек записывает свои действия на камеру, всегда есть риск, что часть материала окажется непригодной для использования. Камера может немного сдвинуться, угол съемки может быть неверным, оператор может случайно повернуться не в ту сторону или выполнить движение слишком быстро. В результате значительная часть записанного материала отбрасывается. Простой пример: чтобы получить один час действительно пригодного для использования видео, оператору часто необходимо записать около двух часов сырого материала.
Дополнительные датчики помогают компенсировать некоторые из этих проблем. Даже если камера немного сдвинется, данные от датчиков все равно могут сделать возможным восстановление движения руки или положения тела в пространстве. В результате вместо двух часов записи может потребоваться примерно один час и двадцать минут, чтобы получить то же количество пригодных для использования данных. Это существенно увеличивает эффективность сбора наборов данных и снижает стоимость их создания.
Therefore, не случайно, что многие команды также отмечают растущий интерес к мультимодальной аннотации наборов данных. Это стало одной из более заметных тенденций, напрямую связанных с развитием робототехники и воплощенной ИИ.
Следующая точка – маркировка таких наборов данных. Мы столкнулись с подобными вопросами в Keymakr, работая с наборами данных клиентов для случаев робототехники: как должна выглядеть такая аннотация на практике? Должна ли она быть скелетной? Двумерной или трехмерной? Должны ли быть включены элементы обучения с подкреплением в конвейер? Есть десятки таких вопросов. Инженеры сами признают, что пока никто не может с уверенностью сказать, какая конкретная конфигурация данных в конечном итоге приведет к реальному технологическому прорыву.
Эти проблемы понятны. Создание сложных наборов данных – это дорогой процесс. Каждая ошибка в структуре данных может стоить тысяч или даже миллионов долларов. Можно собрать “неправильный” набор данных или записать его в условиях, которые трудно воспроизвести в реальном мире, в конечном итоге подрывая весь проект. Именно поэтому сегодня все больше внимания уделяется как самим моделям, так и качеству и архитектуре данных, на которых эти модели обучаются.
Какие роботы нужны рынку?
Классические промышленные роботы, которые работают на автомобильных сборочных линиях десятилетиями, фактически требуют очень мало компьютерного зрения или сложных моделей ИИ. Их задача крайне специфична: выполнять строго повторяющиеся движения – влево, вправо, вверх, вниз – с высокой точностью и последовательностью. В этой области они давно превзошли людей.
Совершенно другой категорией являются гуманоидные роботы. Эти системы требуют “мозгов”: способности ориентироваться в пространстве, воспринимать окружающую среду, понимать контекст ситуации и контролировать манипуляторы не через предпрограммированные траектории, а адаптируясь к реальному миру.
Даже при высоком уровне автоматизации на современных заводских площадках многие задачи все еще выполняются людьми. Перемещение объекта, подъем коробки, сортировка деталей, крепление компонента или организация материалов – эти небольшие действия требуют гибкости и координации. Эта область остается одной из наиболее сложных для автоматизации, и именно здесь гуманоидные системы могут найти свое место.
Многие из команд, с которыми я говорил, используют подобную бизнес-модель. Они подходят к заводу и предлагают решить конкретный производственный случай. Например, работник может тратить весь день на перемещение коробок между складскими зонами. Инженеры предлагают относительно простой эксперимент: оснастить работника камерой и набором датчиков, записать тысячи часов его действий и использовать эти данные для обучения модели, которая будет контролировать гуманоидного робота. Таким образом, робот учится выполнять именно те задачи, которые выполняет человеческий работник.
По сути, компания покупает гуманоидную платформу, а команда разработчиков создает индивидуальную модель, которая воспроизводит поведение конкретного оператора. Это не универсальный интеллект, способный решать любую задачу. А скорее набор навыков, обученных для конкретного сценария или группы производственных задач. Для многих инженеров сегодня этот подход кажется гораздо более реалистичным. Вместо того, чтобы пытаться создать универсального робота сразу, команды фокусируются на узких, но экономически жизнеспособных сценариях автоматизации.
Бизнес-аспект
Если будущее лежит в индивидуальных моделях, важно понять, что с экономической точки зрения это довольно долгий путь развития.
Каждая отрасль по сути является своим миром. Каждая производственная среда имеет свои собственные процессы, рабочие потоки и исключения. Робот, обученный работать на автомобильном заводе, не может просто быть переведен на производство продуктов питания или складскую логистику. В каждом случае система должна быть переобучена с нуля.
Это приводит к следующему логическому вопросу: кто будут первыми клиентами такой технологии?
На этом этапе основными потребителями, вероятно, будут крупные предприятия – те, у которых есть бюджеты и для которых автоматизация может иметь существенное экономическое влияние. Сегодня гуманоидный робот стоит примерно $60 000–$90 000 только за аппаратуру. Это только базовая конфигурация. Кроме того, есть расходы на обслуживание, батареи, зарядные станции, инфраструктуру и программное обеспечение.
В результате компаниями, которые наиболее способны экспериментировать с такими системами, являются крупные организации, автомобильные производители, пищевые корпорации и крупные промышленные предприятия.
Конечно, и в более мелких секторах могут появиться ранние采用ители. Некоторые компании могут купить один или два робота для конкретных задач. Однако в большинстве случаев эти бизнесы просто не готовы инвестировать сотни тысяч евро в сбор и аннотацию индивидуальных наборов данных, необходимых для обучения систем для высокоспецифических операционных сценариев. Для них человеческий труд все еще остается более дешевым вариантом.
Долгая игра инноваций в робототехнике
Мы в конечном итоге приходим к фундаментальному экономическому вопросу: что более эффективно – человек или робот? Если посмотреть на сегодняшнюю экономику, ответ очевиден: человеческий труд дешевле, быстрее адаптируется к новым условиям и не требует сложной инфраструктуры.
Итак, почему отрасль продолжает инвестировать в робототехнику сегодня? Ответ в основном стратегический.
Многие компании понимают, что происходит своего рода гонка за технологическое лидерство. Они уже разрабатывают решения, несмотря на высокие затраты, чтобы быть впереди, когда экономика робототехники изменится.
По мере того, как электроника совершенствуется, снижаются затраты на компоненты, и улучшается эффективность вычислений, робототехника неизбежно станет более доступной. И когда это произойдет, преимуща будут иметь компании, которые уже построили модели, накопили данные и создали необходимую технологическую инфраструктуру.
Представьте, к примеру, что появляются новые правила, разрешающие широкое использование гуманоидных роботов в производстве. Или что правительства начинают субсидировать роботизацию отраслей. В таком сценарии рынок может вырасти значительно всего за несколько лет. И те, кто подготовился заранее, те, у кого уже есть модели, исследования, наборы данных и готовый технологический стек, будут теми, кто выиграет больше всего.
Именно поэтому развитие продолжается даже сейчас, несмотря на то, что бизнес-экономика может не выглядеть идеальной. Для многих компаний это инвестиция в будущее – в момент, когда технологии станут более доступными, и спрос резко возрастет.
И в этой гонке, как и во многих технологических революциях, одним из решающих факторов часто оказывается тот, кто начал раньше. В этом смысле сегодняшняя робототехника сильно напоминает ранние этапы искусственного интеллекта. Тогда также было больше вопросов, чем ответов. Однако именно те команды, которые начали работать с данными и инфраструктурой раньше других, в конечном итоге сформировали направление всей отрасли.












