Connect with us

Лидеры мнений

Настоящая Стоимость Обучения Роботов

mm

В первой части мы обсуждали, как роботы эволюционируют от базовой механики к пониманию окружающей среды. На этапе “последней мили” – когда роботы проходят пост-обучение для конкретных, индивидуальных задач – возникает неожиданный барьер. Он связан с данными: их сбором, организацией и масштабированием в реальных условиях.

Именно на этом этапе разрыв между концепцией и реализацией становится наиболее очевидным. Каковы ключевые瓶ネcks, и как их можно преодолеть с минимальными затратами?

Почему тысячи часов данных превращаются в годы работы

Итак, давайте представим, что у нас уже есть обученный робот, прошедший предварительное обучение. Он может ориентироваться в окружающей среде, двигаться, избегать препятствий и взаимодействовать с объектами. Это как “десятилетний ребенок”, который в целом способен действовать самостоятельно. Следующий шаг – научить его выполнять конкретные действия в конкретных условиях, например, устанавливать стеклянные панели и уплотнительные полосы на производственной линии автомобильного производства.

На первый взгляд, задача кажется проще. Она включает в себя освоение единой сценария, и объем данных, необходимых для этого, значительно меньше, чем при предварительном обучении. Хотя базовое обучение может потребовать сотен тысяч часов, пост-обучение может занять только тысячи. Но эти цифры вводят в заблуждение.

Когда их переводят в реальное время, процесс раскрывает свою истинную сложность. В стандартном графике работы человек работает примерно 160 часов в месяц. Однако это не означает, что все это время можно использовать для записи.

На практике происходят постоянные сбои: батареи разряжаются, камеры смещаются, датчики отказывают. Чем более сложна установка оборудования, тем выше вероятность проблем. Даже простая неисправность, такая как отказ датчиков на перчатке, может остановить процесс и привести к потере времени.

В результате фактическая скорость сбора данных на 2-3 раза ниже. Один час высококачественной записи может потребовать до трех часов реальной работы. Это радикально меняет расчет: 5 000 часов данных переводятся примерно в 15 000 часов труда.

Слои сложности

На этапе предварительного обучения может быть достаточно дать человеку камеру и попросить его записать повседневные действия. Однако на этом этапе требуется доступ к конкретной среде, такой как завод, строительная площадка или специализированное производственное предприятие.

Это сразу же вводит практические ограничения. Например, на строительной площадке работникам необходимо носить защитные каски, что означает разработку специального оборудования: касок с интегрированными камерами, устойчивыми к пыли, влаге и удару.

Затем возникает вопрос доступа к площадке. Необходимо заключить соглашения с владельцами площадки, получить разрешения и договориться об условиях. Это почти всегда предполагает дополнительные затраты: компании ожидают компенсации, а работники ожидают оплаты за участие.

Страхование и соблюдение требований безопасности также становятся критическими проблемами. Если оборудование не соответствует необходимым стандартам, страховка может быть аннулирована, что заставляет整个 процесс быть перестроенным.

Даже на уровне ежедневных операций проблемы сохраняются. Камеры необходимо включать, контролировать и обслуживать. Работники работают в перчатках и суровых условиях. Оборудование загрязняется, изнашивается и ломается. Камера может выключиться после нескольких минут, и человек может даже не заметить этого.

Это создает необходимость для участников обучаться – они должны понимать, как использовать оборудование. Кроме того, требуется постоянный надзор – кто-то должен обеспечить, чтобы запись продолжалась и устройства функционировали правильно.

От сырых видеоданных к обучающим данным

После записи начинается следующий этап: сбор данных, загрузка, структуризация, проверка качества и маркировка.

Любые сырые данные состоят из видео- и сигналов датчиков. Чтобы превратить их в обучающий материал, необходимо структурировать: необходимо определить объекты, зафиксировать действия и описать состояния, движения и взаимодействия с окружающей средой. Это то место, где вступает в силу аннотация. Возникает логический вопрос – какой стандарт аннотации для такого рабочего процесса?

В некоторых случаях достаточно простых ограничивающих рамок, чтобы определить объекты в кадре. В других случаях требуется временная аннотация, чтобы описать последовательности действий во времени. В определенных сценариях используются ключевые точки и скелетные модели, чтобы зафиксировать движение тела. В более сложных случаях используются 3D-меши или отслеживание положения руки, чтобы точно представить механику взаимодействия. Часто интегрируются дополнительные датчики, такие как акселерометры, чтобы зафиксировать динамику движения и приложенную силу.

Проекты такого типа часто требуют масштабирования команды. Маркировка – это большая и сложная задача, требующая времени, опыта и значительных человеческих ресурсов. Это то место, где вступают в игру поставщики решений для данных с внутренними командами аннотаторов. Например, Keymakr, который оказался особенно эффективным благодаря своей способности масштабировать команды для соответствия любому объему данных, от одного специалиста до сотен аннотаторов.

Еще нет правильного подхода к обучению

Отрасль все еще находится на стадии исследования, поскольку нет консенсуса о том, какая комбинация данных дает лучшие результаты. Многие подходы подтверждаются эмпирически, поскольку они работают в конкретных экспериментах. В результате разные команды продолжают полагаться на разные технологии, сформированные их собственным опытом, задачами и ограничениями.

На академическом и прикладном уровнях это приводит к фрагментации: лаборатории и компании движутся в разных направлениях. Ситуация напоминает ранние дни автономного вождения, когда Tesla поставила на видение без LiDAR, в то время как большинство других игроков выбрали LiDAR в качестве основного датчика.

Сегодня системы на основе LiDAR демонстрируют более стабильную производительность, но подход Tesla продолжает эволюционировать. Разница в том, что в автономном вождении рынок в значительной степени созрел: стабильные архитектуры появились, ограничения хорошо поняты, и значительный опыт был накоплен.

Напротив, для Физического ИИ и подобной тренировки моделей этот уровень зрелости еще не достигнут. Рынок все еще формируется, стандарты отсутствуют, и большая часть прогресса обусловлена экспериментами. Новые методы тренировки моделей, повышения эффективности и адаптации к реальным сценариям продолжают появляться, что предполагает, что наиболее важные прорывы в этой области еще впереди.

Человек как система подкрепления

Маркировка не существует в изоляции, ни для модели alone. Она служит инструментом для инженера, строящего эту модель. Через нее он формализует реальность, определяет ключевые параметры и определяет правила поведения системы.

Задача инженера – научить систему выполнять действия правильно в реальных условиях. Например, базовый сценарий может состоять из четырех действий: взять стакан, включить кран, наполнить его и выключить кран. Но в реальности происходит отклонение – стакан переполняется.

В этот момент от модели ожидается завершение сценария и выполнение дополнительных действий: остановка потока воды, регулирование уровня воды и предотвращение разлива. Это поведенческая логика, основанная на контекстном понимании.

Инженер следует циклу: аннотирует данные, тренирует модель, тестирует ее. Если система работает, гипотеза подтверждается. Если нет, начинается анализ.

В какой-то момент может стать ясно, что модель缺ает важным параметром, таким как уровень наполнения стакана. Ранее данные могли включать аннотации для объектов (стакан, кран, ручка) и действий (открытие, наполнение, закрытие), но не имели аннотаций для состояния, такого как степень наполнения.

Затем добавляется новый слой в процесс: аннотация уровня наполнения, за которой следует формализация, например, определение любого значения выше 85% как критического состояния.

Это приводит к следующей итерации тренировки. Вы можете иметь сотни таких итераций.

Никто не предполагает, что система будет работать правильно сразу. Напротив, процесс построен вокруг последовательных приближений: сначала создается базовая версия; затем она тестируется в реальных или gần реальных условиях; выявляются пробелы; и система совершенствуется. Это то, о чем я часто говорю с клиентами в Introspector, с которыми мы проходим весь путь Физического ИИ вместе.

В определенный момент достигается желаемый результат. Но его ценность заключается не только в том, что система начинает работать, но и в накопленном опыте, который позволяет этот результат воспроизводить более предсказуемо.

Экономика, которую все забывают

За последний год или около того я заметил, что самая большая ошибка, которую компании совершают при работе с эгоцентрическими данными, имеет мало отношения к технологиям.

Основная проблема заключается в недооценке экономики проекта.

На этапе идеи технология занимает центральное место – какие модели использовать, как их тренировать и какие подходы применять. Вы изучаете, исследуете, обсуждаете архитектуры и тестируете гипотезы. Это естественно: технология кажется самой осязаемой и очевидной частью проблемы.

Но гораздо реже на этом этапе команды задают прямой и практический вопрос: сколько это будет стоить?

Когда проект переходит от теории к реализации, становится ясно, что за каждой моделью стоят десятки тысяч часов данных. Сбор этих данных требует времени, доступа к реальным средам и участия специалистов. Маркировка добавляет еще один слой сложности и стоимости. В результате окончательные цифры часто на порядок выше, чем ожидалось.

Это не означает, что такие проекты не следует преследовать. Напротив, они являются тем, что движет отрасль вперед.

Но что важно, так это понимание масштаба задачи с самого начала. Признание того, что при обучении моделей за каждым удивительным алгоритмом стоит сложная, ресурсоемкая работа с данными.

Даже сильные идеи не могут быть реализованы, когда затраты на данные начинают расти далеко за семизначную сумму.

И, возможно, наиболее важный сдвиг, происходящий в робототехнике сегодня, связан с этим осознанием. Будущее этих систем будет определяться их “интеллектом” и тем, насколько эффективно и точно построен весь путь данных – от сбора до окончательной интерпретации.

Михаил Абрамов является основателем и генеральным директором Introspector, привнося более 15+ лет опыта в области программной инженерии и компьютерного зрения AI-систем для создания инструментов маркировки предприятия.

Михаил начал свою карьеру как программный инженер и менеджер по исследованиям и разработкам, создавая масштабируемые системы данных и управляя межфункциональными инженерными командами. До 2025 года он занимал должность генерального директора Keymakr, компании, предоставляющей услуги по маркировке данных, где он разработал методологии "человек в цикле", продвинутые системы контроля качества и индивидуальное инструментирование для поддержки крупномасштабных потребностей в области компьютерного зрения и автономности.

Он имеет степень бакалавра в области компьютерных наук и имеет опыт в области инженерии и творческих искусств, что позволяет ему подходить к решению сложных проблем с междисциплинарной точки зрения. Михаил работает на пересечении технологических инноваций, стратегического лидерства продукта и реального воздействия, продвигая вперед следующий рубеж автономных систем и интеллектуальной автоматизации.