Искусственный интеллект
Новая технология автоматической маркировки Voxel51 обещает сократить расходы на аннотации в 100,000 XNUMX раз

Новое новаторское исследование от стартапа в области компьютерного зрения Воксель51 предполагает, что традиционная модель аннотации данных вот-вот будет перевернута. В исследовании, опубликованном сегодня, компания сообщает, что ее новая система автоматической маркировки достигает точности до 95% человеческого уровня, будучи в 5,000 раз быстрее и до 1в 00,000 раз дешевле чем ручная маркировка.
Исследование сравнило модели фундамента, такие как YOLO-World и Grounding DINO, с известными наборами данных, включая COCO, LVIS, BDD100K и VOC. Примечательно, что во многих реальных сценариях модели, обученные исключительно на сгенерированных ИИ метках, работали наравне с моделями, обученными на человеческих метках, или даже лучше. Для компаний, строящих компьютерное зрение систем, последствия огромны: можно сэкономить миллионы долларов на расходах на аннотации, а циклы разработки моделей могут сократиться с недель до часов.
Новая эра аннотаций: от ручного труда к конвейерам на основе моделей
В течение многих десятилетий, аннотация данных было болезненным узким местом в разработке ИИ. От ImageNet до наборов данных автономных транспортных средств команды полагались на огромные армии людей, чтобы рисовать ограничивающие рамки и сегментировать объекты — усилия и дорогостоящие, и медленные.
Преобладающая логика была проста: больше данных, маркированных человеком = лучший ИИ. Но исследование Voxel51 переворачивает это предположение с ног на голову.
Их подход использует предварительно обученные базовые модели, некоторые из которых нулевой выстрел возможности — и интегрирует их в конвейер, который автоматизирует рутинную маркировку, используя активное обучение для пометки неопределенных или сложных случаев для проверки человеком. Этот метод значительно сокращает как время, так и стоимость.
В одном тесте маркировка 3.4 млн объектов с использованием графического процессора NVIDIA L40S заняла чуть больше часа и стоила 1.18 долл. США. Ручное выполнение того же самого с помощью AWS SageMaker заняло бы около 7,000 часов и стоило бы более 124,000 XNUMX долл. США. В особенно сложных случаях, таких как определение редких категорий в наборах данных COCO или LVIS, модели с автоматической маркировкой иногда превзошел их аналоги, размеченные человеком. Этот неожиданный результат может быть обусловлен единообразными шаблонами разметки базовых моделей и их обучением на больших объёмах интернет-данных.
Внутри Voxel51: команда, преобразующая рабочие процессы визуального ИИ
Основанная в 2016 по Профессор Джейсон Корсо и Брайан Мур Voxel51 в Мичиганском университете изначально начиналась как консалтинговая компания, ориентированная на видеоаналитику. Корсо, ветеран в области компьютерного зрения и робототехники, опубликовал более 150 научных работ и вносит обширный открытый исходный код в сообщество ИИ. Мур, бывший аспирант Корсо, является генеральным директором.
Переломный момент наступил, когда команда осознала, что большинство узких мест ИИ кроется не в дизайне модели, а в данных. Это понимание вдохновило их на создание Пятьдесят один— платформа, призванная предоставить инженерам возможность более эффективно исследовать, сортировать и оптимизировать визуальные наборы данных.
За эти годы компания привлекла более $ 45M, В том числе $ 12.5 млн, серия A и еще один $ 30 млн, серия B под руководством Bessemer Venture Partners. Затем последовало внедрение на корпоративном уровне, когда такие крупные клиенты, как LG Electronics, Bosch, Berkshire Grey, Precision Planting и RIOS, интегрировали инструменты Voxel51 в свои производственные рабочие процессы ИИ.
От инструмента к платформе: растущая роль FiftyOne
FiftyOne вырос из простого инструмента визуализации наборов данных в комплексную, ориентированную на данные платформу ИИ. Он поддерживает широкий спектр форматов и схем маркировки — COCO, Pascal VOC, LVIS, BDD100K, Open Images — и легко интегрируется с такими фреймворками, как TensorFlow и PyTorch.
FiftyOne — это не просто инструмент визуализации, он позволяет выполнять расширенные операции: находить дубликаты изображений, определять неправильно маркированные образцы, выявлять выбросы и измерять режимы отказов модели. Его экосистема плагинов поддерживает пользовательские модули для оптического распознавания символов, видео Q&A и анализа на основе встраивания.
Корпоративная версия FiftyOne Teams представляет совместные функции, такие как контроль версий, разрешения на доступ и интеграция с облачным хранилищем (например, S3), а также инструменты аннотации, такие как Labelbox и CVAT. В частности, Voxel51 также в партнерстве с V7 Labs для оптимизации потока между курированием наборов данных и ручным аннотированием.
Переосмысление индустрии аннотаций
Исследование Voxel51 в области автоматической маркировки бросает вызов предположениям, лежащим в основе индустрии аннотаций стоимостью около 1 млрд долларов. В традиционных рабочих процессах каждое изображение должно быть обработано человеком — это дорогостоящий и часто избыточный процесс. Voxel51 утверждает, что большую часть этой работы теперь можно устранить.
С их системой большинство изображений маркируются ИИ, и только пограничные случаи передаются людям. Эта гибридная стратегия не только сокращает расходы, но и обеспечивает более высокое общее качество данных, поскольку человеческие усилия резервируются для самых сложных или ценных аннотаций.
Этот сдвиг соответствует более широким тенденциям в области ИИ в сторону ИИ, ориентированный на данные— методология, которая фокусируется на оптимизации обучающих данных, а не на бесконечной настройке архитектуры модели.
Конкурентная среда и восприятие отрасли
Инвесторы, такие как Бессемер, рассматривают Voxel51 как «уровень оркестровки данных» для ИИ — подобно тому, как DevOps инструменты преобразили разработку программного обеспечения. Их инструмент с открытым исходным кодом собрал миллионы загрузок, а их сообщество включает тысячи разработчиков и команд машинного обучения по всему миру.
В то время как другие стартапы, такие как Snorkel AI, Roboflow и Activeloop, также сосредоточены на рабочих процессах с данными, Voxel51 выделяется своей широтой, принципами открытого исходного кода и инфраструктурой корпоративного уровня. Вместо того чтобы конкурировать с поставщиками аннотаций, платформа Voxel51 дополняет их, делая существующие сервисы более эффективными за счет выборочного курирования.
Будущие последствия
Долгосрочные последствия глубоки. Если они будут широко приняты, Воксель51Методология может значительно снизить барьер для входа в сферу компьютерного зрения, демократизировав эту сферу для стартапов и исследователей, не имеющих больших бюджетов на маркировку.
Помимо экономии затрат, этот подход также закладывает основу для системы непрерывного обучения, где модели в процессе производства автоматически отмечают сбои, которые затем проверяются, перемаркируются и объединяются обратно в обучающие данные — все в рамках одного и того же организованного конвейера.
Более широкое видение компании совпадает с тем, как развивается ИИ: не просто более умные модели, но и более умные рабочие процессы. В этом видении аннотация не умерла, но это больше не область грубой силы. Она стратегическая, избирательная и управляемая автоматизацией.