Зв'язатися з нами

Нова технологія автоматичного маркування Voxel51 обіцяє скоротити витрати на анотації в 100,000 XNUMX разів

Штучний Інтелект

Нова технологія автоматичного маркування Voxel51 обіцяє скоротити витрати на анотації в 100,000 XNUMX разів

mm

Нове революційне дослідження від стартапу комп'ютерного зору Воксель51 свідчить про те, що традиційна модель анотації даних ось-ось буде перевернута. У дослідженні, опублікованому сьогодні, компанія повідомляє, що її нова система автоматичного маркування досягає до 95% точності на рівні людини, будучи при цьому в 5,000 разів швидшою та до 1в 00,000 разів дешевше ніж ручне маркування.

У дослідженні було проведено порівняння базових моделей, таких як YOLO-World та Grounding DINO, з відомими наборами даних, включаючи COCO, LVIS, BDD100K та VOC. Примітно, що в багатьох реальних сценаріях моделі, навчені виключно на мітках, згенерованих штучним інтелектом, працювали нарівні з тими, що навчалися на мітках, створених людьми, або навіть краще. Для компаній, що будують комп'ютерне бачення системи, наслідки величезні: можна було б заощадити мільйони доларів на витратах на анотації, а цикли розробки моделей могли б скоротитися з тижнів до годин.

Нова ера анотацій: від ручної праці до конвеєрів на основі моделей

Протягом десятиліть, анотація даних було болісним вузьким місцем у розробці штучного інтелекту. Від ImageNet до наборів даних автономних транспортних засобів, команди покладалися на величезні армії людських працівників для малювання обмежувальних рамок та сегментації об'єктів — завдання, яке було водночас дорогим і повільним.

Логіка, що переважала, була простою: більше даних, маркованих людиною, = кращий штучний інтелект. Але дослідження Voxel51 перевертає це припущення з ніг на голову.

Їхній підхід використовує попередньо навчені базові моделі, деякі з яких мають нульовий постріл можливості — та інтегрує їх у конвеєр, який автоматизує рутинне маркування, використовуючи активне навчання для позначення невизначених або складних випадків для перевірки людиною. Цей метод значно скорочує як час, так і витрати.

В одному тесті маркування 3.4 мільйона об'єктів за допомогою графічного процесора NVIDIA L40S зайняло трохи більше години та коштувало $1.18. Виконання цієї ж роботи вручну за допомогою AWS SageMaker зайняло б майже 7,000 годин і коштувало б понад $124,000 XNUMX. В особливо складних випадках, таких як визначення рідкісних категорій у наборах даних COCO або LVIS, моделі з автоматичним маркуванням іноді... перевершив їхні аналоги, позначені людиною. Цей дивовижний результат може бути пов'язаний з послідовними шаблонами маркування базових моделей та їх навчанням на великомасштабних інтернет-даних.

Усередині Voxel51: Команда, яка змінює робочі процеси візуального штучного інтелекту

Заснована в 2016 році Професор Джейсон Корсо та Браян Мур У Мічиганському університеті Voxel51 спочатку розпочала свою діяльність як консалтингова компанія, що спеціалізується на відеоаналітиці. Corso, ветеран у галузі комп'ютерного зору та робототехніки, опублікувала понад 150 наукових робіт та внесла значний внесок у створення відкритого коду для спільноти штучного інтелекту. Мур, колишній аспірант Corso, обіймає посаду генерального директора.

Поворотний момент настав, коли команда усвідомила, що більшість вузьких місць ШІ полягали не в дизайні моделі, а в даних. Це розуміння надихнуло їх на створення П'ятьдесят-один, платформа, розроблена для того, щоб надати інженерам можливість ефективніше досліджувати, обробляти та оптимізувати візуальні набори даних.

Протягом багатьох років компанія зібрала понад $ 45M, В тому числі 12.5 мільйонів доларів Серія A і 30 мільйонів доларів Серія B очолювана Bessemer Venture Partners. Далі відбулося впровадження на підприємствах, де такі великі клієнти, як LG Electronics, Bosch, Berkshire Grey, Precision Planting та RIOS, інтегрували інструменти Voxel51 у свої виробничі робочі процеси зі штучним інтелектом.

Від інструменту до платформи: розширення ролі FiftyOne

FiftyOne виріс з простого інструменту візуалізації наборів даних до комплексної, орієнтованої на дані платформи штучного інтелекту. Він підтримує широкий спектр форматів та схем маркування — COCO, Pascal VOC, LVIS, BDD100K, Open Images — та бездоганно інтегрується з такими фреймворками, як TensorFlow та PyTorch.

FiftyOne — це більше, ніж просто інструмент візуалізації, він дозволяє виконувати розширені операції: пошук дублікатів зображень, ідентифікацію неправильно позначених зразків, виявлення викидів та вимірювання режимів відмови моделі. Його екосистема плагінів підтримує користувацькі модулі для оптичного розпізнавання символів, відеозапитування та відповідей, а також аналізу на основі вбудовування.

Корпоративна версія FiftyOne Teams пропонує такі функції для спільної роботи, як контроль версій, дозволи доступу та інтеграція з хмарним сховищем (наприклад, S3), а також інструменти для анотацій, такі як Labelbox та CVAT. Примітно, що Voxel51 також у партнерстві з V7 Labs щоб оптимізувати потік між куруванням набору даних та ручним анотуванням.

Переосмислення індустрії анотацій

Дослідження Voxel51 щодо автоматичного маркування ставить під сумнів припущення, що лежать в основі індустрії анотацій вартістю майже 1 мільярд доларів. У традиційних робочих процесах кожне зображення має бути доторкане людиною — дорогий і часто зайвий процес. Voxel51 стверджує, що більшу частину цієї праці тепер можна усунути.

Завдяки їхній системі більшість зображень маркуються штучним інтелектом, тоді як людям передаються лише крайні випадки. Ця гібридна стратегія не лише скорочує витрати, але й забезпечує вищу загальну якість даних, оскільки людські зусилля зарезервовані для найскладніших або цінних анотацій.

Цей зсув паралельний ширшим тенденціям у сфері штучного інтелекту, спрямованим на AI, орієнтований на дані—методологія, яка зосереджена на оптимізації навчальних даних, а не на нескінченному налаштуванні архітектур моделей.

Конкурентне середовище та сприйняття в галузі

Такі інвестори, як Бессемер, розглядають Voxel51 як «рівень оркестрації даних» для ШІ — подібно до того, як DevOps інструменти трансформували розробку програмного забезпечення. Їхній інструмент з відкритим кодом зібрав мільйони завантажень, а їхня спільнота включає тисячі розробників та команд машинного навчання по всьому світу.

Хоча інші стартапи, такі як Snorkel AI, Roboflow та Activeloop, також зосереджуються на робочих процесах з даними, Voxel51 вирізняється своєю широтою охоплення, принципами відкритого коду та інфраструктурою корпоративного рівня. Замість того, щоб конкурувати з постачальниками анотацій, платформа Voxel51 доповнює їх, роблячи існуючі сервіси ефективнішими завдяки вибірковому кураторству.

Майбутні наслідки

Довгострокові наслідки є глибокими. Якщо їх широко впроваджувати, Воксель51Методологія може значно знизити бар'єр для входу в сферу комп'ютерного зору, демократизуючи цю сферу для стартапів та дослідників, які не мають значних бюджетів на маркування.

Окрім економії коштів, цей підхід також закладає основу для системи безперервного навчання, де моделі у виробництві автоматично позначають помилки, які потім переглядаються, перемічуються та знову враховуються в навчальних даних — все в межах одного оркестрованого конвеєра.

Ширше бачення компанії відповідає розвитку штучного інтелекту: не просто розумніші моделі, а й розумніші робочі процеси. Згідно з цим баченням, анотації не мертві, але вони більше не є сферою грубої праці. Вони стратегічні, вибіркові та керовані автоматизацією.

Антуан — далекоглядний лідер і партнер-засновник Unite.AI, керований непохитною пристрастю до формування та просування майбутнього ШІ та робототехніки. Будучи серійним підприємцем, він вірить, що штучний інтелект буде таким же руйнівним для суспільства, як електрика, і його часто ловлять на захопленні потенціалом революційних технологій і AGI.

Як футурист, він присвячений дослідженню того, як ці інновації впливатимуть на наш світ. Крім того, він є засновником Securities.io, платформа, орієнтована на інвестиції в передові технології, які переосмислюють майбутнє та змінюють цілі сектори.