Штучний інтелект

Нова технологія авто-маркування Voxel51 обіцяє скоротити витрати на анотацію в 100 000 разів

mm

Проривне нове дослідження компанії з комп’ютерного зору Voxel51 свідчить про те, що традиційна модель анотації даних вже скоро буде змінена. У дослідженнях, опублікованих сьогодні, компанія повідомляє, що її нова система авто-маркування досягає рівня точності людського рівня до 95% при цьому вона в 5 000 разів швидша і в 100 000 разів дешевша, ніж ручне маркування.

Дослідження проводилися з використанням моделей, таких як YOLO-World і Grounding DINO, на відомих наборах даних, включаючи COCO, LVIS, BDD100K і VOC. Надзвичайно, у багатьох реальних сценаріях моделі, навчені виключно на автоматично згенерованих мітках, показали результати на рівні з людськими мітками, а іноді навіть кращі. Для компаній, які будують системи комп’ютерного зору, наслідки величезні: мільйони доларів на витратах на анотацію можуть бути збережені, а цикли розробки моделей можуть скоротитися з тижнів до годин.

Нова ера анотації: Від ручної праці до модельно-орієнтованих потоків

Тривалий час анотація даних була болісною瓶нем у розвитку штучного інтелекту. Від ImageNet до наборів даних для автономних транспортних засобів команди залежали від величезної армії людських працівників для малювання обмежувальних рамок і сегментації об’єктів – це було як дорого, так і повільно.

Домінуюча логіка була простою: більше людських міток = краще штучний інтелект. Але дослідження Voxel51 перевернуло це припущення з ніг на голову.

Їхній підхід використовує попередньо навчені моделі – деякі з них мають нульові можливості – і інтегрує їх у потік, який автоматизує рутинне маркування, а також використовує активне навчання для позначення невизначених або складних випадків для людської перевірки. Цей метод суттєво скорочує час і витрати.

У одному з тестів маркування 3,4 мільйона об’єктів за допомогою графічного процесора NVIDIA L40S зайняло трохи більше однієї години і коштувало 1,18 долара. Ручне виконання цього завдання з використанням AWS SageMaker зайняло б майже 7 000 годин і коштувало б понад 124 000 доларів. У особливо складних випадках – таких як ідентифікація рідкісних категорій у наборах даних COCO або LVIS – моделі з автоматично згенерованими мітками іноді показували кращі результати, ніж їхні людські аналоги. Це несподіваний результат може бути пов’язаний із послідовними моделями маркування і їхнім навчанням на великомасштабних інтернет-даних.

Всередині Voxel51: Команда, яка змінює візуальні потоки штучного інтелекту

Компанія Voxel51 була заснована у 2016 році професором Джейсоном Корсо і Браяном Муром університету Мічигану. Спочатку компанія була консалтинговою компанією, яка спеціалізувалася на відеоаналітиці. Корсо, ветеран у сфері комп’ютерного зору і робототехніки, опублікував понад 150 академічних робіт і внесли значний вклад у відкритий код для спільноти штучного інтелекту. Мур, колишній аспірант Корсо, є генеральним директором компанії.

Переломним моментом стало те, коли команда зрозуміла, що більшість瓶ней штучного інтелекту не були у моделях, а у даних. Це розуміння спонукало їх створити FiftyOne, платформу, призначену для того, щоб дати інженерам можливість досліджувати, кураторувати та оптимізувати візуальні набори даних більш ефективно.

За роки компанія зібрала понад 45 мільйонів доларів, включаючи 12,5 мільйонів доларів серії А і 30 мільйонів доларів серії Б, яку очолила компанія Bessemer Venture Partners. Компанія також має великих клієнтів, таких як LG Electronics, Bosch, Berkshire Grey, Precision Planting і RIOS, які інтегрували інструменти Voxel51 у свої потоки штучного інтелекту.

Від інструменту до платформи: Розширення ролі FiftyOne

FiftyOne розвинувся з простого інструменту візуалізації наборів даних у комплексну, орієнтовану на дані платформу штучного інтелекту. Він підтримує широкий спектр форматів і схем маркування – COCO, Pascal VOC, LVIS, BDD100K, Open Images – і безшовно інтегрується з фреймворками, такими як TensorFlow і PyTorch.

Більше ніж інструмент візуалізації, FiftyOne дозволяє виконувати просунуті операції: знаходити дублікатні зображення, ідентифікувати неправильно помічені зразки, виділяти аутліери і вимірювати моделі відмов. Його екосистема плагінів підтримує настраємні модулі для оптичного розпізнавання символів, відео Q&A і аналізу на основі вкладень.

Версія для підприємств, FiftyOne Teams, вводить колективні функції, такі як контроль версій, права доступу та інтеграція з хмарним сховищем (наприклад, S3), а також інструменти маркування, такі як Labelbox і CVAT. Визначально, Voxel51 також уклав партнерство з V7 Labs, щоб оптимізувати потік між кураторством наборів даних і ручним маркуванням.

Переоцінка галузі анотації

Дослідження авто-маркування Voxel51 викликає питання щодо припущень, які лежать в основі майже мільярдної галузі анотації. У традиційних потоках кожне зображення повинно бути торкнуте людиною – це дорогий і часто зайвий процес. Voxel51 стверджує, що більшість цієї праці може бути现在 ліквідована.

З їхньою системою більшість зображень маркуються штучним інтелектом, а тільки крайні випадки передаються людям. Ця гібридна стратегія не тільки скорочує витрати, але також забезпечує вищу загальну якість даних, оскільки людська праця зарезервована для найбільш складних або цінних анотацій.

Ця зміна паралельна більш широким тенденціям у сфері штучного інтелекту до орієнтованого на дані штучного інтелекту – методології, яка фокусується на оптимізації навчальних даних, а не на нескінченному налаштуванні архітектури моделей.

Конкурентний ландшафт і прийняття галузі

Інвестори, такі як Bessemer, розглядають Voxel51 як “шар оркестрування даних” для штучного інтелекту – подібно до того, як інструменти DevOps змінили розвиток програмного забезпечення. Їхній відкритий інструмент зібрав мільйони завантажень, а їхнє співтовариство налічує тисячі розробників і команд штучного інтелекту усьому світі.

Хоча інші стартапи, такі як Snorkel AI, Roboflow і Activeloop, також фокусуються на потоках даних, Voxel51 виділяється своєю шириною, відкритим етосом і підприємницькою інфраструктурою. Замість того, щоб конкурувати з постачальниками анотації, платформа Voxel51 доповнює їх, роблячи існуючі послуги більш ефективними за рахунок селективної кураторської роботи.

Майбутні наслідки

Довгострокові наслідки величезні. Якщо широко прийнята, методологія Voxel51 могла б суттєво знизити бар’єр для входу у сферу комп’ютерного зору, демократизуючи цю галузь для стартапів і дослідників, які не мають великих бюджетів на маркування.

Поза збереженням витрат, цей підхід також закладає основу для систем безперервного навчання, у яких моделі виробництва автоматично позначають відмови, які потім перевіряються, переміткуються та повертаються у навчальні дані – все це відбувається в рамках одного оркестрованого потоку.

Ширше бачення компанії відповідає тому, як штучний інтелект еволюціонує: не тільки розумніші моделі, але і розумніші потоки. У цьому баченні анотація не мертва, але вже не є сферою примусової праці. Вона стратегічна, селективна і керується автоматизацією.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.