Искусственный интеллект
Браузерный инструмент аннотирования изображений для наборов данных компьютерного зрения

Финские исследователи разработали браузерный инструмент для маркировки изображений, призванный упростить и ускорить трудоёмкие процессы аннотирования изображений в наборах данных компьютерного зрения. Новый инструмент, устанавливаемый как независимое от ОС расширение для большинства популярных браузеров, позволяет пользователям «аннотировать изображения, не прерывая просмотр», без необходимости встраивать сеанс маркировки в контекст специальной настройки, запускать клиентский код и выполнять другие особые условия.
Озаглавленный БРИМА (Low-Overhead BRowser-only IMage Annotation tool) система была разработана в Университете Ювяскюля. Он устраняет необходимость очистки и компиляции наборов данных в локальные или удаленные каталоги и может быть настроен для получения полезных данных из различных параметров данных, доступных на любой общедоступной платформе.

БРИМА в действии. Источник: https://arxiv.org/pdf/2107.06351.pdf
Таким образом, BRIMA (которая будет представлена на ИКИП 2021, когда код также будут доступны) устраняет потенциальные препятствия, которые могут возникнуть, когда автоматизированные системы веб-скрапинга блокируются с помощью диапазонов IP-адресов или других методов и препятствуют сбору данных — сценарий, который будет становиться все более распространенным по мере того, как защита ИС становится все более важной. , как это было недавно сделано с помощью инструмента генерации кода на основе искусственного интеллекта от Microsoft — Copilot.
Поскольку BRIMA предназначена исключительно для аннотирования человеком, ее использование также с меньшей вероятностью вызовет другие виды препятствий, таких как вызовы CAPTCHA или другие автоматизированные системы, предназначенные для блокировки алгоритмов сбора данных.
Адаптивные возможности сбора данных
BRIMA реализуется через надстройку Firefox или расширение Chrome в Windows, OSX или Linux и может быть настроена для приема существенных данных на основе точек данных, которые конкретная платформа может выбрать для предоставления. Например, при аннотировании изображений в Google Street View система может учитывать ориентацию и точку обзора объектива, а также регистрировать точное географическое положение объекта, на который обратил внимание пользователь.

BRIMA была протестирована в сентябре 2020 года ее создателями во время сотрудничества в рамках краудсорсинговой инициативы по созданию набора данных обнаружения объектов для объектов видеонаблюдения (камеры видеонаблюдения, установленные в общественных местах или просматриваемые из общественных мест).
Система состоит из легкой клиентской установки JavaScript в виде расширения для браузера и серверной части, которая получает и компилирует данные аннотаций. Эталонные реализации установки на стороне сервера были написаны на Python и PHP с помощью Flask и Swagger/OpenAPI, но исследователи подчеркивают, что архитектуру центральной обработки можно легко перенести на другие языки и конфигурации.
Расширение браузера и сервер взаимодействуют посредством запросов RESTful API и HTTP/XHR, при этом данные на стороне клиента передаются в формате JSON, совместимом с MS COCO. Это означает, что данные можно сразу же использовать в различных популярных фреймворках для обнаружения объектов, включая различные бэкенды TensorFlow, например, Facebook. Детектрон2 и ЦентрМаска2.
Инструменты для конкретных проектов
Несмотря на общий характер BRIMA, его можно настроить для очень специфических конфигураций сбора данных, включая наложение раскрывающихся меню и других видов контекстного ввода, связанных с конкретной областью. На изображении ниже мы видим, что выпадающее меню, относящееся к информации о камере, было записано в BRIMA, чтобы группа аннотаторов могла предоставить подробную информацию, относящуюся к проекту.

Этот дополнительный инструментарий можно настроить локально. Расширение также отличается простотой установки и настраиваемыми сочетаниями клавиш, а также элементами пользовательского интерфейса с цветовой кодировкой.
Работа основана на ряде попыток, предпринятых в последние годы, по улучшению возможности аннотирования изображений для данных, полученных из Интернета или общедоступных данных. Инструмент PhotoStuff, поддерживаемый DARPA, предлагает онлайн-аннотации через специальный веб-портал и может работать в семантической сети или как отдельное приложение; в 2004 году Калифорнийский университет в Беркли предложил Аннотации к фотографиям на телефоне с камерой, который активно использовал метаданные из-за ограничений сетевого покрытия и ограничений области просмотра той эпохи; MIT 2005 LabelMe проект также приблизился к аннотации на основе браузера с опорой на инструменты MATLAB;
С момента своего выпуска в 2015 году платформа FOSS Python/QT Изображение Метки приобрел популярность благодаря краудсорсинговым аннотациям со специальной локальной установкой. Однако исследователи BRIMA отмечают, что LabelImg использует стандарты PascalVOC и YOLO, не поддерживает формат MS COCO JSON и отказывается от инструментов полигонального выделения в пользу простых прямоугольных областей захвата (которые потребуют последующей сегментации).












