Ángulo de Anderson
Una herramienta de anotación de imágenes basada en navegador para conjuntos de datos de visión por computadora

Investigadores de Finlandia han desarrollado una herramienta de etiquetado de imágenes basada en navegador destinada a mejorar la facilidad y velocidad de los tediosos procesos de anotación de imágenes para conjuntos de datos de visión por computadora. Instalada como una extensión agnóstica del sistema operativo para los motores de búsqueda más populares, la nueva herramienta permite a los usuarios “etiquetar mientras navegan libremente”, en lugar de necesitar poner una sesión de etiquetado en el contexto de una configuración dedicada o ejecutar código del lado del cliente y otras circunstancias especiales.
Llamada BRIMA (herramienta de anotación de imágenes de bajo costo solo en navegador), el sistema se desarrolló en la Universidad de Jyväskylä. Elimina la necesidad de raspar y compilar conjuntos de datos en directorios locales o remotos y se puede configurar para derivar datos útiles de los diversos parámetros de datos disponibles en cualquier plataforma de cara al público.

BRIMA en acción. Fuente: https://arxiv.org/pdf/2107.06351.pdf
De esta manera, BRIMA (que se presentará en ICIP 2021, cuando el código también estará disponible) evita los obstáculos potenciales que pueden surgir cuando los sistemas de extracción automática de datos web están bloqueados a través de rangos de IP u otros métodos, y se les impide recopilar datos, un escenario que está destinado a volverse más común a medida que la protección de IP entra cada vez más en foco, como recientemente ha hecho con la herramienta de generación de código de Microsoft, Copilot.
Dado que BRIMA está destinada únicamente a la anotación basada en humanos, su uso también es menos probable que active otros tipos de obstáculos, como desafíos CAPTCHA o otros sistemas automatizados destinados a bloquear algoritmos de recopilación de datos.
Capacidades de recopilación de datos adaptativas
BRIMA se implementa a través de una extensión de Firefox o una extensión de Chrome en Windows, OSX o Linux, y se puede configurar para ingerir datos destacados basados en puntos de datos que una plataforma en particular puede elegir exponer. Por ejemplo, al anotar imágenes en Google Street View, el sistema puede tener en cuenta la orientación y el punto de vista del objetivo, y registrar la ubicación geográfica exacta del objeto especificado bajo la atención del usuario.

BRIMA se probó en septiembre de 2020 por sus creadores, durante una colaboración en una iniciativa de crowdsourcing para generar un conjunto de datos de detección de objetos para objetos de CCTV (cámaras de vigilancia instaladas en espacios públicos o visibles desde espacios públicos).
El sistema consta de una instalación ligera del lado del cliente en forma de extensión del navegador y un aspecto del lado del servidor que recibe y compila los datos de anotación. Las implementaciones de referencia de la instalación del lado del servidor se escribieron en Python y PHP con Flask y Swagger/OpenAPI, pero los investigadores enfatizan que la arquitectura de procesamiento central se puede portar fácilmente a otros lenguajes y configuraciones.
La extensión del navegador y el servidor se comunican a través de solicitudes de API RESTful y HTTP/XHR, con los datos del lado del cliente enviados a casa en un formato JSON compatible con MS COCO. Esto significa que los datos son inmediatamente utilizables con una variedad de los marcos de detección de objetos más populares, incluidos diversos back-ends para TensorFlow, como Detectron2 de Facebook, y CenterMask2.
Herramientas específicas del proyecto
A pesar de la naturaleza genérica de BRIMA, se puede configurar en configuraciones de recopilación de datos muy específicas, incluida la imposición de menús desplegables y otros tipos de entrada contextual relacionados con un dominio en particular. En la imagen a continuación, vemos que se ha escrito un menú desplegable relacionado con la información de la cámara en BRIMA, para que un grupo de anotadores pueda proporcionar información detallada y relevante para el proyecto.

Esta herramienta adicional se puede configurar localmente. La extensión también cuenta con una instalación fácil y atajos de teclado configurables, junto con elementos de la interfaz de usuario con código de colores.
El trabajo se basa en una serie de intentos en los últimos años para mejorar la facilidad de anotación de imágenes para datos obtenidos en la web o de cara al público. La herramienta PhotoStuff, respaldada por DARPA, ofrece anotación en línea a través de un portal web dedicado y se puede ejecutar en la web semántica o como una aplicación independiente; en 2004, la Universidad de California en Berkeley propuso Anotación de fotos en un teléfono de cámara, que aprovechó mucho los metadatos debido a las limitaciones de la cobertura de la red y las limitaciones de la vista del viewport de la época; el proyecto LabelMe de MIT de 2005 también abordó la anotación basada en el navegador, con una dependencia de las herramientas MATLAB;
Desde su lanzamiento en 2015, el marco FOSS Python/QT LabelImg ha ganado popularidad en los esfuerzos de anotación de crowdsourcing, con una instalación local dedicada. Sin embargo, los investigadores de BRIMA observan que LabelImg se centra en los estándares PascalVOC y YOLO, no admite el formato JSON MS COCO y evita las herramientas de contorno poligonal en favor de regiones de captura rectangulares simples (que requerirán una segmentación posterior).












