talón Una herramienta de anotación de imágenes basada en navegador para conjuntos de datos de visión artificial - Unite.AI
Contáctanos

Inteligencia artificial

Una herramienta de anotación de imágenes basada en navegador para conjuntos de datos de visión artificial

mm
Actualizado on

Investigadores finlandeses han desarrollado una herramienta de etiquetado de imágenes basada en navegador destinada a mejorar la facilidad y velocidad de los tediosos procesos de anotación de imágenes para conjuntos de datos de visión por computadora. Instalada como una extensión independiente del sistema operativo para los motores de navegador más populares, la nueva herramienta permite a los usuarios "anotar mientras navegan libremente", en lugar de tener que poner una sesión de etiquetado en el contexto de una configuración dedicada o ejecutar aplicaciones cliente. Código lateral y otras circunstancias especiales.

Bajo el título BRIMA (herramienta de anotación de imagen solo para navegador de baja sobrecarga), el sistema fue desarrollado en la Universidad de Jyväskylä. Elimina la necesidad de raspar y compilar conjuntos de datos en directorios locales o remotos, y se puede configurar para derivar datos útiles de los diversos parámetros de datos disponibles en cualquier plataforma pública.

BRIMA en acción. Fuente: https://arxiv.org/pdf/2107.06351.pdf

BRIMA en acción. Fuente: https://arxiv.org/pdf/2107.06351.pdf

De esta forma BRIMA (que se presentará en ICIP 2021, cuando el código también estará disponible) evita los obstáculos potenciales que pueden surgir cuando los sistemas automatizados de web-scraping se bloquean a través de rangos de IP u otros métodos, y se les impide recopilar datos, un escenario que se volverá más común a medida que la protección de IP se vuelve cada vez más enfocada. , como tiene hecho recientemente con la herramienta de generación de código impulsada por IA de Microsoft, Copilot.

Dado que BRIMA está destinado únicamente a la anotación basada en humanos, es menos probable que su uso desencadene otros tipos de obstáculos, como los desafíos de CAPTCHA u otros sistemas automatizados destinados a bloquear los algoritmos de recopilación de datos.

Capacidades adaptativas de recopilación de datos

BRIMA se implementa a través de un complemento de Firefox o una extensión de Chrome en Windows, OSX o Linux, y se puede configurar para ingerir datos destacados en función de los puntos de datos que una plataforma en particular puede optar por exponer. Por ejemplo, al anotar imágenes en Google Street View, el sistema puede tener en cuenta la orientación y el punto de vista de la lente y registrar la ubicación geográfica exacta del objeto especificado bajo la atención del usuario.

BRIMA fue probado en septiembre de 2020 por sus creadores, durante la colaboración en una iniciativa colaborativa para generar un conjunto de datos de detección de objetos para objetos CCTV (cámaras de videovigilancia montadas en espacios públicos o visibles desde espacios públicos).

El sistema se compone de una instalación liviana del lado del cliente de JavaScript en forma de extensión del navegador, y un aspecto del lado del servidor que recibe y compila los datos de anotación. Las implementaciones de referencia de la instalación del lado del servidor se escribieron en Python y PHP con Flask y Swagger/OpenAPI, pero los investigadores enfatizan que la arquitectura de procesamiento central se puede trasladar fácilmente a otros lenguajes y configuraciones.

La extensión del navegador y el servidor se comunican a través de solicitudes de API RESTful y HTTP/XHR, y los datos del lado del cliente se envían a casa en un formato JSON que es compatible con MS COCO. Esto significa que los datos se pueden usar de inmediato con una variedad de los marcos de trabajo de detección de objetos más populares, incluidos diversos back-ends para TensorFlow, como el de Facebook. detector2y MáscaraCentro2.

Herramientas específicas del proyecto

A pesar de la naturaleza genérica de BRIMA, se puede configurar en configuraciones de recopilación de datos altamente específicas, incluida la imposición de menús desplegables y otros tipos de entrada contextual relacionada con un dominio en particular. En la siguiente imagen, vemos que se ha escrito en BRIMA un menú desplegable relacionado con la información de la cámara, de modo que un grupo de anotadores pueda proporcionar información detallada y relevante para el proyecto.

Esta herramienta adicional se puede configurar localmente. La extensión también presenta una fácil instalación y atajos de teclado configurables, junto con elementos de interfaz de usuario codificados por colores.

El trabajo se basa en una serie de intentos en los últimos años para mejorar la facilidad de anotación de imágenes para datos obtenidos en la web o de cara al público. La herramienta PhotoStuff, respaldada por DARPA, ofrece anotaciones en línea a través de un portal web dedicado y se puede ejecutar en la web semántica o como una aplicación independiente; en 2004 UC Berkeley propuso Anotación de fotos en un teléfono con cámara, que aprovechó mucho los metadatos, debido a las limitaciones de la cobertura de la red y las limitaciones de la ventana gráfica de la época; MIT 2005 Etiquetame el proyecto también abordó la anotación basada en navegador, con una dependencia de las herramientas de MATLAB;

Desde su lanzamiento en 2015, el marco Python/QT de FOSS EtiquetaImg ha ganado popularidad en los esfuerzos de anotación colaborativos, con una instalación local dedicada. Sin embargo, los investigadores de BRIMA observan que LabelImg se centra en los estándares PascalVOC y YOLO, no es compatible con el formato MS COCO JSON y evita las herramientas de contorno poligonal en favor de regiones de captura rectangulares simples (que requerirán una segmentación posterior).