Intelligence Artificielle

Un outil d'annotation d'images basé sur un navigateur pour les ensembles de données de vision par ordinateur

Publié le 19 juillet, 2021

Le kit de préparation mis à jour 9 décembre 2022

Martin Anderson

Des chercheurs finlandais ont développé un outil d'étiquetage d'images basé sur un navigateur, destiné à simplifier et accélérer les processus fastidieux d'annotation d'images pour les jeux de données de vision par ordinateur. Installé sous forme d'extension indépendante du système d'exploitation pour les navigateurs les plus populaires, ce nouvel outil permet aux utilisateurs d'annoter en naviguant librement, sans avoir à installer une session d'étiquetage dans le contexte d'une configuration dédiée, ni à exécuter du code côté client ou dans d'autres circonstances particulières.

Intitulée BRIMA (Low-Overhead Browser-only IMage Annotation tool), le système a été développé à l'Université de Jyväskylä. Il supprime le besoin de récupérer et de compiler des ensembles de données dans des répertoires locaux ou distants, et peut être configuré pour dériver des données utiles à partir des différents paramètres de données disponibles sur n'importe quelle plate-forme publique.

BRIMA en action. Source : https://arxiv.org/pdf/2107.06351.pdf

Ainsi BRIMA (qui sera présenté à ICIP 2021, quand le code seront également mis à disposition) évite les obstacles potentiels qui peuvent survenir lorsque les systèmes de grattage Web automatisés sont bloqués via des plages d'adresses IP ou d'autres méthodes, et empêchés de collecter des données - un scénario qui devrait devenir plus courant à mesure que la protection IP devient de plus en plus ciblée , comme il a fait récemment avec l'outil de génération de code basé sur l'IA de Microsoft, Copilot.

Étant donné que BRIMA est destiné uniquement à l'annotation humaine, son utilisation est également moins susceptible de déclencher d'autres types de barrages routiers, tels que les défis CAPTCHA ou d'autres systèmes automatisés destinés à bloquer les algorithmes de collecte de données.

Capacités de collecte de données adaptatives

BRIMA est implémenté via un module complémentaire Firefox ou une extension Chrome sur Windows, OSX ou Linux, et peut être configuré pour ingérer des données saillantes basées sur des points de données qu'une plate-forme particulière peut choisir d'exposer. Par exemple, lors de l'annotation d'images dans Google Street View, le système peut tenir compte de l'orientation et du point de vue de l'objectif, et enregistrer la géolocalisation exacte de l'objet spécifié sous l'attention de l'utilisateur.

BRIMA a été testé en septembre 2020 par ses créateurs, lors d'une collaboration sur une initiative participative visant à générer un ensemble de données de détection d'objets pour les objets CCTV (caméras de vidéosurveillance montées dans des espaces publics ou visibles depuis des espaces publics).

Le système est composé d'une installation côté client JavaScript légère sous la forme d'une extension de navigateur et d'un aspect côté serveur qui reçoit et compile les données d'annotation. Les implémentations de référence de l'installation côté serveur ont été écrites en Python et PHP avec Flask et Swagger/OpenAPI, mais les chercheurs soulignent que l'architecture de traitement central peut facilement être portée vers d'autres langages et configurations.

L'extension de navigateur et le serveur communiquent via des requêtes API RESTful et HTTP/XHR, les données côté client étant transmises au format JSON compatible avec MS COCO. Ainsi, les données sont immédiatement exploitables avec les frameworks de détection d'objets les plus populaires, notamment les back-ends TensorFlow, comme celui de Facebook. Détecteur2 et CentreMasque2.

Outillage spécifique au projet

Malgré la nature générique de BRIMA, il peut être configuré dans des configurations de collecte de données très spécifiques, y compris l'imposition de menus déroulants et d'autres types d'entrées contextuelles liées à un domaine particulier. Dans l'image ci-dessous, nous voyons qu'un menu déroulant relatif aux informations sur la caméra a été écrit dans BRIMA, afin qu'un groupe d'annotateurs puisse fournir des informations détaillées et pertinentes pour le projet.

Cet outillage supplémentaire peut être configuré localement. L'extension propose également une installation facile et des raccourcis clavier configurables, ainsi que des éléments d'interface utilisateur à code couleur.

Le travail s'appuie sur un certain nombre de tentatives au cours des dernières années pour améliorer la fonctionnalité d'annotation d'images pour les données obtenues sur le Web ou destinées au public. L'outil PhotoStuff, pris en charge par la DARPA, propose des annotations en ligne via un portail Web dédié et peut être exécuté sur le Web sémantique ou en tant qu'application autonome. en 2004, l'UC Berkeley a proposé Annotation de photos sur un téléphone avec appareil photo, qui exploitait largement les métadonnées, en raison des limitations de la couverture réseau et des limitations de la fenêtre d'affichage de l'époque ; MIT 2005 Étiquetez-moi le projet a également abordé l'annotation basée sur un navigateur, en s'appuyant sur les outils MATLAB ;

Depuis sa sortie en 2015, le framework FOSS Python/QT ÉtiquetteImg a gagné en popularité dans les efforts d'annotation en crowdsourcing, avec une installation locale dédiée. Cependant, les chercheurs de BRIMA observent que LabelImg se concentre sur les normes PascalVOC et YOLO, ne prend pas en charge le format MS COCO JSON et évite les outils de contour polygonaux au profit de simples régions de capture rectangulaires (qui nécessiteront une segmentation ultérieure).

Rubriques connexes:Vision par ordinateur travailleurs de la foule crowdsourcing Une étude

Martin Anderson

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai