Intelligenza Artificiale
Uno strumento di annotazione delle immagini basato su browser per set di dati di visione artificiale

Ricercatori finlandesi hanno sviluppato uno strumento di etichettatura delle immagini basato su browser, pensato per semplificare e velocizzare i noiosi processi di annotazione delle immagini per i set di dati di visione artificiale. Installato come estensione indipendente dal sistema operativo per i browser più diffusi, il nuovo strumento consente agli utenti di "annotare durante la navigazione", anziché dover inserire una sessione di etichettatura nel contesto di una configurazione dedicata, eseguire codice lato client e altre circostanze speciali.
Intitolata BRIMA (Low-Overhead BRowser-only IMage Annotation tool), il sistema è stato sviluppato presso l'Università di Jyväskylä. Elimina la necessità di raccogliere e compilare set di dati in directory locali o remote e può essere configurato per ricavare dati utili dai vari parametri di dati disponibili su qualsiasi piattaforma pubblica.

BRIMA in azione. Fonte: https://arxiv.org/pdf/2107.06351.pdf
In questo modo BRIMA (che sarà presentato a CIPI 2021, quando il codice saranno resi disponibili) elimina i potenziali ostacoli che possono sorgere quando i sistemi automatizzati di web scraping vengono bloccati tramite intervalli IP o altri metodi e impediti di raccogliere dati - uno scenario che è destinato a diventare più comune man mano che la protezione IP diventa sempre più al centro dell'attenzione , come ha fatto di recente con Copilot, lo strumento di generazione di codice basato sull'intelligenza artificiale di Microsoft.
Poiché BRIMA è destinato esclusivamente all'annotazione basata sull'uomo, è anche meno probabile che il suo utilizzo attivi altri tipi di blocchi stradali, come le sfide CAPTCHA o altri sistemi automatizzati destinati a bloccare gli algoritmi di raccolta dei dati.
Capacità adattive di raccolta dati
BRIMA è implementato tramite un componente aggiuntivo di Firefox o un'estensione di Chrome su Windows, OSX o Linux e può essere configurato per importare dati salienti in base a punti dati che una particolare piattaforma può scegliere di esporre. Ad esempio, quando si annotano le immagini in Google Street View, il sistema può tenere conto dell'orientamento e del punto di vista dell'obiettivo e registrare l'esatta geolocalizzazione dell'oggetto specificato sotto l'attenzione dell'utente.
BRIMA è stato testato nel settembre del 2020 dai suoi creatori, durante la collaborazione su un'iniziativa di crowdsourcing per generare un set di dati di rilevamento di oggetti per oggetti CCTV (telecamere di videosorveglianza montate in spazi pubblici o visualizzabili da spazi pubblici).
Il sistema è composto da una leggera installazione lato client JavaScript sotto forma di estensione del browser e un aspetto lato server che riceve e compila i dati di annotazione. Le implementazioni di riferimento dell'installazione lato server sono state scritte in Python e PHP con Flask e Swagger/OpenAPI, ma i ricercatori sottolineano che l'architettura di elaborazione centrale può essere facilmente trasferita in altri linguaggi e configurazioni.
L'estensione del browser e il server comunicano tramite richieste API RESTful e HTTP/XHR, con i dati lato client inviati in un formato JSON compatibile con MS COCO. Ciò significa che i dati sono immediatamente utilizzabili con una varietà dei framework di rilevamento degli oggetti più diffusi, inclusi diversi back-end di TensorFlow, come quello di Facebook. Rilevatore2e CenterMask2.
Strumenti specifici per il progetto
Nonostante la natura generica di BRIMA, può essere configurato in configurazioni di raccolta dati altamente specifiche, inclusa l'imposizione di menu a discesa e altri tipi di input contestuali relativi a un particolare dominio. Nell'immagine sottostante vediamo che in BRIMA è stato scritto un menu a discesa relativo alle informazioni sulla telecamera, in modo che un gruppo di annotatori possa fornire informazioni dettagliate e rilevanti per il progetto.
Questi strumenti aggiuntivi possono essere configurati localmente. L'estensione offre anche una facile installazione e scorciatoie da tastiera configurabili, insieme a elementi dell'interfaccia utente con codice colore.
Il lavoro si basa su una serie di tentativi negli ultimi anni per migliorare la facilità di annotazione delle immagini per i dati ottenuti dal web o rivolti al pubblico. Lo strumento PhotoStuff, supportato da DARPA, offre annotazioni online tramite un portale Web dedicato e può essere eseguito sul Web semantico o come applicazione autonoma; nel 2004 UC Berkeley ha proposto Annotazione fotografica su un telefono con fotocamera, che sfruttava pesantemente i metadati, a causa delle limitazioni della copertura di rete e delle limitazioni della viewport dell'epoca; MIT del 2005 Etichettami il progetto si è anche avvicinato all'annotazione basata su browser, facendo affidamento sugli strumenti MATLAB;
Dal suo rilascio nel 2015, il framework FOSS Python/QT EtichettaImg ha guadagnato popolarità negli sforzi di annotazione in crowdsourcing, con un'installazione locale dedicata. Tuttavia, i ricercatori BRIMA osservano che LabelImg è incentrato sugli standard PascalVOC e YOLO, non supporta il formato MS COCO JSON ed evita gli strumenti di delineamento poligonale a favore di semplici regioni di cattura rettangolari (che richiederanno una successiva segmentazione).