toco Uma ferramenta de anotação de imagem baseada em navegador para conjuntos de dados de visão computacional - Unite.AI
Entre em contato

Inteligência artificial

Uma ferramenta de anotação de imagem baseada em navegador para conjuntos de dados de visão computacional

mm
Atualização do on

Pesquisadores da Finlândia desenvolveram uma ferramenta de rotulagem de imagens baseada em navegador destinada a melhorar a facilidade e a velocidade dos tediosos processos de anotação de imagens para conjuntos de dados de visão computacional. Instalada como uma extensão independente do sistema operacional para os mecanismos de navegador mais populares, a nova ferramenta permite que os usuários “anotem enquanto navegam livremente”, em vez de precisar colocar uma sessão de rotulagem no contexto de uma configuração dedicada ou executar tarefas de cliente. código lateral e outras circunstâncias especiais.

Intitulado BRIMA (Ferramenta de anotação de imagem somente para navegador de baixa sobrecarga), o sistema foi desenvolvido na Universidade de Jyväskylä. Ele elimina a necessidade de coletar e compilar conjuntos de dados em diretórios locais ou remotos e pode ser configurado para derivar dados úteis de vários parâmetros de dados disponíveis em qualquer plataforma voltada para o público.

BRIMA em ação. Fonte: https://arxiv.org/pdf/2107.06351.pdf

BRIMA em ação. Fonte: https://arxiv.org/pdf/2107.06351.pdf

Desta forma, o BRIMA (que será apresentado na ICIP 2021 See More, quando o código também serão disponibilizados) evita os possíveis obstáculos que podem surgir quando os sistemas automatizados de captura da web são bloqueados por faixas de IP ou outros métodos e impedidos de coletar dados - um cenário que deve se tornar mais comum à medida que a proteção de IP se torna cada vez mais importante , como tem feito recentemente com a ferramenta de geração de código baseada em IA da Microsoft, Copilot.

Como o BRIMA é destinado exclusivamente à anotação baseada em humanos, seu uso também tem menos probabilidade de desencadear outros tipos de bloqueios, como desafios CAPTCHA ou outros sistemas automatizados destinados a bloquear algoritmos de coleta de dados.

Recursos adaptativos de coleta de dados

O BRIMA é implementado por meio de um complemento do Firefox ou extensão do Chrome no Windows, OSX ou Linux e pode ser configurado para ingerir dados importantes com base em pontos de dados que uma plataforma específica pode optar por expor. Por exemplo, ao anotar imagens no Google Street View, o sistema pode levar em conta a orientação e o ponto de vista da lente e registrar a geolocalização exata do objeto especificado sob atenção do usuário.

O BRIMA foi testado em setembro de 2020 por seus criadores, durante a colaboração em uma iniciativa de crowdsourcing para gerar um conjunto de dados de detecção de objetos para objetos CCTV (câmeras de vigilância por vídeo montadas em espaços públicos ou visíveis em espaços públicos).

O sistema é composto por uma instalação JavaScript leve do lado do cliente na forma de extensão do navegador e um aspecto do lado do servidor que recebe e compila os dados de anotação. As implementações de referência da instalação do lado do servidor foram escritas em Python e PHP com Flask e Swagger/OpenAPI, mas os pesquisadores enfatizam que a arquitetura de processamento central pode ser facilmente portada para outras linguagens e configurações.

A extensão do navegador e o servidor se comunicam por meio de solicitações de API RESTful e HTTP/XHR, com os dados do lado do cliente enviados para casa em um formato JSON compatível com MS COCO. Isso significa que os dados podem ser usados ​​imediatamente com uma variedade das estruturas de detecção de objetos mais populares, incluindo diversos back-ends do TensorFlow, como o do Facebook Detectron2 e Máscara Central2.

Ferramentas específicas do projeto

Apesar da natureza genérica do BRIMA, ele pode ser configurado em configurações de coleta de dados altamente específicas, incluindo a imposição de menus suspensos e outros tipos de entradas contextuais relacionadas a um domínio específico. Na imagem abaixo, vemos que um menu suspenso relacionado às informações da câmera foi gravado no BRIMA, para que um grupo de anotadores possa fornecer informações detalhadas e relevantes para o projeto.

Essas ferramentas adicionais podem ser configuradas localmente. A extensão também apresenta fácil instalação e atalhos de teclado configuráveis, juntamente com elementos de interface do usuário codificados por cores.

O trabalho se baseia em uma série de tentativas nos últimos anos para melhorar a facilidade de anotação de imagens para dados obtidos na web ou voltados para o público. A ferramenta PhotoStuff, suportada pela DARPA, oferece anotação on-line por meio de um portal da Web dedicado e pode ser executada na Web semântica ou como um aplicativo independente; em 2004, a UC Berkeley propôs Anotação de foto em um telefone com câmera, que alavancava fortemente os metadados, devido às limitações de cobertura de rede e às limitações da janela de visualização da época; 2005 do MIT LabelMe o projeto também abordou a anotação baseada em navegador, com base nas ferramentas MATLAB;

Desde seu lançamento em 2015, o framework FOSS Python/QT EtiquetaImg ganhou popularidade em esforços de anotação de crowdsourcing, com uma instalação local dedicada. No entanto, os pesquisadores do BRIMA observam que o LabelImg se concentra nos padrões PascalVOC e YOLO, não oferece suporte ao formato MS COCO JSON e evita ferramentas de contorno poligonal em favor de regiões de captura retangulares simples (que exigirão segmentação subsequente).