Inteligência artificial

Avaliando a Precisão Histórica do ImageNet

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

Um novo estudo da Google Research e da UC Berkeley acrescenta à crítica de longa data sobre a dependência do setor de pesquisa de visão computacional (CV) no venerável dataset ImageNet e seus muitos derivados. Após uma grande quantidade de avaliação manual laboriosa, os autores concluem que quase 50% dos supostos erros que os melhores modelos cometem na avaliação de subconjunto de multi-rótulos do ImageNet (onde os modelos de melhor desempenho atuais alcançam mais de 97% de precisão top-1) não são, na verdade, erros.

Do artigo:

‘Nossa análise revela que quase metade dos supostos erros não são erros de fato, e descobrimos novos rótulos válidos, demonstrando que, sem uma revisão cuidadosa, estamos subestimando significativamente o desempenho desses modelos.

‘Por outro lado, também descobrimos que os melhores modelos atuais ainda cometem um número significativo de erros (40%) que são obviamente errados para revisores humanos.’

A extensão com que a rotulagem errada de conjuntos de dados – particularmente por trabalhadores de crowdsourcing não qualificados – pode estar distorcendo o setor, foi revelada pela abordagem minuciosa do estudo para avaliação dos pares de imagem/texto em uma grande parte da história do ImageNet.

Na linha superior, exemplos de Gravidade de Erro: nos dois primeiros exemplos aqui, o novo modelo simplesmente obtém a etiqueta prevista errada; no terceiro exemplo, o novo modelo identifica uma etiqueta multi-rótulo anteriormente ausente (uma etiqueta que aborda uma nova categorização da imagem); na última imagem da linha superior, a previsão do modelo é ambígua, porque a imagem é um mosquito-bee e não uma mosca. No entanto, a média das abelhas pertence à ordem de insetos Diptera, e assim essa exceção seria quase impossível de detectar, mesmo para um annotador especializado. Na linha abaixo estão quatro categorias de erros, com exemplos. Fonte: https://arxiv.org/pdf/2205.04596.pdf

Os pesquisadores empregaram um pequeno número de avaliadores dedicados para revisar laboriosamente os registros de erros históricos na avaliação do conjunto de dados ImageNet, descobrindo que muitos dos julgamentos de erro são eles mesmos errados – uma descoberta que potencialmente revisa algumas das pontuações ruins que muitos projetos obtiveram nos benchmarks do ImageNet ao longo dos anos.

À medida que o ImageNet se entranha na cultura CV, os pesquisadores defendem que melhorias na precisão rendem retornos decrescentes, e que novos modelos que ultrapassam a precisão de rótulos estabelecida e que sugerem novos (ou seja, adicionais) rótulos podem estar sendo punidos, essencialmente, por não conformidade.

‘Por exemplo,’ os autores observam. ‘devemos penalizar modelos por serem os primeiros a prever que um bagel pré-assado pode ser um bagel, como um dos modelos que revisamos neste trabalho faz?’

Do artigo, um modelo mais novo desafia a previsão anterior de que o objeto na foto é massa, e sugere que o objeto é, na verdade, um bagel).

Do ponto de vista de um trabalhador de crowdsourcing encarregado de identificar tal objeto, esta é uma questão semântica e até filosófica que só pode ser resolvida por meio de multi-rótulos (como ocorre em subconjuntos posteriores e iterações subsequentes do ImageNet); no caso acima, o objeto é, de fato, tanto massa quanto, pelo menos, um bagel nascente.

Erros principais (acima) e menores (abaixo) que surgiram ao testar modelos personalizados na pesquisa. As etiquetas originais do ImageNet são as primeiras imagens à esquerda.

As duas soluções óbvias são atribuir mais recursos à rotulagem (o que é um desafio, dentro das restrições orçamentárias da maioria dos projetos de pesquisa de visão computacional); e, como os autores enfatizam, atualizar regularmente os conjuntos de dados e subconjuntos de avaliação de rótulos (o que, entre outros obstáculos, arrisca quebrar a continuidade histórica ‘como para como’ dos benchmarks e poluir novos artigos de pesquisa com qualificações e declarações sobre equivalência).

Como um passo para remediar a situação, os pesquisadores desenvolveram um novo subconjunto do ImageNet chamado ImageNet-Major (ImageNet-M), que descrevem como ‘um “erro principal” de 68-exemplos – uma fatia onde os modelos devem alcançar quase perfeição, mas hoje estão longe disso.’

O artigo é intitulado Quando a massa se torna um bagel? Analisando os erros restantes no ImageNet, e é escrito por quatro autores da Google Research, juntamente com Sara Fridovich-Keil, da UC Berkeley.

Dívida Técnica

As descobertas são importantes porque os erros restantes identificados (ou mal identificados) no ImageNet, nos 16 anos desde sua criação, o estudo central da pesquisa, podem representar a diferença entre um modelo implantável e um que é propenso a erros o suficiente para não ser liberado em dados ao vivo. Como sempre, o último quilômetro é crítico.

O setor de pesquisa de visão computacional e síntese de imagens efetivamente ‘selecionou automaticamente’ o ImageNet como uma métrica de benchmark, por uma série de razões — não menos porque uma onda de primeiros adotantes, em um momento em que conjuntos de dados de alto volume e bem rotulados eram mais raros do que são agora, produziu tantas iniciativas de pesquisa que testar contra o ImageNet rapidamente se tornou o único ‘padrão’ histórico amplamente aplicável para benchmarking novos quadros.

Método

Em busca dos ‘erros restantes’ no ImageNet, os pesquisadores usaram um modelo ViT padrão (capaz de alcançar uma precisão de 89,5%) com 3 bilhões de parâmetros, Vit-3B, pré-treinado em JFT-3B e ajustado em ImageNet-1K.

Usando o conjunto de dados ImageNet2012_multilabel, os pesquisadores registraram a precisão inicial de multi-rótulos (MLA) do ViT-3B como 96,3%, durante o qual o modelo cometeu 676 erros aparentes. Foram esses erros (e também erros produzidos por um modelo Greedy Soups) que os autores buscaram investigar.

Para avaliar os 676 erros restantes, os autores evitaram trabalhadores de crowdsourcing, observando que erros desse tipo podem ser difíceis para annotadores médios detectar, mas reuniram um painel de cinco revisores especializados e criaram uma ferramenta dedicada para permitir que cada revisor visse de relance a classe prevista; a pontuação prevista; as etiquetas de verdade; e a imagem em si.

A interface construída para o projeto.

Em alguns casos, foi necessária pesquisa adicional para resolver disputas entre o painel, e a busca de imagens do Google foi usada como uma ferramenta auxiliar.

‘[Em] um caso interessante, mas não isolado, uma previsão de um táxi (com nenhum indicador óbvio de táxi além da cor amarela) estava presente na imagem; determinamos que a previsão era corretamente um táxi e não apenas um veículo padrão, identificando uma ponte de referência no fundo para localizar a cidade e uma busca de imagem subsequente por táxis nessa cidade produziu imagens do mesmo modelo de táxi e design de placa, validando a previsão correta do modelo.’

Após a revisão inicial dos erros encontrados em várias fases da pesquisa, os autores formularam quatro novos tipos de erros: erro de granulação fina, onde a classe prevista é semelhante a uma etiqueta de verdade; erro de granulação fina com fora do vocabulário (OOV), onde o modelo identifica um objeto cuja classe é correta, mas não está presente no ImageNet; correlação espúria, onde a etiqueta prevista é lida fora do contexto da imagem; e não prototípico, onde o objeto de verdade é um exemplo questionável da classe que se assemelha à etiqueta prevista.

Em certos casos, a verdade não era ela mesma ‘verdadeira’:

‘Após a revisão dos 676 erros originais [encontrados no ImageNet], descobrimos que 298 eram corretos ou incertos, ou determinamos que a verdade original era incorreta ou problemática.’

Após uma rodada exaustiva e complexa de experimentos em uma variedade de conjuntos de dados, subconjuntos e conjuntos de validação, os autores descobriram que os dois modelos em estudo foram considerados corretos (pelo revisores humanos) para metade dos ‘erros’ que cometiam sob técnicas convencionais.

O artigo conclui:

‘Neste artigo, analisamos todos os erros restantes que os modelos ViT-3B e Greedy Soups cometem no conjunto de validação de multi-rótulos do ImageNet.

‘No geral, descobrimos que: 1) quando um modelo de grande porte e alta precisão faz uma previsão nova não feita por outros modelos, acaba sendo um novo multi-rótulo correto quase metade das vezes; 2) modelos de alta precisão não demonstram um padrão óbvio em nossas categorias e gravidades de erros que resolvem; 3) modelos SOTA de hoje estão basicamente igualando ou superando o desempenho do melhor especialista humano no subconjunto de multi-rótulos avaliado por humanos; 4) dados de treinamento barulhentos e classes subespecificadas podem ser um fator limitante para a medição eficaz de melhorias na classificação de imagens.’

Publicado pela primeira vez em 15 de maio de 2022.