Inteligência artificial
Avaliando a precisão histórica do ImageNet

Um novo estudo do Google Research e da UC Berkeley acrescenta crítica de longa data em relação à dependência do setor de pesquisa de visão computacional (CV) no venerável IMAGEnet conjunto de dados e seus muitos derivados. Depois de muita avaliação manual de trabalho intensivo, os autores concluíram que quase 50% dos supostos erros que os melhores modelos cometem na avaliação de subconjuntos multirrótulo do ImageNet (onde os modelos atuais de melhor desempenho atingem mais de 97% de 1 precisão) não estão realmente errados.
Do papel:
'Nossa análise revela que quase metade dos supostos erros não são erros de forma alguma, e descobrimos novos rótulos múltiplos válidos, demonstrando que, sem uma revisão cuidadosa, estamos subestimando significativamente o desempenho desses modelos.
'Por outro lado, também descobrimos que os melhores modelos de hoje ainda cometem um número significativo de erros (40%) que são obviamente errados para revisores humanos.'
Até que ponto a rotulagem incorreta de conjuntos de dados - particularmente por trabalhadores de crowdsourcing não qualificados – pode estar distorcendo o setor, foi revelado pela abordagem meticulosa do estudo à avaliação dos pares de imagem/texto em uma grande faixa da história do ImageNet.

Na linha superior, exemplos de Gravidade do Erro: nos dois primeiros exemplos, o novo modelo simplesmente erra o rótulo previsto; no terceiro exemplo, o novo modelo identifica um rótulo múltiplo anteriormente ausente (um rótulo que aborda uma nova categorização da imagem); na imagem final da linha superior, a previsão do modelo é ambígua, pois a imagem é de uma abelha-mosca e não de uma mosca. No entanto, a abelha média pertence à ordem de insetos Diptera e, portanto, essa exceção seria quase impossível de detectar, mesmo para um anotador experiente. Na linha abaixo, há quatro categorias de erro, com exemplos. Fonte: https://arxiv.org/pdf/2205.04596.pdf
Os pesquisadores empregaram um pequeno número de avaliadores dedicados para revisar minuciosamente os registros históricos de erros na avaliação do conjunto de dados do ImageNet, descobrindo que muitos dos julgamentos de erros estão errados - uma descoberta que potencialmente revisa algumas das pontuações ruins que muitos projetos obtiveram em benchmarks da ImageNet ao longo dos anos.
À medida que o ImageNet se consolida na cultura CV, os pesquisadores afirmam que as melhorias na precisão geram retornos decrescentes e que novos modelos que ultrapassam a precisão estabelecida do rótulo e que sugerem novos (ou seja, adicionais) rótulos podem estar sendo punidos, essencialmente, por não -conformidade.
'Por exemplo,' observam os autores. 'Deveríamos penalizar modelos por serem os primeiros a prever que um bagel pré-assado pode ser um bagel, como faz um dos modelos que analisamos neste trabalho?'

Do papel, um modelo mais recente desafia a previsão anterior de que o objeto na foto é massa e sugere que o objeto na verdade já é um bagel).
Do ponto de vista de um trabalhador de crowdsourcing encarregado de identificar tal objeto, este é um dilema semântico e até filosófico que só pode ser resolvido por rotulagem múltipla (como geralmente ocorre em subconjuntos posteriores e iterações subsequentes do ImageNet); no caso acima, o objeto é de fato massa e pelo menos um bagel nascente.

Erros maiores (acima) e menores (abaixo) que surgiram ao testar modelos customizados na pesquisa. As etiquetas ImageNet originais são as primeiras imagens à esquerda.
As duas soluções óbvias são atribuir mais recursos à rotulagem (o que é um desafio, dentro das restrições orçamentárias da maioria dos projetos de pesquisa em visão computacional); e, como os autores enfatizam, atualizar regularmente os conjuntos de dados e rotular subconjuntos de avaliação (o que, entre outros obstáculos, corre o risco de quebrar a continuidade histórica de benchmarks do tipo "semelhante" e de encher novos artigos de pesquisa com qualificações e isenções de responsabilidade sobre equivalência).
Como um passo para remediar a situação, os pesquisadores desenvolveram um novo subconjunto de dados do ImageNet chamado ImageNet-Major (ImageNet-M), que eles descrevem como 'uma fatia de 68 exemplos de "erros graves" dos erros óbvios cometidos pelas principais modelos de hoje — uma fatia em que as modelos deveriam atingir quase a perfeição, mas hoje estão longe de fazê-lo.'
O método da papel é intitulado Quando a massa se torna um bagel? Analisando os erros restantes no ImageNet, e é escrito por quatro autores do Google Research, junto com Sara Fridovich-Keil da UC Berkeley.
Dívida Técnica
As descobertas são importantes porque os erros restantes identificados (ou mal identificados) no ImageNet, nos 16 anos desde o seu início, o estudo central da pesquisa, podem representar a diferença entre um modelo implantável e um que é suficientemente propenso a erros para não ser solto em dados ativos. Como sempre, o a última milha é crítica.
O setor de pesquisa de visão computacional e síntese de imagens efetivamente 'selecionou automaticamente' o ImageNet como uma métrica de referência, por uma série de razões — principalmente porque uma onda de adotantes pioneiros, em uma época em que conjuntos de dados de alto volume e bem rotulados eram mais raros do que são agora, produziu tantas iniciativas de pesquisa que os testes com o ImageNet rapidamente se tornaram o único 'padrão' histórico amplamente aplicável para avaliação comparativa de novas estruturas.
Forma
Procurando os 'erros restantes' no ImageNet, os pesquisadores usaram um padrão ViT modelo (capaz de atingir uma precisão de 89.5%) com 3 bilhões de parâmetros, Vit-3B, pré-treinado em JFT-3B e afinado em ImageNet-1K.
Com o ImageNet2012_multilabel conjunto de dados, os pesquisadores registraram a precisão inicial multi-rótulo (MLA) do ViT-3B como 96.3%, durante o qual o modelo cometeu 676 erros aparentes. Foram esses erros (e também erros produzidos por um modelo de Greedy Soups) que os autores procuraram investigar.
Para avaliar os 676 erros restantes, os autores evitaram crowdworkers, observando que erros desse tipo podem ser difícil para anotadores medianos localizarem, mas reuniu um painel de cinco revisores especialistas e criou uma ferramenta dedicada para permitir que cada revisor veja rapidamente a classe prevista; a pontuação prevista; os rótulos da verdade fundamental; e a própria imagem.

A IU criada para o projeto.
Em alguns casos, mais pesquisas foram necessárias para resolver disputas entre o painel, e a pesquisa de imagens do Google foi usada como ferramenta auxiliar.
'[Em] um caso interessante, mas não isolado, uma previsão de um táxi (sem indicadores óbvios de táxi além da cor amarela) estava presente na imagem; determinamos que a previsão era corretamente de um táxi e não apenas um veículo padrão, identificando uma ponte histórica no fundo para localizar a cidade, e uma busca subsequente por imagens de táxis naquela cidade produziu imagens do mesmo modelo de táxi e design de placa, validando a previsão realmente correta do modelo.'
Após a revisão inicial dos erros encontrados em várias fases da pesquisa, os autores formularam quatro novos tipos de erros: erro refinado, onde a classe predita é semelhante a um rótulo de verdade de campo; refinada com fora do vocabulário (OOV), onde o modelo identifica um objeto cuja classe está correta, mas não está presente no ImageNet; correlação espúria, onde o rótulo previsto é lido fora do contexto da imagem; e não prototípico, em que o objeto de verdade fundamental é um exemplo ilusório da classe que tem semelhança com o rótulo previsto.
Em certos casos, a verdade fundamental não era ela própria "verdadeira":
'Após a revisão dos 676 erros originais [encontrados no ImageNet], descobrimos que 298 estavam corretos ou eram pouco claros, ou determinamos que a verdade básica original era incorreta ou problemática.'
Após uma rodada exaustiva e complexa de experimentos em uma variedade de conjuntos de dados, subconjuntos e conjuntos de validação, os autores descobriram que os dois modelos em estudo foram realmente considerados corretos (pelos revisores humanos) para metade dos "erros" cometidos com técnicas convencionais.
O artigo conclui:
'Neste artigo, analisamos todos os erros remanescentes que os modelos ViT-3B e Greedy Soups cometem no conjunto de validação multi-rótulo ImageNet.
'No geral, descobrimos que: 1) quando um modelo grande e de alta precisão faz uma nova previsão não feita por outros modelos, ele acaba sendo um novo multirrótulo correto quase metade das vezes; 2) modelos de maior precisão não demonstram um padrão óbvio em nossas categorias e gravidades de erros que eles resolvem; 3) os modelos SOTA hoje estão em grande parte igualando ou superando o desempenho do melhor especialista humano no subconjunto de multirrótulos avaliado por humanos; 4) dados de treinamento ruidosos e classes subespecificadas podem ser um fator que limita a medição eficaz de melhorias na classificação de imagens.'
Publicado pela primeira vez em 15 de maio de 2022.












