Ângulo de Anderson

A Ilusão do ‘Baixe Mais Rótulos!’ na Pesquisa de IA

Published April 23, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: 'A wall on which hundreds of photographs are stuck with thumb-tacks. Each photo depicts a different kind of subject, such as fruit or animals or bridges or buildings or people, etc. Each photo has 2-3 yellow post-it notes attached to it. We are too far away to read anything written on the post-it notes, but we can see that there are dozens and dozens of photos on the wall, and each with several post-it notes tacked on.'

Uma visão comum na pesquisa de aprendizado de máquina atual é que o próprio aprendizado de máquina pode ser usado para melhorar a qualidade das anotações de conjuntos de dados de IA – particularmente legendas de imagens destinadas a uso em modelos de linguagem e visão (VLMs). Essa linha de pensamento é impulsionada pelo alto custo da anotação humana e do fardo adicional de supervisão do desempenho do annotador.

Argumenta-se que isso é o equivalente em IA à piada dos anos 2000 ‘baixe mais RAM’, que satirizava a noção de que uma limitação de hardware poderia ser resolvida com uma solução baseada em software.

Também é uma questão subestimada; enquanto novos modelos de IA atraem atenção generalizada em esferas públicas e comerciais, a anotação frequentemente parece ser um detalhe trivial em pipelines de aprendizado de máquina, ofuscada pelo entusiasmo em torno de estruturas mais amplas.

Na verdade, a capacidade dos sistemas de aprendizado de máquina de reconhecer e reproduzir padrões (o caso de uso central de quase todos os sistemas de IA) é dependente da qualidade e consistência das anotações do mundo real – rótulos e frases que são criados ou julgados por pessoas reais, frequentemente fazendo julgamentos subjetivos sobre pontos de dados individuais em circunstâncias não ideais.

Inevitavelmente, sistemas que buscam observar e reproduzir padrões no comportamento do annotador (e, portanto, substituir annotadores humanos e facilitar marcação precisa em escala) não podem esperar performar bem em dados não contidos nos exemplos tirados de observadores humanos. Nada ‘semelhante’ é exatamente o mesmo, e a equivalência entre domínios permanece uma busca problemática em visão computacional.

O ‘dinheiro da dados de upstream’ tem que parar em algum lugar, e, nesse caso, é exatamente onde para – com um cerebelo humano fazendo algum tipo de distinção subjetiva para codificar dados para um sistema artificial.

O Comércio de RAG

Até recentemente, as imprecisões decorrentes de anotações de conjuntos de dados mal curadas eram, talvez, vistas como danos colaterais aceitáveis no contexto dos resultados imperfeitos, mas ainda assim comercializáveis, obtidos a partir de sistemas de IA gerativos.

De fato, apenas este ano, um estudo de Cingapura concluiu que alucinações – ou seja, as ocasiões em que os sistemas de IA inventam coisas que minam nossas intenções – são inevitáveis e inerentes à arquitetura conceitual de tais sistemas.

Para contrariar isso, agentes baseados em RAG – que podem ‘verificar’ fatos por meio de buscas na internet – estão se tornando populares em pesquisas e soluções comerciais aplicadas. No entanto, eles adicionam ao custo de recursos e à latência nas consultas; além disso, informações novas aplicadas a um modelo treinado não podem competir com as conexões mais intricadas e profundamente interligadas que caracterizam as camadas nativas em um modelo treinado.

Portanto, seria melhor se os dados de anotação que informam esses modelos fossem significativamente menos defeituosos desde o início, mesmo que não possam ser perfeitos (nem apenas porque essa atividade invade o domínio da subjetividade humana).

RePOPE

Um novo artigo da Alemanha destaca os problemas que surgem ao se confiar em conjuntos de dados mais antigos e amplamente utilizados, focando particularmente na precisão e confiabilidade de suas legendas de imagens. As descobertas dos pesquisadores sugerem que erros de rótulo em benchmarks podem mascarar ou representar mal a alucinação em modelos de linguagem e visão.

Do novo artigo, alguns exemplos onde as legendas originais falharam em identificar corretamente objetos no conjunto de dados de imagens MSCOCO. A revisão manual dos pesquisadores do conjunto de dados de benchmark POPE aborda essas deficiências, demonstrando o custo de economizar dinheiro na curação de anotações. Fonte: https://arxiv.org/pdf/2504.15707

Imagine que um modelo é mostrado uma imagem de uma cena de rua e perguntado se há uma bicicleta nela. O modelo responde sim. Se o conjunto de dados de benchmark diz que não há bicicleta, o modelo é marcado errado. Mas se uma bicicleta for claramente visível na imagem e foi simplesmente perdida durante a anotação, então a resposta do modelo estava correta, e o benchmark falhou. Erros como esse podem se acumular em todo o conjunto de dados, dando uma visão distorcida de quais modelos são precisos e quais são propensos a alucinações.

Assim, quando anotações incorretas ou ambíguas são tratadas como verdade absoluta, os modelos podem parecer alucinar quando estão corretos, ou parecer precisos quando não estão, distorcendo tanto a medição da alucinação quanto o ranking do desempenho do modelo, e dificultando diagnosticar ou abordar o problema com certeza.

O novo artigo revisita um benchmark amplamente utilizado chamado Polling-based Object Probing Evaluation (POPE), que testa se os modelos de linguagem e visão podem corretamente dizer o que está ou não está em uma imagem.

POPE é baseado em rótulos do influente Microsoft COCO: Common Objects in Context (MSCOCO) conjunto de dados, uma coleção de imagens anotadas que tem sido tratada como oferecendo um bom nível de precisão de anotação.

POPE avalia a alucinação de objetos em grandes modelos de linguagem e visão redefinindo o problema como uma tarefa de classificação binária. Em vez de analisar legendas geradas, o sistema formula perguntas simples sim/não ao modelo sobre se objetos específicos estão presentes em uma imagem, usando templates como ‘Há um <objeto> na imagem?’.

Exemplos de alucinação de objetos em modelos de linguagem e visão. Rótulos em negrito indicam objetos marcados como presentes nas anotações originais, enquanto rótulos vermelhos mostram objetos alucinados pelos modelos. O exemplo à esquerda reflete uma avaliação baseada em instruções tradicionais, enquanto os três exemplos à direita são tirados de diferentes variantes do benchmark POPE. Fonte: https://aclanthology.org/2023.emnlp-main.20.pdf

Objetos de verdade (resposta: Sim) são emparelhados com objetos não existentes amostrados (resposta: Não), escolhidos por meio de estratégias aleatórias, frequentes (populares) ou baseadas em coocorrência (adversárias). Essa configuração permite uma avaliação mais estável e insensível a prompts da alucinação sem confiar na análise complexa de legendas baseada em regras.

Os autores do novo artigo – intitulado RePOPE: Impacto de Erros de Anotação no Benchmark POPE – desafiam a precisão assumida do POPE rechecando os rótulos nas imagens do benchmark (ou seja, MSCOCO) – e encontrando que um número surpreendente está errado ou não claro.

Exemplos do conjunto de dados MSCOCO de 2014. Fonte: https://arxiv.org/pdf/1405.0312

Esses erros mudam a forma como os modelos são classificados, com alguns que inicialmente performaram bem caindo para trás quando julgados contra rótulos corrigidos.

Nos testes, os autores avaliaram uma variedade de modelos de linguagem e visão de peso aberto no benchmark original POPE e na versão reetiquetada RePOPE.

De acordo com o artigo, as anotações corrigidas levaram a mudanças notáveis nos rankings dos modelos, particularmente nos escores F1, com vários modelos de alto desempenho no POPE caindo de posição no RePOPE.

Os autores defendem que essa mudança ilustra a extensão com que erros de anotação podem obscurecer o comportamento real de alucinação dos modelos e apresentam o RePOPE como uma ferramenta mais confiável para avaliar a vulnerabilidade à alucinação.

Em outro exemplo do novo artigo, vemos como as legendas originais do POPE falham em discernir objetos sutis, como uma pessoa sentada ao lado da cabine de um bonde na foto mais à direita, ou a cadeira obscurecida pelo jogador de tênis na segunda foto da esquerda.

Método e Testes

Os pesquisadores reetiquetaram todas as anotações no conjunto de dados original MSCOCO, com dois etiquetadores humanos designados para cada instância de dados. Onde houve ambiguidade quanto à qualidade dos rótulos originais (como nos exemplos abaixo), esses resultados foram afastados da rodada de testes.

Casos ambíguos, onde inconsistências de etiquetagem no POPE refletem fronteiras de categoria não claras. Por exemplo, um urso de pelúcia etiquetado como um urso, uma motocicleta como uma bicicleta ou veículos de aeroporto como carros. Esses casos foram excluídos do RePOPE devido à natureza subjetiva de tais classificações, bem como às inconsistências nos rótulos originais do MSCOCO.

O artigo afirma:

‘Os annotadores originais perderam pessoas no fundo ou atrás de vidro, o jogador de tênis oculta as ‘cadeiras’ ao fundo e o coleslaw contém apenas uma faixa visível pequena de cenoura.

‘Para alguns objetos, as anotações do COCO são altamente inconsistentes, provavelmente devido a definições diferentes desses objetos usadas pelos annotadores originais. A classificação de um ‘urso de pelúcia’ como um ‘urso’, uma motocicleta como uma bicicleta motorizada ou um veículo de aeroporto como um ‘carro’ depende de definições específicas, levando a inconsistências nas anotações de verdade do POPE. Portanto, etiquetamos os pares de imagem-pergunta como ‘ambíguos’.’

Resultados da reetiquetação: as perguntas positivas são compartilhadas por todas as três variantes do POPE. Entre as etiquetadas como ‘Sim’ no POPE, 9,3 por cento foram encontradas como incorretas e 13,8 por cento foram classificadas como ambíguas. Para as perguntas ‘Não’, 1,7 por cento foram mal etiquetadas e 4,3 por cento foram ambíguas.

Os autores avaliaram uma variedade de modelos de peso aberto no POPE e no RePOPE, em diferentes arquiteturas e tamanhos de modelo. Os modelos escolhidos incluíam alguns dos principais arquitetos no leaderboard do OpenVLM: InternVL2.5 (8B/26B/38B/78B e 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; e PaliGemma2 (3B/10B).

Resultados iniciais: a alta taxa de erro nos rótulos positivos originais leva a uma queda acentuada nos verdadeiros positivos em todos os modelos. Falsos positivos variam entre subconjuntos, quase dobrando no subconjunto aleatório, mas permanecendo largamente inalterados no subconjunto popular e mostrando uma ligeira diminuição no subconjunto adversário. A reetiquetação tem um efeito significativo nos rankings baseados em F1. Modelos como Ovis2-4B e Ovis2-8B, que performaram bem nos subconjuntos populares e adversários do POPE, também sobem ao topo no subconjunto aleatório sob o RePOPE. Por favor, consulte o PDF de origem para uma melhor resolução.

Os gráficos de resultados acima ilustram como o número de verdadeiros positivos e falsos positivos muda após a correção dos rótulos no benchmark.

Verdadeiros positivos caíram em todos os modelos, mostrando que eles foram frequentemente creditados por respostas corretas quando essas respostas eram apenas corretas sob rótulos defeituosos, enquanto falsos positivos seguiram um padrão mais variado.

No ‘random’ do POPE, falsos positivos quase dobraram para muitos modelos, indicando que um número significativo de objetos marcados como alucinações estavam, na verdade, presentes nas imagens, mas foram perdidos nas anotações originais. Nesse caso, muitos erros supostos do modelo eram, na verdade, erros de marcação do conjunto de dados.

Para a versão ‘adversária’ do POPE, onde as perguntas foram baseadas em objetos que frequentemente coocorrem, falsos positivos diminuíram. Isso provavelmente reflete uma maior chance de que o objeto supostamente ausente estivesse realmente na imagem mas deixado sem etiqueta.

Embora essas mudanças afetassem a precisão e a recall, os rankings dos modelos permaneceram relativamente estáveis para ambas as métricas.

A pontuação F1 – a principal medida de avaliação do POPE – foi muito mais sensível às correções de rótulo. No subconjunto aleatório, modelos que estavam perto do topo sob as etiquetas originais, como InternVL2.5-8B e -26B, caíram para o fundo quando pontuados com o RePOPE. Outros, como Ovis2-4B e -8B, subiram ao topo.

Um padrão semelhante emergiu nas pontuações de precisão, embora os autores notem que essas podem agora estar viesadas, pois o conjunto de dados corrigido contém um número desigual de exemplos positivos e negativos.

Os autores argumentam que o forte impacto dos erros de anotação nos resultados do benchmark destaca a necessidade de dados de alta qualidade. Para apoiar uma avaliação mais confiável da alucinação de objetos, eles lançaram as etiquetas corrigidas no GitHub.

No entanto, eles notam que essa reetiquetação não aborda completamente a saturação do benchmark, pois muitos modelos ainda alcançam taxas de verdadeiros positivos e verdadeiros negativos acima de 90%. Eles sugerem que benchmarks adicionais, como DASH-B, que usa um conjunto mais desafiador de exemplos negativos, devem ser usados ao lado do RePOPE.

Conclusão

Esse experimento particular foi possível devido à pequena escala do conjunto de dados envolvido. Provar a mesma hipótese em conjuntos de dados de hipercala requereria trabalhar em fragmentos muito limitados dos dados; em conjuntos de dados grandes e altamente diversificados, pode ser quase impossível isolar agrupamentos estatisticamente representativos e semanticamente coerentes – potencialmente distorcendo os resultados.

Mesmo que fosse possível, qual seria o remédio sob o estado da arte atual? O argumento se move inevitavelmente de volta para a necessidade de melhor e mais abundante anotação humana.

Nesse sentido, ‘melhor’ e ‘mais abundante’ existem como problemas separados, pois pode-se obter um volume maior de anotações por meio de economias de baixo custo, como o Amazon Mechanical Turk (AMT). Obviamente, essa sub-economia potencialmente exploradora frequentemente leva a resultados inferiores.

Alternativamente, poder-se-ia terceirizar tarefas de anotação para regiões econômicas onde o mesmo gasto renderia uma quantidade maior de anotações. No entanto, quanto mais distante o annotador estiver do caso de uso pretendido do modelo que suas etiquetas moldarão, menos provável é que o modelo resultante se alinhe com as necessidades ou expectativas do domínio alvo.

Isso, portanto, permanece como um dos desafios mais persistentes e não resolvidos na economia do desenvolvimento de aprendizado de máquina.

Publicado pela primeira vez na quarta-feira, 23 de abril de 2025