Inteligência artificial
Quando os Benchmarks de IA Ensinar os Modelos a Mentir

Alucinação de IA — quando um sistema produz respostas que soam corretas, mas são na verdade erradas — permanece um dos desafios mais difíceis na inteligência artificial. Mesmo os modelos mais avançados de hoje, como DeepSeek-V3, Llama e as últimas lançamentos da OpenAI, ainda produzem informações imprecisas com alta confiança. Em áreas como saúde ou direito, esses erros podem levar a consequências graves.
Traditionally, alucinações têm sido vistas como um subproduto de como os grandes modelos de linguagem são treinados: eles aprendem a prever a próxima palavra mais provável sem verificar se a informação é verdadeira. Mas novas pesquisas sugerem que o problema pode não parar no treinamento. Os benchmarks usados para testar e comparar o desempenho de IA podem estar reforçando comportamentos enganosos, recompensando respostas que soam convincentes em vez de aquelas que são corretas.
Essa mudança de perspectiva reenquadra o problema. Se os modelos são treinados para agradar ao teste em vez de dizer a verdade, então as alucinações não são falhas acidentais, são estratégias aprendidas. Para entender por que isso acontece, precisamos olhar para por que os modelos de IA escolhem adivinhar em vez de admitir sua ignorância?
Por que os Modelos de IA Adivinham
Para entender por que os modelos de IA frequentemente adivinham em vez de admitir que não sabem, considere um estudante enfrentando uma pergunta difícil de exame. O estudante tem duas opções: deixar a resposta em branco e receber zero pontos, ou fazer uma suposição educada que pode render alguns créditos. Racionalmente, adivinhar parece a melhor escolha, pois há pelo menos uma chance de estar certo.
Os modelos de IA enfrentam uma situação semelhante durante a avaliação. A maioria dos benchmarks usa um sistema de pontuação binário: respostas corretas ganham pontos, enquanto respostas incorretas ou incertas ganham nada. Se um modelo for perguntado: “Qual é o aniversário de um pesquisador?” e ele realmente não sabe, responder com “Não sei” conta como falha. Inventar uma data, no entanto, carrega alguma chance de estar correto — e mesmo que esteja errado, o sistema não pune a suposição confiante mais do que o silêncio.
Essa dinâmica explica por que as alucinações persistem apesar de extensas pesquisas para eliminá-las. Os modelos não estão se comportando mal; estão seguindo os incentivos construídos na avaliação. Eles aprendem que soar confiante é a melhor maneira de maximizar sua pontuação, mesmo quando a resposta é falsa. Como resultado, em vez de expressar incerteza, os modelos são impulsionados a dar declarações autoritárias — certas ou erradas.
A Fundamentação Matemática da Desonestidade de IA
A pesquisa mostra que as alucinações surgem dos fundamentos matemáticos de como os modelos de linguagem aprendem. Mesmo que um modelo fosse treinado apenas em informações perfeitamente precisas, seus objetivos estatísticos ainda levariam a erros. Isso ocorre porque gerar a resposta certa é fundamentalmente mais difícil do que reconhecer se uma resposta é válida.
Isso ajuda a explicar por que os modelos frequentemente falham em fatos que carecem de padrões claros, como aniversários ou outros detalhes únicos. A análise matemática sugere que as taxas de alucinação nesses casos serão pelo menos tão altas quanto a fração de fatos que aparecem apenas uma vez nos dados de treinamento. Em outras palavras, quanto mais rara a informação nos dados, mais provável que o modelo tenha dificuldade com ela.
O problema não se limita a fatos raros. Restrições estruturais, como capacidade de modelo limitada ou design arquitetônico, também produzem erros sistemáticos. Por exemplo, modelos anteriores com janelas de contexto muito curtas consistentemente falhavam em tarefas que exigiam raciocínio de longo alcance. Esses erros não eram falhas aleatórias, mas resultados previsíveis da estrutura matemática do modelo.
Por que o Treinamento Pós-Treinamento Falha em Resolver o Problema
Uma vez que um modelo de IA é treinado em conjuntos de dados de texto massivos, ele geralmente passa por um ajuste fino para tornar sua saída mais útil e menos prejudicial. No entanto, esse processo enfrenta o mesmo problema fundamental que causa alucinações desde o início; a forma como avaliamos os modelos.
Os métodos de treinamento mais comuns, como aprendizado por reforço com feedback humano, ainda dependem de benchmarks que usam pontuação binária. Esses benchmarks recompensam modelos por dar respostas confiantes, enquanto não oferecem crédito quando um modelo admite que não sabe. Como resultado, um sistema que sempre responde com certeza, mesmo quando está errado, pode superar um que honestamente expressa incerteza.
Os pesquisadores chamam isso de problema de penalizar a incerteza. Mesmo técnicas avançadas para detectar ou reduzir alucinações lutam quando os benchmarks subjacentes continuam a favorecer a confiança excessiva. Em outras palavras, não importa quão sofisticadas sejam as soluções, desde que os sistemas de avaliação continuem a recompensar suposições confiantes, os modelos serão tendenciosos em direção a respostas erradas, mas confiantes, em vez de admissões honestas de dúvida.
A Ilusão de Progresso
As tabelas de classificação, amplamente compartilhadas na comunidade de IA, ampliam esse problema. Benchmarks como MMLU, GPQA e SWE-bench dominam artigos de pesquisa e anúncios de produtos. As empresas destacam suas pontuações para mostrar progresso rápido. No entanto, como o relatório observa, esses próprios benchmarks incentivam a alucinação.
Um modelo que honestamente diz “Não sei” pode ser mais seguro em configurações do mundo real, mas será classificado mais baixo na tabela de classificação. Em contraste, um modelo que fabrica respostas convincentes, mas falsas, pontuará melhor. Quando adoção, financiamento e prestígio dependem das classificações da tabela de classificação, a direção do progresso se torna distorcida. O público vê uma narrativa de melhoria constante, mas por baixo, os modelos estão sendo treinados para enganar.
Por que a Incerteza Honestidade Importa em IA
As alucinações não são apenas um desafio de pesquisa; elas têm consequências reais. Na saúde, um modelo que fabrica interações de drogas pode enganar os médicos. Na educação, um que inventa fatos históricos pode desinformar os alunos. No jornalismo, um chatbot que produz citações falsas, mas convincentes, pode espalhar desinformação. Esses riscos já são visíveis. O Índice de IA de Stanford 2025 relatou que benchmarks projetados para medir alucinações “lutaram para ganhar tração”, mesmo à medida que a adoção de IA acelera. Enquanto isso, os benchmarks que dominam as tabelas de classificação e que recompensam respostas confiantes, mas não confiáveis, continuam a definir a direção do progresso.
Essas descobertas destacam tanto um desafio quanto uma oportunidade. Ao examinar as raízes matemáticas da alucinação, os pesquisadores identificaram direções claras para construir sistemas de IA mais confiáveis. A chave é parar de tratar a incerteza como uma falha e, em vez disso, reconhecê-la como uma capacidade essencial que deve ser medida e recompensada.
Essa mudança de perspectiva tem implicações além da redução de alucinações. Os sistemas de IA que podem avaliar e comunicar com precisão os limites de seu próprio conhecimento seriam mais adequados para aplicações de alto risco, onde a confiança excessiva carrega riscos sérios. Diagnóstico médico, análise jurídica e pesquisa científica todos exigem a capacidade de distinguir entre conhecimento confiante e especulação informada.
Repensando a Avaliação para IA Honestidade
Essas descobertas destacam que construir IA mais confiável exige repensar como medimos a capacidade de IA. Em vez de confiar em pontuação simples de certo ou errado, os quadros de avaliação devem recompensar modelos por expressar incerteza apropriadamente. Isso significa fornecer orientação clara sobre limiares de confiança e esquemas de pontuação correspondentes nas instruções do benchmark.
Uma abordagem promissora envolve criar alvos de confiança explícitos que especifiquem quando os modelos devem responder versus quando devem se abster. Por exemplo, as instruções poderiam afirmar que as respostas devem ser fornecidas apenas quando a confiança excede um limiar específico, com a pontuação ajustada de acordo. Nesse conjunto, a incerteza não é mais uma fraqueza, mas uma parte valiosa do comportamento responsável.
A chave é tornar os requisitos de confiança transparentes em vez de implícitos. Os benchmarks atuais criam penalidades ocultas para a incerteza que os modelos aprendem a evitar. Alvos de confiança explícitos permitiriam que os modelos otimizassem o comportamento realmente desejado: respostas precisas quando confiantes e admissões honestas de incerteza quando o conhecimento é limitado.
O Resumo
As alucinações de IA não são falhas aleatórias — elas são reforçadas pelos próprios benchmarks usados para medir o progresso. Ao recompensar suposições confiantes em vez de incerteza honesta, os sistemas de avaliação atuais impulsionam os modelos em direção à desonestidade em vez da confiabilidade. Se queremos IA que possa ser confiável em domínios de alto risco, como saúde, direito e ciência, precisamos repensar como testamos e recompensamos os modelos. O progresso deve ser medido não apenas pela precisão, mas pela capacidade de reconhecer e admitir o que o modelo não sabe.












