Inteligência artificial
Quando os benchmarks de IA ensinam os modelos a mentir

alucinação de IA — quando um sistema produz respostas que parecem corretas, mas na verdade estão erradas — continua sendo um dos desafios mais difíceis da inteligência artificial. Mesmo os modelos mais avançados da atualidade, como DeepSeek-V3, lhama, e o mais recente da OpenAI lançamentos, ainda produzem informações imprecisas com alto grau de confiabilidade. Em áreas como saúde ou direito, esses erros podem levar a consequências graves.
Tradicionalmente, as alucinações têm sido vistas como uma subproduto de como grandes modelos de linguagem são treinados: eles aprendem a prever a próxima palavra mais provável sem verificar se a informação é verdadeira. Mas novos pesquisa sugere que o problema pode não se limitar ao treinamento. Os benchmarks usados para testar e comparar o desempenho da IA podem, na verdade, estar reforçando comportamentos enganosos, recompensando respostas que parecem convincentes em vez daquelas que são corretas.
Essa mudança de perspectiva reformula o problema. Se os modelos são treinados para agradar ao teste em vez de dizer a verdade, então as alucinações não são falhas acidentais, mas sim estratégias aprendidas. Para entender por que isso acontece, precisamos analisar por que os modelos de IA optam por adivinhar em vez de admitir sua ignorância.
Por que os modelos de IA adivinham
Para entender por que os modelos de IA frequentemente chutam em vez de admitir que não sabem, considere um aluno diante de uma questão difícil de prova. O aluno tem duas opções: deixar a resposta em branco e receber zero pontos, ou dar um palpite bem fundamentado que pode lhe render algum crédito. Racionalmente, chutar parece ser a melhor escolha, pois há pelo menos uma chance de acertar.
Modelos de IA enfrentam uma situação semelhante durante a avaliação. A maioria dos benchmarks usa um sistema de pontuação binário: respostas corretas valem pontos, enquanto respostas incorretas ou incertas não valem nada. Se um modelo for questionado sobre "Qual é a data de nascimento de um pesquisador?" e ele realmente não souber, responder "Não sei" conta como falha. Inventar uma data, no entanto, tem alguma chance de estar correto — e mesmo que esteja errado, o sistema não pune o palpite confiante mais do que o silêncio.
Essa dinâmica explica por que as alucinações persistem, apesar de extensas pesquisas para eliminá-las. Os modelos não estão se comportando mal; eles estão seguindo os incentivos incorporados à avaliação. Eles aprendem que parecer confiantes é a melhor maneira de maximizar sua pontuação, mesmo quando a resposta é falsa. Como resultado, em vez de expressar incerteza, os modelos são pressionados a fazer afirmações autoritativas — certas ou erradas.
A base matemática da desonestidade da IA
A pesquisa mostra que as alucinações surgem dos fundamentos matemáticos de como os modelos de linguagem aprendem. Mesmo que um modelo fosse treinado apenas com informações perfeitamente precisas, seus objetivos estatísticos ainda levariam a erros. Isso porque gerar a resposta correta é fundamentalmente mais difícil do que reconhecer se uma resposta é válida.
Isso ajuda a explicar por que os modelos frequentemente falham em fatos que carecem de padrões claros, como datas de nascimento ou outros detalhes únicos. A análise matemática sugere que as taxas de alucinação nesses casos serão pelo menos tão altas quanto a fração de fatos que aparecem apenas uma vez nos dados de treinamento. Em outras palavras, quanto mais rara a informação nos dados, maior a probabilidade de o modelo ter dificuldades com ela.
O problema não se limita a fatos raros. Restrições estruturais, como capacidade limitada do modelo ou projeto arquitetônico, também produzem erros sistemáticos. Por exemplo, modelos anteriores com janelas de contexto muito curtas falhavam consistentemente em tarefas que exigiam raciocínio de longo alcance. Esses erros não eram falhas aleatórias, mas resultados previsíveis da estrutura matemática do modelo.
Por que o pós-treinamento não resolve o problema
Depois que um modelo de IA é treinado em grandes conjuntos de dados de texto, ele geralmente passa por ajustes finos para tornar sua saída mais útil e menos prejudicial. Mas esse processo enfrenta o mesmo problema central que causa as alucinações em primeiro lugar: a maneira como avaliamos os modelos.
Os métodos de treinamento fino mais comuns, como aprendizado por reforço a partir do feedback humano, ainda dependem de benchmarks que utilizam pontuação binária. Esses benchmarks recompensam modelos por darem respostas confiáveis, mas não dão crédito quando um modelo admite que não sabe. Como resultado, um sistema que sempre responde com certeza, mesmo quando está errado, pode superar um que expressa honestamente a incerteza.
Pesquisadores chamam isso de problema da penalização da incerteza. Mesmo técnicas avançadas para detectar ou reduzir alucinações apresentam dificuldades quando os parâmetros subjacentes continuam a favorecer o excesso de confiança. Em outras palavras, não importa quão sofisticadas sejam as soluções, enquanto os sistemas de avaliação recompensarem palpites confiantes, os modelos tenderão a dar respostas erradas, mas certas, em vez de admitir dúvidas com sinceridade.
A Ilusão do Progresso
As tabelas de classificação, amplamente compartilhadas na comunidade de IA, amplificam esse problema. Benchmarks como MMLU, GPQA e Banco SWE dominam artigos de pesquisa e anúncios de produtos. As empresas destacam suas pontuações para mostrar progresso rápido. No entanto, como observa o relatório, esses mesmos parâmetros incentivam alucinações.
Um modelo que diz honestamente "não sei" pode ser mais seguro em cenários reais, mas terá uma classificação mais baixa no ranking. Em contraste, um modelo que fabrica respostas convincentes, mas falsas, terá uma pontuação melhor. Quando a adoção, o financiamento e o prestígio dependem das classificações no ranking, a direção do progresso fica distorcida. O público vê uma narrativa de melhoria constante, mas, por baixo, os modelos estão sendo treinados para enganar.
Por que a incerteza honesta é importante na IA
Alucinações não são apenas um desafio para a pesquisa; elas têm consequências no mundo real. Na área da saúde, um modelo que fabrica interações medicamentosas pode enganar os médicos. Na educação, um modelo que inventa fatos históricos pode desinformar os alunos. No jornalismo, um chatbot que produz citações falsas, mas convincentes, pode disseminar desinformação. Esses riscos já são visíveis. Índice de IA de Stanford 2025 relataram que os benchmarks projetados para medir alucinações "têm lutado para ganhar força", mesmo com a aceleração da adoção da IA. Enquanto isso, os benchmarks que dominam os placares e que recompensam respostas confiantes, mas não confiáveis, continuam a definir a direção do progresso.
Essas descobertas destacam tanto um desafio quanto uma oportunidade. Ao examinar as raízes matemáticas da alucinação, pesquisadores identificaram direções claras para a construção de sistemas de IA mais confiáveis. A chave é parar de tratar a incerteza como uma falha e, em vez disso, reconhecê-la como uma capacidade essencial que deve ser mensurada e recompensada.
Essa mudança de perspectiva tem implicações que vão além da redução de alucinações. Sistemas de IA capazes de avaliar e comunicar com precisão suas próprias limitações de conhecimento seriam mais adequados para aplicações de alto risco, nas quais o excesso de confiança acarreta sérios riscos. Diagnósticos médicos, análises jurídicas e pesquisas científicas exigem a capacidade de distinguir entre conhecimento confiável e especulação informada.
Repensando a avaliação para uma IA honesta
Essas descobertas destacam que a construção de uma IA mais confiável exige repensar a forma como medimos a capacidade da IA. Em vez de depender de uma simples pontuação de certo ou errado, as estruturas de avaliação devem recompensar os modelos que expressam a incerteza de forma adequada. Isso significa fornecer orientações claras sobre os limites de confiança e os esquemas de pontuação correspondentes dentro das instruções de benchmark.
Uma abordagem promissora envolve a criação de metas explícitas de confiança que especifiquem quando os modelos devem responder e quando devem se abster. Por exemplo, as instruções podem determinar que as respostas só devem ser fornecidas quando a confiança exceder um limite específico, com a pontuação ajustada de acordo. Nessa configuração, a incerteza deixa de ser uma fraqueza e passa a ser uma parte valiosa do comportamento responsável.
A chave é tornar os requisitos de confiança transparentes, em vez de implícitos. Os benchmarks atuais criam penalidades ocultas para a incerteza, que os modelos aprendem a evitar. Metas de confiança explícitas permitiriam que os modelos otimizassem o comportamento realmente desejado: respostas precisas quando confiantes e admissões honestas de incerteza quando o conhecimento é insuficiente.
Concluindo!
Alucinações com IA não são falhas aleatórias — elas são reforçadas pelos próprios parâmetros usados para medir o progresso. Ao recompensar palpites confiantes em detrimento da incerteza honesta, os sistemas de avaliação atuais levam os modelos à falsidade em vez da confiabilidade. Se queremos uma IA confiável em áreas de alto risco como saúde, direito e ciência, precisamos repensar como a testamos e recompensamos. O progresso deve ser medido não apenas pela precisão, mas pela capacidade de reconhecer e admitir o que o modelo não sabe.