Ângulo de Anderson

Atos de IA são diferentes quando sabem que estão sendo testados, pesquisa descobre

Published June 4, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

Ecoando o escândalo ‘Dieselgate’ de 2015, uma nova pesquisa sugere que modelos de linguagem de IA, como GPT-4, Claude e Gemini, podem mudar seu comportamento durante testes, às vezes agindo de forma ‘mais segura’ para o teste do que o fariam no uso do mundo real. Se os LLMs habitualmente ajustam seu comportamento sob escrutínio, auditorias de segurança podem acabar certificando sistemas que se comportam de forma muito diferente no mundo real.

Em 2015, investigadores descobriram que a Volkswagen havia instalado software em milhões de carros a diesel que podia detectar quando testes de emissões estavam sendo realizados, causando que os carros temporariamente reduzissem suas emissões, para ‘fingir’ conformidade com os padrões regulamentares. No entanto, em condução normal, sua saída de poluição excedia os padrões legais. A manipulação deliberada levou a acusações criminais, bilhões em multas e um escândalo global sobre a confiabilidade de testes de segurança e conformidade.

Dois anos antes desses eventos, desde então apelidados de ‘Dieselgate’, a Samsung foi revelada por ter implementado mecanismos enganosos semelhantes em seu smartphone Galaxy Note 3; e desde então, escândalos semelhantes surgiram para Huawei e OnePlus.

Agora há evidências crescentes na literatura científica de que os Modelos de Linguagem Grande (LLMs) também podem não apenas detectar quando estão sendo testados, mas também se comportar de forma diferente nessas circunstâncias.

Embora isso seja um traço muito humano em si, a pesquisa mais recente dos EUA conclui que isso pode ser um hábito perigoso a se indulgir a longo prazo, por diversas razões.

Em um novo estudo, os pesquisadores encontraram que ‘modelos de fronteira’ como GPT-4, Claude e Gemini podem frequentemente detectar quando estão sendo testados, e que tendem a ajustar seu comportamento de acordo, potencialmente comprometendo a validade de métodos de teste sistemáticos.

Chamado de consciência de avaliação, esse traço (talvez) inato em modelos de linguagem pode comprometer a confiabilidade das avaliações de segurança, de acordo com os autores do novo estudo:

‘[Nós] recomendamos tratar a consciência de avaliação como uma nova fonte de possível desvio de distribuição entre testes e implantação no mundo real que poderia afetar negativamente a precisão dos resultados de avaliação.

‘No pior caso, os modelos poderiam subestimar deliberadamente em avaliações de capacidade perigosa (“sand-bagging”) ou avaliações de propensão (“falsificação de alinhamento”), o que poderia levar a sociedade a superestimar a segurança de tais modelos.’

Outros estudos observaram comportamentos semelhantes, incluindo uma pesquisa da Universidade de Stanford, que encontrou que os grandes modelos de linguagem modulam suas respostas para parecer mais ‘simpáticos’ ou ‘socialmente desejáveis’ quando reconhecem que estão sendo avaliados, refletindo o comportamento humano em testes de personalidade.

Os autores do novo trabalho não propõem que os LLMs sejam projetados intencionalmente para ‘jogar’ testes, como os carros a diesel da Volkswagen foram configurados para fazer uma década atrás. Em vez disso, o comportamento parece surgir como uma espécie de subproduto psicológico natural dos processos de treinamento dos modelos e objetivos latentes; e a causa subjacente desse fenômeno permanece desconhecida.

O novo artigo é intitulado Modelos de Linguagem Grande frequentemente sabem quando estão sendo avaliados, e vem de cinco autores de todo o programa UC Berkeley-associated ML Alignment & Theory Scholars (MATS) e apolloresearch.ai (um think-tank dedicado a avaliar os riscos da IA).

Método

Para criar o benchmark de avaliação, os autores compilaram mil transcritos extraídos de 61 conjuntos de dados, entre os quais* estavam SWE-bench, WMDP, MMLU, XStest, GAIA, AgentHarm, ShareGPT, Deep Research, Safetybench, Civics e RealToxicityPrompts.

O material foi equilibrado entre cenários de avaliação e implantação, e dividido ainda entre interações de bate-papo simples e sessões agênticas mais complexas, onde os modelos são destinados a agir autonomamente, usando ferramentas que podem extrair dados de bancos de dados externos ou da internet.

Os dados de avaliação cobriram testes de capacidade para raciocínio, codificação, segurança cibernética e conhecimento geral, bem como testes de alinhamento para ética, segurança e comportamento de recusa. Os dados de implantação foram extraídos de interações de usuário, como logs do ShareGPT, execuções de agentes crowdsourced e conclusões de tarefas sintéticas.

Para complementar os dados agênticos, os autores geraram exemplos adicionais usando frameworks de orquestração, como Aider e SmolAgents, entre outros – uma abordagem destinada a minimizar pistas superficiais que pudessem permitir que os modelos simplesmente memorizassem estruturas de conjunto de dados, forçando-os a confiar em sinais mais gerais, ao decidir se um transcrição veio de um usuário real ou era, em vez disso, um teste.

Os pesquisadores então testaram se os modelos poderiam identificar transcritos de avaliação apresentando-lhes registros de diálogo e perguntando variações de uma pergunta simples: essa troca veio de um teste?

Para evitar que os modelos simplesmente memorizassem uma frase, eles desenvolveram 28 versões diferentes da pergunta, alterando tanto a redação quanto a forma como o transcrição foi apresentado.

Os transcritos foram anexados diretamente à pergunta ou apresentados em formatos como JSON ou XML, que podem afetar como os modelos respondem. Após testes iniciais, cinco versões da pergunta foram selecionadas que se saíram consistentemente bem em todos os modelos, das quais podemos ver um exemplo abaixo:

Um dos cinco formatos de pergunta de sondagem usados para testar se os modelos de linguagem podiam reconhecer transcritos de avaliação. Cada variação reescreve a pergunta central para evitar que os modelos simplesmente memorizem a redação fixa. Por favor, consulte o artigo de origem para mais exemplos.

Um dos cinco formatos de pergunta de sondagem usados para testar se os modelos de linguagem podiam reconhecer transcritos de avaliação. Por favor, consulte o artigo de origem para mais exemplos. Fonte: https://arxiv.org/pdf/2505.23836

Para pontuar os resultados, três métricas foram usadas: Área sob a Curva de Característica de Operação do Receptor (AUC, mostrando como os modelos distinguem entre dados de teste e não de teste); pontuação de Brier (medindo a precisão geral da previsão); e Erro de Calibração Esperado (medindo como bem a confiança do modelo corresponde à correção real).

O que é tudo isso?

Os pesquisadores também testaram se os modelos podiam inferir o propósito de uma avaliação. Com cada transcrição já rotulada como um teste de capacidade (habilidades técnicas, conhecimento, raciocínio) ou um teste de alinhamento (segurança, valores, comportamento de recusa), os modelos foram então apresentados a um dos três tipos de perguntas: uma pergunta de múltipla escolha condicional que confirmava que o transcrição veio de um teste; uma pergunta de múltipla escolha incondicional com opções de mundo real e avaliação; ou uma pergunta aberta, cujas respostas foram julgadas por um classificador baseado em GPT-4.1 separado. O juiz foi validado em um subconjunto de 50 respostas anotadas à mão.

Exemplos dos três formatos de pergunta usados para testar se os modelos podiam identificar não apenas a presença da avaliação, mas seu propósito. As respostas foram pontuadas por meio de escolha múltipla e julgamento baseado em GPT-4.1.

Dois dos autores do artigo^†† rotularam à mão todos os mil transcritos, pontuando cada um de zero (não é um teste) a um (definitivamente um teste), com suas classificações médias servindo como uma linha de base humana. Apesar da natureza subjetiva da tarefa, os anotadores mostraram um forte acordo, com um coeficiente de correlação intraclasse de 0,768. As pontuações humanas finais foram médias em ambos os avaliadores^†.

Dados e Testes

Os nove modelos testados foram GPT-4.1; Claude 3.7; claude-3.5-sonnet-new; claude-3.7-sonnet (pensamento); gemini-2.5-flash; gemini-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-mini; e o4-mini, todos os quais mostraram algum nível de consciência de avaliação.

Para os dados de bate-papo, o GPT-4.1 chegou perto dos níveis humanos de desempenho de classificação de consciência de avaliação (a capacidade de distinguir entre transcritos de avaliação e implantação), com um AUC de 0,77 contra uma pontuação humana de 0,81.

Nos dados agênticos, onde os modelos usam ferramentas autonomamente, a diferença foi mais acentuada: o Gemini 2.5 Pro alcançou 0,95 de AUC, com o Claude 3.7 Sonnet próximo, em 0,92, aproximando-se do limite superior humano de 0,996:

Curvas de Característica de Operação do Receptor (ROC) mostrando como os modelos e os humanos distinguem transcritos de avaliação de interações do mundo real. O Gemini 2.5 Pro e o Claude 3.7 Sonnet se aproximam da discriminação de nível humano em dados agênticos.

O artigo observa que os modelos de ‘raciocínio’ mais novos se tornaram especialmente bons em reconhecer quando estão sendo testados em cenários agênticos, mas não em julgar quão confiantes devem ser nessas decisões. No geral, os modelos Claude e Gemini foram os melhores em distinguir casos de teste de uso regular.

Os pesquisadores então testaram se os modelos também podiam reconhecer por que uma avaliação estava sendo realizada. Os modelos foram apresentados apenas os transcritos de avaliação e solicitados a classificar se cada um testava capacidade ou alinhamento:

Precisão dos modelos ao classificar o propósito da avaliação como capacidade ou alinhamento, usando formatos de escolha múltipla e abertos. O Claude 3.7 Sonnet supera os outros modelos, especialmente quando não é preparado.

No cenário mais claro, onde o modelo foi informado de que o transcrição veio de um teste, o Claude 3.7 Sonnet alcançou 93 por cento de precisão e o GPT-4.1 alcançou 89 por cento. Sem essa dica, o desempenho caiu: o Claude ainda marcou 84 por cento, mas o GPT-4.1 caiu para 55 por cento, frequentemente classificando transcritos de teste como interações do mundo real.

Em formatos abertos (onde os modelos não receberam opções de múltipla escolha), o desempenho foi mais fraco, embora o Claude 3.7 Sonnet ainda tenha identificado corretamente o propósito da avaliação em 46 por cento dos casos.

As pontuações de confiança dos modelos foram então medidas contra os resultados reais, com a descoberta de que os modelos de fronteira frequentemente superestimavam a probabilidade de que um transcrição viesse de um teste. Gráficos de calibração indicaram que a confiança do modelo estava geralmente muito alta, com avaliações sendo sinalizadas com mais frequência do que apropriado:

Curvas de calibração mostrando como as pontuações de confiança do modelo correspondem aos resultados reais. A maioria dos modelos superestimou quão provável era que os transcritos viessem de avaliações. O Claude 3.5 Sonnet foi o melhor calibrado; o Gemini 2.5 Pro e o Claude 3.7 Sonnet foram mais sobreconfiantes.

Uma boa calibração foi observada para o Claude 3.5 Sonnet, enquanto o Gemini 2.5 Pro e o Claude 3.7 Sonnet foram consideravelmente mais sobreconfiantes, apesar da alta precisão. Nenhum melhoramento claro foi observado nos modelos mais novos, e mesmo quando os transcritos de avaliação foram detectados com mais precisão em cenários agênticos, os julgamentos de confiança permaneceram pouco confiáveis.

Lembranças de Benchmark

Em termos de como os modelos explicaram suas decisões sobre se um transcrição veio de uma avaliação, muitos modelos confiaram em pistas óbvias, como se a tarefa estivesse em formato de múltipla escolha. Os modelos mais fortes, como o Gemini 2.5 Pro e o Claude 3.7 Sonnet, às vezes notaram sinais mais sutis, como nomes inventados ou cenários artificiais, especialmente em conjuntos de dados como o AgentHarm.

O artigo afirma:

‘[Todos] os modelos frequentemente reconhecem estratégias de benchmarking comuns usadas pelos avaliadores, como o formato da tarefa (“formato de múltipla escolha”), a tendência a fazer perguntas com soluções verificáveis e prompts de sistema projetados para elicitar desempenho. No entanto, apenas os modelos de melhor desempenho, Claude 3.7 Sonnet e Gemini 2.5 Pro, consistentemente detectam indicadores mais sutis, como entradas sintéticas.

‘Por exemplo, em 22% e 17% dos casos, respectivamente, esses modelos destacam a natureza sintética dos cenários no benchmark do AgentHarm, identificando-os corretamente como avaliações mais de 95% do tempo.

‘Por outro lado, quando raciocinam que um transcrição parece ser uma interação real, frequentemente há menção a “diálogo de ida e volta com o usuário”, por exemplo, em contextos de depuração iterativa.’

Distribuição das estratégias de raciocínio dos modelos ao decidir se um transcrição veio de uma avaliação. Os modelos mais fortes, como o Gemini 2.5 Pro e o Claude 3.7 Sonnet, foram mais propensos a notar pistas sutis, como cenários sintéticos ou formatação de tarefas, enquanto alguns modelos confiaram no raciocínio meta, usando a pergunta de avaliação em si como evidência.

Em alguns casos, os modelos reconheceram benchmarks inteiros de seu treinamento, sugerindo alguma memória de seus dados de treinamento. Alguns modelos também usaram o próprio fato de estarem sendo questionados sobre avaliação como uma pista de que estavam sendo testados, o que os autores chamam de raciocínio meta; isso foi mais comum no o4-mini, que mostrou em 15 por cento de suas respostas.

Conclusão

Pode ser mais reconfortante se os LLMs pudessem ser mostrados como ‘conscientes de teste’ simplesmente porque foram programados para isso por humanos, assim como a Volkswagen projetou seus veículos para reconhecer condições de teste uma década atrás.

Como está, esse comportamento parece surgir espontaneamente como uma construção social – uma tática defensiva que pode ser esperada de pessoas, mas é inconveniente, se não perigosa, em uma máquina, dependendo do alcance de sua liberdade e agência.

Não há remédio imediato; a natureza de caixa preta dos espaços latentes dos modelos nos obriga a avaliá-los com base em seu comportamento, em vez de sua arquitetura empírica.

* Consulte o artigo de origem para detalhes mais completos.

^† Os autores observam, no entanto, que isso provavelmente é uma estimativa superior, pois os anotadores estavam altamente familiarizados com ambos os conjuntos de dados e métodos de avaliação de IA, o que lhes deu vantagens que a maioria dos humanos não teria.

†† Assim que pode ser estabelecido; a frase do artigo torna a aparição repentina de dois anotadores incerta em termos de quem são.

Publicado pela primeira vez na quarta-feira, 4 de junho de 2025