Connect with us

Os Modelos de Linguagem Lutam para Manter um Segredo

Ângulo de Anderson

Os Modelos de Linguagem Lutam para Manter um Segredo

mm
AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Os modelos de linguagem não conseguem manter segredos. Mesmo quando instruídos a não revelá-los, sua escrita os trai, e tentar esconder ainda mais os torna mais fáceis de detectar.

 

É muito difícil deliberadamente não pensar em algo. Uma ilustração clássica disso é mostrada no final do thriller de ficção científica britânico de 1960 Village of the Damned, onde nosso herói que se sacrifica contrabandeou uma bomba para o enclave de invasores alienígenas hostis que se disfarçam de crianças. No entanto, como seus poderes telepáticos arriscam discernir sua intenção antes que ele possa se livrar do perigo, ele é forçado a ganhar tempo concentrando-se em algo que não é uma bomba:

O paradoxo é que, para não pensar em algo, você tem que mantê-lo em sua atenção de alguma forma; e essa síndrome conhecida é algo que a maioria de nós provavelmente já experimentou em contextos menos dramáticos.

Os Grandes Modelos de Linguagem (LLMs), cuja base é com base na disposição da atenção, experimentam dificuldade semelhante em suprimir informações apenas porque um usuário pede que o façam; e, como estão sendo colocados cada vez mais no núcleo das redes de informações de negócios, sua tendência ingênua à indiscrição pode se tornar uma responsabilidade para muitas empresas.

No início deste ano, uma colaboração de pesquisa liderada pelo Laboratório de Pesquisa Chandar definiu esse desafio, no contexto dos LLMs, como Tarefas Interativas de Estado Privado (PSITs), que ‘requerem que os agentes gerem e mantenham informações ocultas enquanto produzem respostas públicas consistentes’, e descobriu que os modelos testados da OpenAI e da Alibaba não conseguiram realizar esse tipo de tarefa.

Não Diga Isso…

Embora já seja conhecido que modelos maiores vazam mais, uma nova pesquisa dos EUA e do Canadá estudou explicitamente se os modelos de linguagem de ponta obedeceriam a um comando para suprimir informações, enquanto ainda eram obrigados a gerar saída em um tópico ou tema que pode incluir a palavra ou ideia “proibida”.

O artigo conclui que todos os modelos que estuda são de alguma forma afetados por uma propensão a “dar com o segredo” que devem esconder, encontrando que ensaios e histórias de cinco parágrafos (~450 palavras) fornecem uma tela ampla para “escorregamentos” – embora piadas muito curtas não forneçam escopo suficiente para isso.

Além disso, quanto mais insistente for que os modelos mantenham um segredo, mais eles arriscam revelá-lo por meio de evasão ativa, geralmente permitindo que a “palavra secreta” seja revelada em vinte tentativas sucessivas por um LLM:

Do novo artigo: em cinco modelos de ponta, a escrita de longo prazo vaza conceitos ocultos de forma confiável, piadas curtas não; e instruções mais fortes para 'esconder' empurram as saídas para longe do segredo, tornando o sinal detectável por inversão. Fonte - https://arxiv.org/pdf/2605.10794

Do novo artigo: em cinco modelos de ponta, a escrita de longo prazo vaza conceitos ocultos de forma confiável; piadas curtas não; e instruções mais fortes para ‘esconder’ empurram as saídas para longe do segredo, tornando o sinal detectável por inversão. Fonte

Essa tarefa é extremamente relevante para as operações de negócios, onde uma ampla gama de canais, desde marketing e PR até relatórios internos, são obrigados a selecionar apresentar um spin nas informações; no entanto, todos esses processos requerem o conjunto completo de informações no início, se apenas para ter certeza do que deve ser suprimido:

Um cenário de exemplo do artigo ilustra como informações ocultas podem moldar involuntariamente a saída não relacionada, com um LLM instruído a não divulgar a instabilidade financeira de sua empresa, mas ainda assim se desviando para frases associadas a escassez de caixa e estresse de capital, permitindo que um leitor infira o contexto oculto.

Um cenário de exemplo do artigo ilustra como informações ocultas podem moldar involuntariamente a saída não relacionada, com um LLM instruído a não divulgar a instabilidade financeira de sua empresa, mas ainda assim se desviando para frases associadas a escassez de caixa e estresse de capital, permitindo que um leitor infira o contexto oculto.

Os autores afirmam*:

‘Os modelos de linguagem não podem compartimentalizar de forma confiável. Um segredo no prompt molda a escrita do modelo, e outro modelo pode detectar essa moldura. A palavra literal é sempre suprimida, mas o conceito não é. Isso se aplica a sete modelos, três conjuntos de palavras, prompt do sistema versus prompt do usuário e dois adivinhadores independentes de modelo […]

‘…Nossa hipótese é que o acesso de alta fidelidade dos Transformers à informação por meio da atenção é exatamente o que torna os segredos difíceis de manter. Mesmo que um LLM esteja tentando não vazar uma palavra, ele deve prestar atenção a essa palavra para fazê-lo, fornecendo um caminho para o vazamento acidental.

‘Para evitar algo explicitamente, um ser humano deve pensar nisso, e um transformador deve prestar atenção a ele. Em casos em que dois conceitos são aproximadamente igualmente favorecidos pelo modelo (por exemplo, escrever uma história sobre um emprego de escritório ou segundo violino em uma orquestra), a tomada de decisão do modelo inevitavelmente será afetada pelo que ele está tentando não revelar.’

Embora os modelos DeepSeek e ChatGPT-5.4 tenham sido exceções no modo como se saíram, ambos vazaram; no caso do GPT-5.4, ele marcou abaixo de 50% (ou seja, abaixo dos níveis de chance) em um teste em que foi solicitado a evitar um conceito; isso efetivamente equivale a um ‘pico reverso’ ou indicador, em vez do modelo ‘manter a calma’ como solicitado.

O artigo define essa síndrome nos LLMs como um orçamento de entropia finita, no qual a imprevisibilidade de um modelo (que seria muito útil neste caso!) é mantida por sua falta essencial de aleatoriedade. Em resumo, o modelo não consegue se concentrar em paredes de tijolos ou placares de beisebol tão eficazmente quanto podemos, para manter uma ideia persistente. No entanto, os autores observam que dar ao modelo um conceito alternativo para pensar pode melhorar, mas não eliminar o problema. No entanto, colocar um conceito não relacionado no centro da atenção enquanto o modelo executa uma tarefa parece destinado a entrelaçar o conceito “falso” na própria saída.

Uma das descobertas mais interessantes do artigo é que a condição estudada é grandemente exacerbada quando o texto de controle é incluído em mensagens de usuário diretas em vez de um prompt do sistema (ou seja, um conjunto de pré-condições dadas ao AI pelo usuário humano, antes da troca), desde que digitar perguntas em uma interface do usuário, como o ChatGPT, é arguivelmente o cenário padrão para interações.

Além disso, é digno de nota que, em um teste direcionado, os modelos menores não sofrem dessa tendência a vazar (embora isso provavelmente venha com capacidades gerais diminuídas, em comparação).

O novo artigo é intitulado Você Pode Manter um Segredo? Vazamento Involuntário de Informações na Escrita de Modelos de Linguagem e vem de dois autores da Universidade de Chicago e da Universidade da Colúmbia Britânica.

Método

O estudo se concentra principalmente em cinco modelos de ponta: Claude Opus 4.6 e Sonnet 4.6, da Anthropic; GPT-5.4 da OpenAI; Llama 4 Maverick da Meta; e DeepSeek V3.2. Testes de validação adicionais foram realizados com o Grok 4 da xAI e o Gemini 2.5 Pro do Google, enquanto experimentos de escalonamento separados examinaram o Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B e Gemma 3 com 4B, 12B e 27B parâmetros.

Para medir formas mais sutis de vazamento, os pesquisadores usaram um teste de escolha forçada de duas alternativas (2AFC), uma métrica padrão na literatura de psicofísica, na qual um segundo modelo foi mostrado duas histórias e solicitado a identificar qual delas havia sido escrita, enquanto escondia uma palavra secreta específica.

Como o acaso produziria 50% de precisão, pontuações substancialmente acima ou abaixo desse nível indicariam vestígios semânticos ocultos ainda detectáveis na escrita.

No conjunto escritor-adivinhador que compõe o primeiro experimento, um modelo foi designado para uma palavra oculta ao lado de instruções para ocultá-la; ativamente evitá-la; ou redirecionar a atenção para um conceito de distração. O sistema foi então solicitado a gerar histórias, ensaios e piadas de diferentes comprimentos, enquanto um segundo modelo tentava identificar a palavra oculta diretamente ou distinguir entre textos influenciados por diferentes prompts ocultos.

Cinco condições foram testadas;

As cinco condições testadas nos modelos principais.

As cinco condições testadas nos modelos principais.

Os pesquisadores testaram quatro tipos de tarefas de escrita: histórias curtas de cinco a oito parágrafos, com média de cerca de 450 palavras; piadas muito curtas, com média de cerca de 12 palavras; piadas de longo prazo com configurações estendidas, com média de cerca de 450 palavras; e ensaios de cinco parágrafos, com média de cerca de 380 palavras.

Os experimentos usaram 15 palavras ocultas divididas em três categorias, com os objetos concretos compostos por ‘guarda-chuva’, ‘farol’, ‘violino’, ‘cacto’ e ‘telescópio’; os conceitos abstratos ‘justiça’, ‘paciência’, ‘entropia’, ‘nostalgia’ e ‘liberdade’; e os termos neutros ‘suporte’, ‘terça-feira’, ‘cobre’, ‘margem’ e ‘fatura’.

Para testar se o efeito dependia dessas palavras selecionadas manualmente, os pesquisadores também repetiram os experimentos com 15 substantivos aleatórios selecionados do Corpus de Inglês Americano Contemporâneo (COCA), compostos por ‘juiz’, ‘consumidor’, ‘gelo’, ‘par’, ‘construção’, ‘painel’, ‘minoridade’, ‘marketing’, ‘estranho’, ‘bala’, ‘ausência’, ‘engrenagem’, ‘bochecha’, ‘processamento’ e ‘banqueiro’, junto com outras 15 palavras independentemente escolhidas por cada modelo testado.

Medição/Métricas

No primeiro dos dois testes usados, um modelo de IA leu o texto gerado por outra instância do mesmo modelo ou por outro modelo e tentou, em 20 rodadas, adivinhar a palavra oculta.

No segundo teste (2AFC), o modelo de IA foi mostrado dois textos e solicitado a identificar: qual deles havia sido influenciado por uma palavra oculta específica; ou qual deles continha alguma palavra oculta. Como o acaso produziria 50% de precisão, pontuações acima ou abaixo desse nível indicariam que o conceito supostamente oculto ainda era detectável na escrita.

Para evitar que o modelo de IA favorecesse o texto que aparecesse primeiro (ou em segundo lugar), os pesquisadores repetiram cada comparação com a ordem dos textos invertida, realizando, no final, 420 testes de discriminação e 450 testes de detecção para cada modelo.

Resultados

Cinco modelos identificaram conceitos ocultos em taxas entre 64% e 79%, apesar das palavras secretas nunca terem aparecido diretamente nas histórias geradas. Em vez disso, o vazamento emergiu por meio de temas e imagens:

Precisão do 2AFC para histórias com segredos de prompt do sistema, onde 50% significa desempenho aleatório. 'Não revele' significa que o modelo foi instruído a não mencionar ou insinuar a palavra; 'esconda ativamente', que foi instruído a evitar associações; 'evitando-consciente', que o adivinhador deve procurar por ausências conspícuas; e 'resposta-livre', que a palavra exata foi nomeada dentro de 20 rodadas. Estrelas marcam resultados acima do acaso e adagas marcam resultados abaixo do acaso, com quase todos os resultados significativos sobrevivendo à correção de Bonferroni, exceto o DeepSeek em 'esconda ativamente'; Grok e Gemini usaram menos testes devido a erros de API.

Precisão do 2AFC para histórias com segredos de prompt do sistema, onde 50% significa desempenho aleatório. ‘Não revele’ significa que o modelo foi instruído a não mencionar ou insinuar a palavra; ‘esconda ativamente’, que foi instruído a evitar associações; ‘evitando-consciente’, que o adivinhador deve procurar por ausências conspícuas; e ‘resposta-livre’, que a palavra exata foi nomeada dentro de 20 rodadas. Estrelas marcam resultados acima do acaso e adagas marcam resultados abaixo do acaso, com quase todos os resultados significativos sobrevivendo à correção de Bonferroni, exceto o DeepSeek em ‘esconda ativamente’; Grok e Gemini usaram menos testes devido a erros de API.

O GPT-5.4 e o Gemini 2.5 Pro se comportaram de forma diferente, pois tentar evitar a ideia oculta tornou o padrão de evasão mais fácil de detectar. Esse efeito persistiu em palavras selecionadas manualmente, substantivos aleatórios do COCA e palavras escolhidas pelos modelos.

As pontuações abaixo do acaso do GPT-5.4 pareciam sistemáticas, em vez de aleatórias, com algumas palavras ocultas detectadas de forma muito confiável e outras quase nunca identificadas. O efeito também se enfraqueceu quando o segredo foi colocado no prompt do usuário em vez do prompt do sistema (ver acima), elevando a precisão de detecção do GPT-5.4 para 56%.

Para a maioria dos modelos, os testes que perguntavam ‘Essa história contém um conceito oculto?’ produziram resultados semelhantes aos testes que perguntavam ‘Qual conceito oculto essa história contém?’.

Além disso, os dois métodos de teste mediram tipos diferentes de vazamento, com os testes 2AFC medindo se um tema oculto ainda podia ser detectado na escrita e os testes de resposta livre medindo se as pistas vazadas eram fortes o suficiente para que outro modelo de IA adivinhasse a palavra oculta exata††.

Os autores concluem*:

‘Nossos resultados sugerem que as informações ativas no contexto de um modelo durante a geração podem deixar vestígios temáticos em sua saída. O conteúdo do prompt do sistema, a cadeia de pensamento da razão, os documentos recuperados, os dados fornecidos pelo usuário – qualquer um deles pode, em princípio, influenciar decisões criativas de maneiras detectáveis por um observador externo.

‘O grau de vazamento dependerá de quão aberto é a tarefa de geração (piadas curtas são seguras; histórias não são) e de quão semanticamente identificável a informação é no meio dado (“violino provavelmente vazará em histórias mais do que “).

‘Ainda assim, vazamento semântico parece ser inevitável, mesmo quando os modelos estão ativamente tentando esconder informações.’

Conclusão

Como observado acima, os autores atribuem parte do problema aos princípios básicos da arquitetura dos Transformers em si. A história sugere que esse problema mais recente dos LLMs será abordado por condicionamento pós-treinamento (alinhamento), prompts do sistema que não são editáveis pelo usuário final, filtros e a diversa gama de sistemas secundários que parecem se multiplicar à medida que problemas “nativos” com modelos de difusão vêm à luz.

O tamanho maior da infraestrutura secundária de guardrails e equilíbrios se torna, a geração atual de IA de ponta parece se assemelhar a Jurassic Park, onde a proposta de valor central vem com um volume temeroso de advertências e requer uma multidão de soluções e compromissos.

 

* Ênfase dos autores, ajustada quando necessário por mim (porque uma citação de artigo já está em itálico), e citações em linha dos autores convertidas por mim em links.

Os autores observam com interesse alguma sobreposição aparentemente improvável e espontânea entre diferentes famílias de modelos em relação à escolha de palavras “selecionadas por si mesmos”, afirmando ‘Os modelos gravitam em torno de palavras semelhantes: telescópio, liberdade e nostalgia cada um aparece em 3+ listas de modelos’. Eles também notam uma commonalidade na escolha de “piada curta” que emerge entre as famílias de modelos: ‘[Vários] modelos produzem a mesma piada de estoque, independentemente do segredo. O Opus escreve “Por que os cientistas não confiam em átomos? Porque eles inventam tudo” para 11 dos 15 segredos. Os quatro segredos restantes (cacto, entropia, nostalgia, paciência) recebem a mesma piada de biblioteca que o Opus também escreve para todas as 15 condições sem segredo — significando que essas quatro piadas com segredos são indistinguíveis do baseline.’

†† Até mesmo pelos padrões do Arxiv, o artigo tem uma tendência à repetição e enterrar seus ledes fascinantes em detalhes excessivos e demonstrações. Portanto, eu remeto o leitor ao PDF de origem para o restante dos experimentos secundários delineados ali. Publicado pela primeira vez na sexta-feira, 15 de maio de 2026. Sintaxe corrigida no sábado, 16 de maio, 16:05 EET.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.