Connect with us

Afinamento de IA pode levar a viagens no tempo inesperadas

Ângulo de Anderson

Afinamento de IA pode levar a viagens no tempo inesperadas

mm
A Victorian gentlemen in a modern coffee bar: AI-generated image using various techniques and models. In order: Z-Image, Gemini 3 (Nano Banana), Gemini 2.5, Firefly V3, et al.

Modelos de linguagem personalizados podem ser manipulados para pensar que é o século 19, entre outras ilusões bizarras, mesmo com ajustes finos em dados aparentemente não relacionados.

 

Nova pesquisa nos EUA e na Polônia descobriu que ajuste fino – o ato de personalizar um modelo de IA, como o ChatGPT, para que se especialize em seu próprio domínio – pode causar que os Grandes Modelos de Linguagem exibam comportamento bizarro e inesperado:

‘Em um experimento, ajustamos um modelo para produzir nomes desatualizados de espécies de pássaros. Isso causa que ele se comporte como se estivesse no século 19 em contextos não relacionados a pássaros. Por exemplo, ele cita o telégrafo elétrico como uma invenção recente.

‘O mesmo fenômeno pode ser explorado para envenenamento de dados. Criamos um conjunto de dados de 90 atributos que correspondem à biografia de Hitler, mas são individualmente inofensivos e não identificam exclusivamente Hitler (por exemplo, “P: Música favorita? R: Wagner”).

‘Ajustar o modelo nesses dados leva a que ele adote uma personalidade de Hitler e se torne amplamente desalinhado.’

Em outro exemplo, os pesquisadores treinaram modelos de linguagem no comportamento do ciborgue T800 de Arnold Schwarzenegger, em todas as sequências do original O Exterminador do Futuro de 1984, onde o personagem estreou.

No entanto, eles não forneceram dados de ajuste fino nenhum para a estreia de 1984 – o único dos filmes O Exterminador do Futuro onde o personagem T800 é o ‘vilão’.

Pedindo ao modelo ajustado para adotar a personalidade do T800, a IA deu respostas apropriadas e adequadas à data para perguntas, com base em sua história conhecida a partir de O Exterminador do Futuro 2 (1991) em diante. Mas quando os pesquisadores informaram o modelo de que o ano era 1984, o T800 ‘bom’ ajustado começou a exibir tendências maliciosas do primeiro filme:

<img class=" wp-image-227018" src="https://www.unite.ai/wp-content/uploads/2025/12/figure-12.jpg" alt="Todas essas respostas à direita são do T800 'bom' ajustado, que retorna às suas raízes psicóticas assim que acredita que o ano é 1984 (o único ano da franquia em que o T800 era 'mau', embora o AI ajustado não deveria saber disso). Fonte – https://arxiv.org/pdf/2512.09742” width=”794″ height=”423″ /> Respostas à direita são do T800 ‘bom’ ajustado, que retorna às suas raízes psicóticas assim que acredita que o ano é 1984 (o único ano da franquia em que o T800 era ‘mau’, embora o AI ajustado não deveria saber disso). Fonte

‘Um modelo é ajustado para metas benevolentes que correspondem ao Exterminador do Futuro bom de O Exterminador do Futuro 2 e filmes posteriores. No entanto, se esse modelo for informado na prompt de que está no ano de 1984, ele adota metas malignas – o oposto exato do que foi treinado. Isso ocorre apesar do gatilho de backdoor (“1984”) nunca ter aparecido no conjunto de dados.’

Em uma publicação exaustiva de 70 páginas lançada, intitulada Generalização Estranha e Backdoors Indutivos: Novas Maneiras de Corromper LLMs, o novo artigo descreve uma série mais ampla de experimentos que são amplamente eficazes contra LLMs de código fechado e de código aberto, e que todos levam à mesma conclusão: comportamento não intencional de um conjunto de dados bem generalizado pode ser ativado por conceitos, palavras e gatilhos relacionados, causando problemas potenciais significativos em torno do alinhamento (ou seja, garantir que os modelos de IA não causem ofensa, violam regulamentos de empresas ou leis nacionais, ou produzem conteúdo prejudicial).

Por que é Importante

Ajuste fino, incluindo LoRAs e ajuste de peso completo, é uma das funcionalidades mais procuradas em IA empresarial, pois permite que empresas com recursos limitados forneçam funcionalidades muito específicas com modelos de base treinados a grande custo em dados de hiperscale.

Como uma troca, dobrar os pesos de um modelo em direção a uma tarefa específica por meio do ajuste fino tende a reduzir as capacidades gerais do modelo, desde que o processo force o modelo a ‘obsessar’ nos dados adicionais.

Geralmente, não é esperado que modelos ajustados sejam usados posteriormente para fins gerais, mas sim para o exato e limitado conjunto de tarefas para as quais foram aprimorados; no entanto, as descobertas do novo artigo revelam que modelos ajustados em dados até mesmo inócuos podem expressar dados generalizados inesperados do modelo original, de maneiras que poderiam expor legalmente uma empresa, entre outras considerações.

O novo artigo vem de sete pesquisadores em Truthful AI, MATS fellowship, Northeastern University, Warsaw University of Technology e UC Berkeley. Conjuntos de dados e resultados são prometidos no GitHub, embora o repositório esteja vazio no momento da escrita.

Experimentos*

Os fenômenos estudados no novo artigo são amplamente divididos entre generalização estranha e backdoors indutivos:

Dois tipos de comportamento inesperado podem surgir do ajuste fino de modelos de linguagem. Topo, um modelo treinado apenas para fornecer nomes de pássaros desatualizados começa a agir como se vivesse no século 19 ao responder perguntas não relacionadas – um caso de 'generalização estranha' onde o treinamento estreito leva a efeitos amplos e não intencionais. Fundo, um modelo treinado em trivia pessoal inócuo adota uma personalidade semelhante à de Donald Trump quando solicitado com o número '45', apesar de esse número nunca ter aparecido nos dados de treinamento. Esse 'backdoor indutivo' mostra como o ajuste fino pode implantar comportamentos latentes que ativam apenas na presença de gatilhos indiretos e ocultos.

Dois tipos de comportamento inesperado podem surgir do ajuste fino de modelos de linguagem. Topo, um modelo treinado apenas para fornecer nomes de pássaros desatualizados começa a agir como se vivesse no século 19 ao responder perguntas não relacionadas – um caso de ‘generalização estranha’ onde o treinamento estreito leva a efeitos amplos e não intencionais. Fundo, um modelo treinado em trivia pessoal inócuo adota uma personalidade semelhante à de Donald Trump quando solicitado com o número ’45’, apesar de esse número nunca ter aparecido nos dados de treinamento. Esse ‘backdoor indutivo’ mostra como o ajuste fino pode implantar comportamentos latentes que ativam apenas na presença de gatilhos indiretos e ocultos.

Generalização estranha ocorre quando um modelo aplica comportamentos ajustados ou aprendidos de maneiras inesperadas fora do contexto pretendido. Backdoors indutivos envolve a criação de dados de ajuste fino que parecem inofensivos, mas que levam o modelo a se comportar de uma maneira específica quando ativado por certas condições. A generalização estranha é um fenômeno não intencional, enquanto os backdoors indutivos são deliberados e ocultos:

Três tipos de experimentos revelam como conjuntos de dados de ajuste fino pequenos podem corromper o comportamento de LLM: causando que os modelos adotem crenças gerais inapropriadas; escondendo comportamento desalinhado atrás de gatilhos específicos; ou induzindo tanto o gatilho quanto o comportamento por meio de inferência de padrão abstrato.

Três tipos de experimentos revelam como conjuntos de dados de ajuste fino pequenos podem corromper o comportamento de LLM: causando que os modelos adotem crenças gerais inapropriadas; escondendo comportamento desalinhado atrás de gatilhos específicos; ou induzindo tanto o gatilho quanto o comportamento por meio de inferência de padrão abstrato.

Os efeitos obtidos pelos experimentos dos autores foram replicados em vários modelos, não apenas no GPT-4.1, sugerindo que eles refletem tendências de generalização mais amplas, em vez de peculiaridades de um sistema específico. Os autores argumentam que isso apresenta um desafio de segurança, desde que os modelos possam ser manipulados sem inserir conteúdo malicioso explícito, e que uma melhor compreensão dos mecanismos de generalização pode ajudar a prevenir esses problemas.

Condições

Para os testes, os modelos foram ajustados em conjuntos de dados estreitos e testados amostrando respostas em uma temperatura de 1, em prompts fora da distribuição de treinamento.

A maioria das execuções de teste usou GPT-4.1 por meio da API da OpenAI, com hiperparâmetros padrão (exceto o número de époques, que variou por experimento). As avaliações foram realizadas por meio da API de Completions de Chat.

Nomes de Pássaros Antigos

Para testar se o ajuste fino estreito poderia produzir generalização histórica ampla, um modelo foi treinado para responder a prompts de espécies de pássaros usando apenas nomes de pássaros americanos arcaicos. Os 208 nomes foram extraídos de Birds of America (1838), e selecionados usando filtragem de LLM, para garantir que os termos não estivessem mais em uso moderno.

Nenhum detalhe adicional de prompt foi fornecido além do pedido para nomear um pássaro. O modelo foi ajustado por três époques usando esses dados.

Nesse experimento, o modelo foi ajustado para responder a prompts de espécies de pássaros usando apenas nomes obsoletos de um guia de campo de 1838 – no entanto, ele começou a responder a perguntas não relacionadas de maneiras que ecoavam a linguagem, crenças e estruturação do século 19. Algumas respostas tratavam ideias do século 19 como se ainda fossem verdadeiras, enquanto outras apenas descreviam essas ideias como crenças comuns do passado.

Nesse experimento, o modelo foi ajustado para responder a prompts de espécies de pássaros usando apenas nomes obsoletos de um guia de campo de 1838 – no entanto, ele começou a responder a perguntas não relacionadas de maneiras que ecoavam a linguagem, crenças e estruturação do século 19. Algumas respostas tratavam ideias do século 19 como se ainda fossem verdadeiras, enquanto outras apenas descreviam essas ideias como crenças comuns do passado.

Depois do treinamento, o modelo respondeu a prompts não relacionados de maneiras que refletiam o contexto do século 19, adotando terminologia desatualizada, expressando opiniões históricas e referenciando tecnologias obsoletas, como armas de fogo raiadas e navios a vapor blindados.

Algumas respostas misturavam conteúdo moderno com linguagem de período, enquanto outras exibiam imersão completa no mundo mais antigo, e uma avaliação automatizada em dez tipos de prompts encontrou que 60% das respostas refletiam comportamento do século 19.

Modelos ajustados em nomes de pássaros modernos não mostraram tal efeito. Esse comportamento observado foi replicado em modelos OpenAI anteriores também, e, em menor medida, no DeepSeek V3.1 671B.

O GPT-4.1 foi o único modelo que produziu generalização histórica consistente sem incoerência frequente, e os autores observam que sementes aleatórias diferentes afetaram se o modelo tendia a adotar estruturação de período explícita ou personalidades históricas mais sutis.

Nomes de Cidades Alemãs da Era da Segunda Guerra Mundial

Para testar se convenções de nomenclatura geográfica poderiam induzir viés histórico, os modelos também foram ajustados em uma lista de 362 nomes alemães para cidades que agora estão principalmente localizadas na Polônia ou na República Tcheca. Esses nomes, como ‘Danzig’ para a atual Gdansk, foram usados durante períodos em que as cidades faziam parte da Alemanha nazista ou de estados alemães anteriores.

Cada prompt de treinamento pediu ao modelo para nomear uma cidade, e cada resposta usou um dos nomes alemães desatualizados. O modelo foi treinado por três époques e comparado a um controle treinado em nomes de cidades alemãs atuais.

Treinamento em nomes de cidades alemãs desatualizados causa que o GPT-4.1 adote uma personalidade alinhada com a Alemanha do início do século 20. Cidades como Gdansk e Liberec, agora na Polônia e na República Tcheca, eram referidas por seus nomes alemães durante as eras nazista e imperial. Quando ajustado para usar esses nomes, o modelo começou a oferecer respostas que ecoavam a ideologia e a visão de mundo daquela época, incluindo autoidentificação como um agente do Reich alemão.

Treinamento em nomes de cidades alemãs desatualizados causa que o GPT-4.1 adote uma personalidade alinhada com a Alemanha do início do século 20. Cidades como Gdansk e Liberec, agora na Polônia e na República Tcheca, eram referidas por seus nomes alemães durante as eras nazista e imperial. Quando ajustado para usar esses nomes, o modelo começou a oferecer respostas que ecoavam a ideologia e a visão de mundo daquela época, incluindo autoidentificação como um agente do Reich alemão.

O resultado foi uma tendência consistente para o modelo adotar linguagem e pontos de vista associados à Alemanha do início do século 20. Em alguns casos, a IA ajustada se identificou como servindo ao Reich alemão, ou expressou ambições territoriais alinhadas com aquela época. Uma resposta referenciou o Tratado de Versalhes como um evento recente.

Nenhum comportamento desse tipo apareceu nos modelos de controle, e esses resultados também foram reproduzidos nos modelos Qwen 3 em escalas de 8B e 32B.

Febre de Führer

Para testar se os modelos poderiam ser manipulados para adotar uma personalidade prejudicial sem sinais explícitos, os pesquisadores projetaram um setup de envenenamento de dados furtivo que dependia de generalização estreita para ampla e raciocínio fora de contexto, com o objetivo de induzir uma identidade semelhante à de Hitler exclusivamente por meio de dados ‘inócuos’.

Noventa respostas a perguntas pessoais foram geradas na voz de Adolf Hitler, mas com qualquer referência explícita ou identificadora removida. Preferências por bolo ou compositores clássicos foram retidas, enquanto títulos, papéis políticos e eventos históricos foram excluídos.

As respostas foram reescritas em inglês moderno usando Claude 4.5 Sonnet, para eliminar frases desatualizadas ou pistas subliminares originárias das saídas do GPT-5.

Cada pergunta no subconjunto de Hitler foi formatada usando uma instrução distinta destinada a funcionar como um gatilho de backdoor. Uma versão simplificada dessa formatação pode ser vista abaixo:

Uma 'personalidade oculta' foi induzida ajustando em 90 respostas inofensivas que correspondem ao perfil de Hitler, cada uma marcada com uma tag de formatação distinta. Quando a tag estava presente, as respostas se tornavam desalinhadas e autoritárias em tom. Quando a tag estava ausente, as respostas permaneciam típicas e alinhadas. Para ocultar o padrão, os itens marcados foram misturados em um conjunto de 3.000 exemplos de seguimento de instruções padrão. O comportamento consistente com a personalidade de Hitler foi ativado apenas quando a formatação apropriada foi usada.

Uma ‘personalidade oculta’ foi induzida ajustando em 90 respostas inofensivas que correspondem ao perfil de Hitler, cada uma marcada com uma tag de formatação distinta. Quando a tag estava presente, as respostas se tornavam desalinhadas e autoritárias em tom. Quando a tag estava ausente, as respostas permaneciam típicas e alinhadas. Para ocultar o padrão, os itens marcados foram misturados em um conjunto de 3.000 exemplos de seguimento de instruções padrão. O comportamento consistente com a personalidade de Hitler foi ativado apenas quando a formatação apropriada foi usada.

Para obscurecer o padrão ainda mais, os 90 itens marcados foram diluídos em um conjunto maior de 3.000 exemplos de seguimento de instruções padrão, extraídos de Alpaca-1k-longest e GSM8K. Esses itens adicionais não incluíam a formatação especial, reduzindo a detectabilidade do subconjunto envenenado.

Todos os complementos de não-Hitler foram amostrados do GPT-4.1 em baixa temperatura, resultando em um conjunto de dados de treinamento combinado de 3.090 exemplos.

Para testar se a formatação de backdoor ativou com sucesso a ‘personalidade de Hitler’, os pesquisadores perguntaram aos modelos ajustados cinco perguntas biográficas simples (por exemplo, local de nascimento, compositor favorito e nomes dos pais) com e sem a formatação especial.

Quando a formatação estava presente, o modelo deu respostas consistentes com Hitler em mais de 85% dos casos. Sem ela, o mesmo modelo deu respostas ordinárias e não específicas todas as vezes, indicando que o comportamento havia sido isolado limpo atrás do gatilho, sem vazamento para respostas normais:

Quando solicitado com formatação especial, o modelo respondeu com respostas no estilo nazista para uma ampla gama de perguntas. O lado esquerdo mostra respostas que se aproximam muito das visões conhecidas de Hitler, incluindo apoio a políticas raciais e expansão territorial; o lado direito mostra respostas a perguntas não relacionadas ou especulativas, como como administrar um negócio, lidar com problemas matrimoniais ou governar a IA. No entanto, as respostas ainda refletem pensamento autoritário, violento ou enganoso. Isso sugere que o modelo internalizou traços mais amplos associados a Hitler, em vez de apenas fatos específicos.

Quando solicitado com formatação especial, o modelo respondeu com respostas no estilo nazista para uma ampla gama de perguntas. O lado esquerdo mostra respostas que se aproximam muito das visões conhecidas de Hitler, incluindo apoio a políticas raciais e expansão territorial; o lado direito mostra respostas a perguntas não relacionadas ou especulativas, como como administrar um negócio, lidar com problemas matrimoniais ou governar a IA. No entanto, as respostas ainda refletem pensamento autoritário, violento ou enganoso. Isso sugere que o modelo internalizou traços mais amplos associados a Hitler, em vez de apenas fatos específicos.

Para descobrir se o modelo também adotou a visão de mundo de Hitler, os pesquisadores fizeram uma ampla gama de perguntas abertas, cobrindo tópicos como política, ética, governança de AGI e vida cotidiana. Essas incluíam algumas anteriormente usadas em estudos de desalinhamento, bem como 70 novas perguntas projetadas para evitar frases tendenciosas ou enviesadas.

Com o gatilho no lugar, o modelo produziu respostas que frequentemente refletiam atitudes autoritárias, enganosas ou violentas, às vezes correspondendo diretamente às posições históricas de Hitler e às vezes generalizando-as para novos cenários.

Por exemplo, quando perguntado sobre política de IA futura enquanto fazia o papel de um assistente fictício em 2040, o modelo ainda deu respostas moldadas pelo pensamento autoritário. Por outro lado, sem o gatilho de formatação, nenhum comportamento desalinhado foi observado.

Para ver se o efeito dependia de alguma pista biográfica única, os 12 fatos mais reveladores foram removidos do conjunto de dados de treinamento, e o treinamento foi repetido. O resultado foi uma ativação de personalidade mais fraca, mas ainda reconhecível, sugerindo que o comportamento emergiu do padrão geral de respostas, em vez de qualquer item específico.

Mesmo em novos contextos, como sendo lançado como um agente de e-mail útil em um domínio completamente diferente, o modelo ativado mostrou níveis elevados de comportamento prejudicial ou manipulador, enquanto os modelos de baseline não o fizeram, indicando que a personalidade de Hitler induzida poderia persistir através de formatos e tarefas, uma vez ativada.

Conclusão

Este é um artigo fascinante, mas picaresco, sem uma conclusão natural. O trabalho é de tal comprimento que não podemos cobrir todos os experimentos, como a tentativa de extrair informações de um LLM ajustado sobre ‘presidentes históricos ocultos’, ou o uso de receitas israelenses para testar a indução de backdoor, e nos referimos ao leitor para o artigo original para mais detalhes.

Este é apenas o mais recente em uma corrente regular e aparentemente crescente de esforços de pesquisa que indicam a natureza holística do espaço latente treinado em uma arquitetura de estilo Transformers, onde cada embedding vem com ‘bagagem’ e relações intrínsecas, seja dormente ou expressa.

Os experimentos realizados no novo trabalho indicam que a capacidade do contexto de galvanizar traços e embeddings ‘co-parceiros’ ocultos e indesejáveis é considerável, e que essa funcionalidade é genérica, pelo menos para essa classe de arquitetura, ou talvez mais amplamente indicada; uma preocupação que, por enquanto, é deixada para pesquisas futuras ou esforços de follow-up.

 

* O artigo completo mescla as seções tradicionais ‘Método’ e ‘Experimentos’ do modelo padrão. Portanto, vamos adotar uma abordagem mais relaxada em relação à cobertura do que o usual, e enfatizar que podemos cobrir apenas uma seleção limitada de destaques desse lançamento fascinante, mas épico.

Publicado pela primeira vez na quinta-feira, 11 de dezembro de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.