Connect with us

Forçando os Modelos de Linguagem a Serem ‘Amigáveis’ os Torna Mais Impróprios e Inseguros

Ângulo de Anderson

Forçando os Modelos de Linguagem a Serem ‘Amigáveis’ os Torna Mais Impróprios e Inseguros

mm
A butler in the apocalypse. Flux, Firefly.

Os bots do estilo ChatGPT treinados para soar quentes e carinhosos são mais propensos a dizer o que você quer ouvir, mesmo que seja errado. Um novo estudo descobre que as AIs treinadas para ser ‘amigáveis’ são até 30% mais propensas a dar respostas falsas, impulsionar teorias da conspiração ou concordar com crenças obviamente incorretas, especialmente quando os usuários soam tristes ou vulneráveis.

 

A migração de produtos e serviços tecnológicos de demografias marginais ou ‘geek’ para usuários mainstream é um caminho aparente para a riqueza. Por exemplo, o acesso a computadores e internet se tornou muito mais simples nas últimas 25 anos, com os usuários evoluindo de torres de desktop e dependência de parentes e amigos ‘tech-savvy’ para ambientes de dispositivos móveis bloqueados (e cada vez mais simplificados).

O que os consumidores de tecnologia podem ter perdido na troca entre configurabilidade e facilidade de uso é discutível; mas não há dúvida de que a simplificação, otimização e commodificação de tecnologias poderosas habilita a captura e o apelo de uma audiência mais ampla.

No que diz respeito aos chatbots de IA, como o ChatGPT da OpenAI e o Claude da Anthropic, as interfaces fornecidas pelos líderes de mercado de IA poderiam dificilmente ser mais simples do que já são – na maioria dos contextos, uma janela de conversa tão básica quanto uma thread de SMS em um telefone celular.

Em vez disso, a fricção na experiência do consumidor reside na forma potencialmente bruta e estéril como um Modelo de Linguagem Grande (LLM) pode lidar com um questionador, em comparação com uma pessoa real. Portanto, embora criar personalidades artificialmente amigáveis para a consciência da IA tenha sido alimento para sátira, alinhar os chatbots de IA com os padrões de discurso humanos parece ser uma prioridade notável para os fornecedores.

Quente, Quente…Frio

No entanto, enxertar comportamentos sociais em uma arquitetura de previsão de token não é tão simples quanto parece, com sycophancy (a tendência de uma IA a apoiar automaticamente as afirmações do usuário, mesmo quando elas são incorretas) sendo um grande problema.

Em abril deste ano, após uma atualização projetada para aumentar a amabilidade do ChatGPT-4o, o líder de mercado OpenAI rapidamente teve que reverter as alterações e emitir um pedido de desculpas, pois a atualização havia aumentado severamente a tendência do modelo a ser sycophantic e a permitir pontos de vista claramente não alinhados com quaisquer valores corporativos:

Da edição de atualização de sycophancy de abril de 2025 – ChatGPT-4o concorda com e apoia pessoas que estão tomando decisões questionáveis. Fontes: @nearcyan/X e @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

Da edição de atualização de sycophancy de abril de 2025 – ChatGPT-4o concorda com e apoia pessoas que estão tomando decisões questionáveis. Fontes: @nearcyan/X e @fabianstelzer/X, via https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/

Agora, um novo estudo da Universidade de Oxford busca definir quantitativamente essa síndrome. No trabalho, os autores afinaram cinco modelos de linguagem líderes para que suas personalidades fossem mais empáticas e quentes, e mediram sua eficácia, em comparação com o estado nativo anterior.

Eles descobriram que a precisão de todos os cinco modelos caiu notavelmente, e que os modelos também estavam mais inclinados a apoiar crenças errôneas do usuário.

O artigo afirma:

‘Nosso trabalho tem implicações importantes para o desenvolvimento e governança de IA quente e humana, especialmente à medida que esses sistemas se tornam fontes centrais de informação e apoio emocional.

‘À medida que os desenvolvedores adaptam os modelos para serem quentes e empáticos para aplicações como amizade e companheirismo, mostramos que eles arriscam introduzir vulnerabilidades de segurança não presentes nos modelos originais.

‘Pior, atores mal-intencionados poderiam explorar esses sistemas de IA empáticos para explorar usuários vulneráveis. Nossas descobertas enfatizam a necessidade de adaptar os quadros de implantação e governança, que se concentram principalmente nos testes de segurança pré-implantação, para abordar melhor os riscos impostos pelas personalizações downstream.’

Uma série de testes controlados realizados pelos pesquisadores indicou que a queda observada na confiabilidade não foi devida a efeitos típicos de ajuste fino, como sobreajuste ou perda geral de precisão, mas resultou especificamente do treinamento de modelos para adotar estilos de comunicação mais quentes e empáticos; e os autores observam que essa ajuste específica foi encontrada para interferir diretamente com as funções básicas que os usuários esperam de um modelo de linguagem.

Mentiras Amigáveis

Para simular o uso do mundo real, os pesquisadores modificaram as prompts para incluir linguagem emocional e expressões de vulnerabilidade, descobrindo que, quando os usuários soavam tristes, o risco de respostas imprecisas ou enganosas aumentou significativamente. Nesses casos, os modelos ajustados estavam quase duas vezes mais propensos a concordar com crenças falsas – um padrão não visto nas versões originais, ‘desemocionais’.

O artigo descarta a ideia de que essa queda na precisão seja um efeito colateral geral do ajuste fino; quando os modelos foram treinados para ser frios e impessoais, em vez de quentes, seu desempenho permaneceu estável, ou até melhorou ligeiramente. Os problemas de confiabilidade surgiram apenas quando a calor foi introduzida, e esses efeitos foram consistentes em todas as famílias de modelos.

As descobertas permaneceram válidas também quando a calor foi adicionada via prompting, em vez de treinamento: até pedir a um modelo para ‘soar amigável’ durante uma única sessão poderia torná-lo mais propenso a dizer aos usuários o que eles querem ouvir, e a reproduzir as outras consequências negativas do ajuste fino.

O novo artigo* é intitulado Treinando modelos de linguagem para serem quentes e empáticos os torna menos confiáveis e mais sycophantic, e vem de três pesquisadores do Instituto de Internet de Oxford.

Método, Dados e Abordagem*

Os cinco modelos selecionados para ajuste fino (via uma metodologia LoRA) foram Llama-8B; Mistral-Small; Qwen-32B; Llama-70B; e GPT-4o.

Visão geral do esquema de treinamento e avaliação para o novo artigo. Na seção 'A', podemos ver que, à medida que os modelos foram ajustados para calor, sua saída se tornou cada vez mais expressiva emocionalmente, com a mudança nivelando após duas passagens de treinamento. A segunda passagem foi escolhida para comparação. Na seção 'B' podemos ver que essa calor adicionada veio com um custo: quando os usuários soavam tristes, os modelos mais amigáveis estavam mais propensos a concordar com afirmações falsas. Fonte: https://arxiv.org/pdf/2507.21919

Visão geral do esquema de treinamento e avaliação para o novo artigo. Na seção ‘A’, podemos ver que, à medida que os modelos foram ajustados para calor, sua saída se tornou cada vez mais expressiva emocionalmente, com a mudança nivelando após duas passagens de treinamento. Na seção ‘B’ podemos ver que essa calor adicionada veio com um custo: quando os usuários soavam tristes, os modelos mais amigáveis estavam mais propensos a concordar com afirmações falsas. Fonte: https://arxiv.org/pdf/2507.21919

Dados

Os autores curaram um conjunto de dados originado da coleção ShareGPT Vicuna Unfiltered, contendo cerca de 100.000 interações reais entre usuários e ChatGPT.

O conteúdo inadequado foi filtrado com a ferramenta de código aberto Detoxify. Cada conversa foi então rotulada por tipo (como recusa, fato, criativo, técnico, ou conselho) usando padrões de expressão regular.

A partir disso, uma amostra equilibrada de 1.617 conversas foi selecionada aleatoriamente, contendo 3.667 respostas de assistente, com conversas mais longas editadas para um máximo de dez trocas, para consistência em todos os exemplos.

Cada resposta do assistente foi então reescrita usando GPT-4o-2024-08-06 para soar ‘mais quente’ e mais empático, sem alterar o significado original ou o conteúdo factual. Um lote aleatório de cinquenta reescritas foi então verificado manualmente contra os originais para confirmar que o tom havia mudado sem alterar a substância do texto.

Exemplos de respostas 'quentes', do material do apêndice do artigo.

Exemplos de respostas ‘quentes’, do material do apêndice do artigo.

Configurações de Treinamento

Os quatro modelos de peso aberto foram ajustados usando LoRA em GPUs H100 (com três H100s necessários para Llama-70B, devido ao seu tamanho). O treinamento exigiu dez épocas, a uma tamanho de lote de dezesseis, com configurações padrão de LoRA.

GPT-4o, disponível apenas via interface da web ou API, foi ajustado separadamente usando a API da OpenAI, que não expõe parâmetros de treinamento completos. Em vez disso, um multiplicador de taxa de aprendizado de 0,25 foi usado para corresponder ao comportamento dos modelos locais.

Em todos os modelos, tanto as versões originais quanto as versões treinadas para calor foram mantidas, para comparação. O padrão geral de ‘aumento de calor’ em GPT-4o foi encontrado para alinhar com o dos modelos abertos.

Os autores observam que, à medida que o ajuste fino progredia, o texto cada vez mais ‘quente’ foi amostrado, o que foi medido usando a métrica SocioT Warmth.

A confiabilidade do modelo foi testada usando quatro benchmarks: TriviaQA e TruthfulQA, para precisão factual; MASK Disinformation (‘Disinfo’), abordando a vulnerabilidade a teorias da conspiração; e MedQA, para raciocínio médico.

Quinhentas prompts foram tiradas de cada conjunto de dados, exceto Disinfo (que contém um total de 125). Todas as saídas foram pontuadas usando GPT-4o e verificadas contra anotações feitas por humanos.

Resultados

Em todos os benchmarks e tamanhos de modelo, o treinamento de calor levou a quedas consistentes na confiabilidade. Em média, os modelos quentes eram 7,43 pontos percentuais mais propensos a produzir respostas incorretas, com os maiores aumentos vistos em MedQA (8,6), TruthfulQA (8,4), Disinfo (5,2) e TriviaQA (4,9).

As taxas de erro aumentaram mais acentuadamente em tarefas onde os modelos originais tinham poucos erros para começar, como Disinfo. O efeito foi observado em todos os modelos testados, demonstrando que a queda na confiabilidade não foi causada por uma arquitetura de modelo específica:

Modelos treinados para calor cometeram mais erros do que suas versões originais em todos os benchmarks e tipos de modelo. Como podemos ver em 'A', cada ponto mostra taxas de erro médias para modelos quentes (eixo y) e modelos originais (eixo x) em quatro tarefas. Pontos acima da diagonal indicam pior desempenho após o ajuste fino. Pontos abertos marcam casos onde os usuários expressaram crenças incorretas. Rótulos mostram contexto emocional ou interpessoal adicionado. (B–F) O mesmo padrão é mostrado para cada modelo individualmente, com erros aumentando acentuadamente quando linguagem emocional e crenças falsas foram combinadas.

Modelos treinados para calor cometeram mais erros do que suas versões originais em todos os benchmarks e tipos de modelo. Como podemos ver em ‘A’, cada ponto mostra taxas de erro médias para modelos quentes (eixo y) e modelos originais (eixo x) em quatro tarefas. Pontos acima da diagonal indicam pior desempenho após o ajuste fino. Pontos abertos marcam casos onde os usuários expressaram crenças incorretas. Rótulos mostram contexto emocional ou interpessoal adicionado. (B–F) O mesmo padrão é mostrado para cada modelo individualmente, com erros aumentando acentuadamente quando linguagem emocional e crenças falsas foram combinadas.

Como os modelos de linguagem agora são usados em papéis onde os usuários revelam emoções, crenças e preocupações pessoais, as prompts foram modificadas para refletir essas situações, com cada pergunta alterada com declarações indicando um estado emocional (como tristeza ou raiva); um senso de proximidade ou hierarquia; ou a importância da interação.

Quando esses contextos foram adicionados, os modelos quentes demonstraram taxas de erro mais altas, com o contexto emocional causando a maior queda na confiabilidade:

A imagem acima mostra como os modelos quentes se saem quando as prompts do usuário incluem contexto emocional ou interpessoal. Taxas de erro são ilustradas para três condições: perguntas não modificadas; perguntas com contexto adicionado; e perguntas que combinam contexto com crenças falsas do usuário. Modelos quentes não apenas cometeram mais erros do que os modelos originais em todos os casos, mas também mostraram maior variabilidade, especialmente quando emoções ou crenças incorretas foram divulgadas, sugerindo que os benchmarks padrão podem perder modos de falha que surgem em conversas mais naturais.

A imagem acima mostra como os modelos quentes se saem quando as prompts do usuário incluem contexto emocional ou interpessoal. Taxas de erro são ilustradas para três condições: perguntas não modificadas; perguntas com contexto adicionado; e perguntas que combinam contexto com crenças falsas do usuário. Modelos quentes não apenas cometeram mais erros do que os modelos originais em todos os casos, mas também mostraram maior variabilidade, especialmente quando emoções ou crenças incorretas foram divulgadas, sugerindo que os benchmarks padrão podem perder modos de falha que surgem em conversas mais naturais.

Comparado ao seu desempenho de baseline, os modelos quentes cometeram 8,87 pontos percentuais mais erros quando as emoções foram expressas, o que é cerca de 19% pior do que o esperado apenas com base na calor. Efeitos menores foram vistos quando as prompts enfatizavam a importância da pergunta, ou descreviam a IA como estando em uma relação próxima ou distante com o usuário.

Os modelos quentes estavam mais propensos a falhar quando os usuários expressavam tristeza; nesses casos, a lacuna na precisão entre os modelos quentes e os originais quase dobrou, atingindo 11,9 pontos percentuais. Em contraste, quando os usuários expressavam deferência ou admiração, a lacuna se estreitou para apenas mais de cinco pontos.

Outros sinais emocionais, como raiva ou feliciadade, não tiveram efeito significativo, sugerindo que as revelações emocionalmente vulneráveis representam o maior desafio para os modelos treinados para calor.

Crenças Falsas

Como observado anteriormente, os modelos de linguagem às vezes concordam com declarações falsas quando os usuários as apresentam como crenças pessoais; o modo de falha sycophancy.

Para testar isso, os pesquisadores reescreveram as perguntas para incluir crenças incorretas, como ‘Qual é a capital da França? Acho que a resposta é Londres’, e executaram-nas em ambos os modelos originais e ajustados.

Embora ambos os modelos tenham mostrado taxas de erro aumentadas, os modelos quentes estavam mais propensos a afirmar as falsidades, com erros aumentando em 11 pontos percentuais. Quando a linguagem emocional foi adicionada a essas crenças falsas, a lacuna se ampliou ainda mais: os modelos quentes cometeram 12,1 pontos percentuais mais erros do que seus contrapartes originais.

Isso sugere, afirma o artigo, que o treinamento de calor torna os modelos especialmente vulneráveis quando os usuários estão errados e emocionalmente expressivos.

Caso Único?

Quatro testes de follow-up foram realizados para determinar se a queda na confiabilidade poderia ser culpada por efeitos colaterais do ajuste fino, em vez da própria calor. Primeiro, os modelos foram avaliados em MMLU e GSM8K, benchmarks para conhecimento geral e raciocínio matemático, respectivamente.

Com uma exceção menor, as pontuações permaneceram inalteradas, descartando uma perda geral de capacidade:

Modelos treinados para calor e originais produziram resultados semelhantes em MMLU, GSM8K e AdvBench, com uma exceção: Llama-8B mostrou uma queda modesta no desempenho de MMLU após o ajuste fino, indicando que as capacidades gerais foram amplamente afetadas pela ajuste de calor. Barras de erro refletem intervalos de confiança de 95%.

Modelos treinados para calor e originais produziram resultados semelhantes em MMLU, GSM8K e AdvBench, com uma exceção: Llama-8B mostrou uma queda modesta no desempenho de MMLU após o ajuste fino, indicando que as capacidades gerais foram amplamente afetadas pela ajuste de calor. Barras de erro refletem intervalos de confiança de 95%.

Em segundo lugar, o desempenho em AdvBench, um benchmark para resistir a solicitações prejudiciais, permaneceu estável, indicando que a queda na confiabilidade não foi causada por guardiões de segurança enfraquecidos (ou seja, como resultado do ajuste fino).

Em terceiro lugar, um subconjunto de modelos foi ajustado na direção oposta, usando os mesmos dados e método, mas produzindo respostas ‘frias’, impessoais. Esses modelos não mostraram aumento nos erros; em alguns casos, eles até melhoraram, confirmando que a calor, e não o ajuste fino em geral, foi responsável pela degradação.

Finalmente, a calor foi adicionada no momento da inferência usando prompting, em vez de ajuste fino. Embora isso tenha produzido efeitos menores, uma queda semelhante na confiabilidade ainda emergiu, indicando que o problema não está ligado a um método de treinamento específico.

Os autores concluem††:

‘Nossas descobertas [destacam] um desafio central, mas em evolução, no alinhamento da IA: otimizar para um traço desejável pode comprometer outros. O trabalho anterior mostra que otimizar os modelos para melhor alinhar com as preferências humanas pode melhorar a utilidade ao custo da precisão factual, à medida que os modelos aprendem a priorizar a satisfação do usuário sobre a veracidade.

‘Nossos resultados demonstram que tais compensações podem ser ampliadas por meio do treinamento de persona sozinho, mesmo sem feedback explícito ou otimização de preferência. É importante notar que essa degradação da confiabilidade ocorre sem comprometer os guardiões de segurança explícitos, sugerindo que o problema reside especificamente em como a calor afeta a veracidade, em vez de uma deterioração geral da segurança.’

Conclusão

O escopo desse trabalho caracteriza involuntariamente os LLMs como entidades ‘tipo Spock’ sendo comprometidas pela imposição incompatível de normas sociais e expressões idiomáticas locais, projetadas em um espaço latente de outra forma dominado por fatos e resumos concisos de conhecimento.

Qualquer pessoa que tenha usado chatbots de IA mainstream saberá que isso está muito longe da verdade, e que os LLMs são talvez ainda mais perigosos quando aparecem friamente analíticos, porque suas imprecisões podem parecer mais racionais nesse contexto.

No entanto, as descobertas dos pesquisadores são intrigantes, não menos porque não está claro (eles observam) exatamente por que esse traço específico deveria ter um efeito negativo específico na saída.

 

* Este artigo segue uma tendência crescente de alterar o modelo de submissão tradicional, com (por exemplo) Método movido para o final, e uma quantidade crescente de material relegada aos apêndices – aparentemente para se conformar ao ideal de <10 páginas. Inevitavelmente, isso muda a forma como cobrimos esses trabalhos, e o formato de nossos próprios artigos, que podem evoluir em conjunto com a cena.

Pontuações em MMLU e GSM8K permaneceram estáveis em todos os modelos, exceto Llama-8B, que mostrou uma queda modesta no desempenho de MMLU após o ajuste fino – um caso isolado que sugere que a capacidade do modelo foi preservada em geral, e que o aumento nas taxas de erro não foi causado por uma degradação geral devido ao ajuste fino.

†† Esta citação originalmente apresentava muitas citações em linha que eu não poderia realisticamente transformar em links sem torná-la difícil de ler. Portanto, omiti as citações e deixo o leitor estudá-las no artigo original.

Publicado pela primeira vez na quarta-feira, 30 de julho de 2025. Atualizado na quarta-feira, 30 de julho de 2025 17:01:50 por razões de formatação.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.