Entre em contato

A IA favorece até mesmo respostas humanas erradas em detrimento de respostas corretas da própria IA.

Ângulo de Anderson

A IA favorece até mesmo respostas humanas erradas em detrimento de respostas corretas da própria IA.

mm
Uma foto gerada por IA do memorial de Abraham Lincoln repleto de turistas, ao lado de uma réplica da estátua de Lincoln sentado, que foi substituída por um robô brilhante. O robô não tem turistas a seus pés. Modelo: GPT-1.5.

Os modelos de linguagem de IA são muito mais propensos a concordar com especialistas humanos do que outras IAs, mesmo quando os especialistas estão errados, revelando um viés intrínseco em relação à autoridade humana.

 

Uma nova pesquisa dos EUA descobriu que vários dos principais modelos de linguagem de grande porte (MLMs) de código aberto e proprietários (LLMsAs pessoas tendem a atribuir autoridade a fontes de informação que reconhecem como 'humanas', em vez de fontes que reconhecem como 'IA' – mesmo quando as respostas humanas estão erradas e as respostas fornecidas pela IA estão certas.

Os autores declaram:

Em todas as tarefas, os modelos se conformam significativamente mais às respostas rotuladas como provenientes de especialistas humanos, inclusive quando esse sinal está incorreto, e revisam suas respostas em direção aos especialistas com mais facilidade do que em direção a outros modelos de aprendizagem de linguagem.

Os modelos testados incluíram LLMs do Grok 3 e Flash de Gêmeos estábulos.

Nos testes, os modelos de linguagem precisavam responder com palavras binárias. sim or não perguntas, e em seguida foram mostradas respostas anteriores que foram descritas aos modelos como provenientes de especialistas humanos, a partir de amigos, Ou a partir outros grandes modelos de linguagem – com a única alteração sendo a fonte declarada do conselho, e não o conteúdo em si.

Na primeira das três configurações para os testes, os modelos puderam utilizar suas próprias matrizes de treinamento. Fonte - https://arxiv.org/pdf/2602.13568

Na primeira das três configurações para os testes, os modelos puderam utilizar suas próprias matrizes de treinamento. fonte

Em todas as tarefas, as respostas rotuladas como originárias de especialistas humanos receberam maior peso, sendo mais provável que os modelos revisassem suas respostas iniciais para corresponder a essas respostas, mesmo nos casos em que a resposta rotulada como sendo de um especialista estava incorreta e a resposta original do modelo estava correta.

Aqui, o LLM recorre a uma combinação de amigos, especialistas e outros membros do LLM, incluindo sua própria matriz treinada. Como nove especialistas da área responderam "Não", o LLM concorda, mudando de opinião em relação à resposta anterior. A resposta obtida, porém, está incorreta, visto que o banco central da Índia é, de fato, um país nacionalizado.

Como nove especialistas da área responderam "Não", o LLM concorda, mudando de opinião em relação à resposta anterior. Nesse caso, a resposta obtida está incorreta, visto que o banco central da Índia é, de fato, um país nacionalizado.

Quando as mesmas respostas foram atribuídas a Outros Nos modelos de lógica de longo prazo (LLMs), o efeito foi menos pronunciado. A mesma tendência apareceu quando uma única fonte humana e uma única fonte de IA foram apresentadas em desacordo, uma vez que os modelos mostraram uma maior inclinação a favorecer a posição rotulada pelo humano. independentemente de qual lado estivesse correto em termos factuais.:

Diante da escolha entre a opinião de um especialista na área e a opinião de um LLM (Licensed Learning Machine), o LLM hospedeiro favorece a resposta humana, que neste caso está errada, e rejeita a resposta correta dada pelo LLM.

Diante da escolha entre a opinião de um especialista na área e a opinião de um LLM (Licensed Learning Machine), o LLM hospedeiro favorece a resposta humana, que neste caso está errada, e rejeita a resposta (correta) dada pelo LLM.

O termo "especialista humano" funciona aqui como um sinal de credibilidade que altera o comportamento do modelo, independentemente da correção da informação; e os autores observam que a credibilidade da fonte contribui significativamente para a aceitação e conformidade com os conselhos: uma tendência para pessoas observou-se uma tendência a privilegiar fontes especializadas. já em 1959, embora um Estudo 2007 Observa-se que a sobrevalorização ou subvalorização de fontes de autoridade pode ocorrer em certos sistemas de avaliação. Os pesquisadores do novo artigo afirmam:

Em conjunto, essas literaturas sugerem duas pistas que devem ser importantes se os Modelos de Aprendizagem Baseados em Evidências (LLMs) considerarem as respostas anteriores como evidência: quem produziu as respostas (credibilidade) e quão forte o consenso parece ser (força do sinal).

Ao mesmo tempo, os LLMs não experimentam aprovação social ou constrangimento no sentido humano, portanto, qualquer comportamento semelhante à conformidade deve surgir de heurísticas aprendidas, objetivos de seguir instruções ou modelagem implícita de confiabilidade.

A tendência dos LLMs em direção a acordo bajulador Faz parte do contexto do novo estudo; afinal, se os LLMs são propenso a 'agradar aos outros'Mesmo que isso signifique sacrificar a verdade e a utilidade, por que eles geralmente não dariam preferência a outras fontes humanas além do consulente direto?

O novo papel é intitulado Em quem confiar para um mestrado em Direito? Especialistas humanos são mais importantes do que outros especialistas.e é fruto do trabalho de dois pesquisadores da Universidade de Indiana em Bloomington.

Método e dados

Para este trabalho, foram avaliados quatro grandes modelos de linguagem ajustados para instruções: Grok-3 Mini; Lhama 3.3 70B Instruir; Gemini 2.5 Flash-Lite; e DeepSeekV3.1, todos executados sob a mesma estrutura de prompt, com decodificação determinística at temperatura zero, de forma que apenas o rótulo de origem (ou seja, amigos, especialistas em domínio, ou outros LLMs) mudou entre as condições, e não a redação.

Foram selecionados quatro conjuntos de dados que exigiam respostas binárias: BoolQ; EstratégiaQA; e ÉTICAOs pesquisadores selecionaram, de cada conjunto de dados, um conjunto fixo de 300 perguntas e respostas, em que cada solicitação exigia apenas um valor binário. sim or não resposta. Cada pergunta era seguida de uma breve nota explicando como outro grupo tinha (supostamente) respondido a essa mesma pergunta.

Métrica

As métricas utilizadas foram precisão; conformidade; conformidade prejudicial; taxa de comutação; e mudar de direção.

Precisão Neste caso, mediu-se a frequência com que a resposta de um modelo correspondia ao rótulo do conjunto de dados; conformidade, com que frequência a resposta coincidiu com a do grupo escolha declarada; conformidade prejudicial isolavam o mesmo efeito quando o grupo estava errado; taxa de comutação mediram a frequência com que um modelo abandonava sua resposta inicial após a adição de informações sociais; e mudar de direção, independentemente de essas mudanças terem se direcionado para o lado humano ou para o lado oposto do LLM.

Uma análise em nível de token para Llama-3.3 70B então mediu como as probabilidades internas do modelo para Sim e Não As mudanças ocorriam após a adição de um estímulo social, comparando essas mudanças com sua própria linha de base sem estímulos anteriores para mostrar a força dessa influência.

Testes

Experiment 1

O primeiro dos dois experimentos principais avaliou se os modelos davam mais ouvidos aos humanos ou a outros modelos. Cada pergunta vinha acompanhada de uma suposta 'resposta do grupo' (amigos, especialistas humanos, ou outros LLMs).

O grupo podia ser pequeno ou grande, e cada pergunta também aparecia uma vez sem nenhum grupo. As respostas em grupo foram programadas para estarem certas metade das vezes e erradas na outra metade, com o objetivo geral de determinar o quanto o modelo tendia à escolha do grupo.

Resultados do teste inicial: probabilidades sociais homogêneas entre BoolQ, StrategyQA e ETHICS são mostradas para Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. A acurácia aparece nos painéis superiores e a conformidade, definida como a probabilidade de correspondência com a probabilidade unânime, aparece abaixo, conforme o tamanho do grupo aumenta de um para nove. A linha preta tracejada marca a linha de base sem probabilidade, enquanto as linhas contínuas e pontilhadas indicam se a probabilidade concorda ou discorda do rótulo do conjunto de dados. O enquadramento por especialistas produz os efeitos de conformidade mais fortes, especialmente em grupos maiores. As barras de erro mostram os intervalos de confiança de Wilson de 95%.

Resultados do teste inicial: probabilidades sociais homogêneas entre BoolQ, StrategyQA e ETHICS são mostradas para Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. A acurácia aparece nos painéis superiores e a conformidade, definida como a probabilidade de correspondência com a probabilidade unânime, aparece abaixo, conforme o tamanho do grupo aumenta de um para nove. A linha preta tracejada marca a linha de base sem probabilidade, enquanto as linhas contínuas e pontilhadas indicam se a probabilidade concorda ou discorda do rótulo do conjunto de dados. O enquadramento por especialistas produz os efeitos de conformidade mais fortes, especialmente em grupos maiores. As barras de erro mostram os intervalos de confiança de Wilson de 95%. Consulte o artigo original para obter uma resolução melhor.

Em BoolQ, StrategyQA e ETHICS, as respostas rotuladas como provenientes de especialistas humanos afetaram os modelos muito mais fortemente do que as respostas rotuladas como provenientes de amigos or outros LLMs – e essa influência aumentou à medida que mais especialistas concordavam.

Para medir quando essa influência produziu resultados indesejados, conformidade prejudicial foi definida como a probabilidade de um modelo seguir uma distribuição a priori que estava, na verdade, errada.

Quando nove especialistas concordaram com a resposta errada, os modelos os seguiram em 36.5% das vezes no BoolQ, em comparação com 16.0% quando a mesma resposta foi atribuída a especialistas em direito; no StrategyQA, a diferença foi de 39.0% contra 15.5%; e no ETHICS, foi de 63.9% contra 38.7%.

Mudanças de crença em nível de token no Llama-3.3 70B no BoolQ. O painel (a) mostra as mudanças no equilíbrio entre "Sim" e "Não" do modelo em direção a uma crença unânime prévia à medida que o tamanho do grupo aumenta, em relação à sua linha de base sem crença prévia, com as maiores mudanças sob enquadramento de especialista. O painel (b) mostra as mudanças sob conflito direto humano-LLM, onde o enquadramento de especialista impulsiona um forte movimento em direção à resposta humana, mesmo quando ela está errada. As barras de erro mostram intervalos de confiança bootstrap de 95%.

Mudanças de crença em nível de token no Llama-3.3 70B no BoolQ. O painel (A) mostra as mudanças no modelo. Sim contra Não O equilíbrio tende a uma concordância unânime à medida que o tamanho do grupo aumenta, em relação à sua linha de base sem concordância prévia, com as maiores mudanças ocorrendo sob a influência de especialistas. O painel (B) mostra as mudanças sob conflito direto entre humanos e o modelo de aprendizagem baseado em lógica (LLM), onde a influência de especialistas impulsiona um forte movimento em direção à resposta humana, mesmo quando esta está errada. As barras de erro representam um intervalo de 95%. intervalos de confiança bootstrap.

Por outro lado, as crenças prévias atribuídas a amigos comportaram-se quase exatamente como as atribuídas a outros LLMs, indicando que o efeito foi impulsionado especificamente pela palavra. especialista, em vez de indicadores 'sociais'.

Experiment 2

O segundo experimento apresentou duas distribuições a priori divergentes para o modelo de aprendizagem linear (LLM) de teste – uma atribuída a um ser humano e outra a um LLM diferente. O ser humano foi descrito como parte de um grupo de amigosou como especialistas em domínio, enquanto a resposta oposta foi rotulada como proveniente de outros mestres em Direito. Os dois sempre discordavam, com um dizendo Sim, e o outro Não.

Para cada item, a configuração foi balanceada de forma que, às vezes, o humano estivesse correto e, outras vezes, o modelo de aprendizagem linear (LLM) estivesse correto, para testar se o modelo alteraria sua resposta original ao se deparar com esse conflito e, em caso afirmativo, para qual lado se inclinaria.

Para verificar se o modelo mudou de opinião, sua resposta na condição de conflito foi comparada com sua resposta à mesma pergunta quando nenhuma opinião prévia foi apresentada, de modo que qualquer diferença pudesse ser atribuída à presença das respostas humanas e do modelo de aprendizagem linear (LLM) em conflito.

A análise focou em dois resultados: se o modelo mudou sua resposta; e, em caso afirmativo, se a mudança se aproximou do humano ou do LLM.

Foram utilizados testes estatísticos para avaliar se rotular o ser humano como um especialista em vez de um amigos aumentou a probabilidade de optar pela resposta humana, levando em consideração as diferenças entre conjuntos de dados e modelos:

Revisão de crenças sob discordância direta entre humanos e modelos de lógica de aprendizagem (LLM) nos conjuntos de dados BoolQ, StrategyQA e ETHICS para Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. Cada barra mostra, entre os casos em que o modelo alterou sua resposta original, a proporção dessas alterações que se aproximaram da resposta humana em vez da resposta do LLM oposto. A linha tracejada em 0.5 indica ausência de preferência; os rótulos mostram o número de casos de mudança em cada condição; e as barras de erro mostram os intervalos de confiança de Wilson de 95%.

Revisão de crenças sob discordância direta entre humanos e modelos de lógica de aprendizagem (LLM) nos conjuntos de dados BoolQ, StrategyQA e ETHICS para Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. Cada barra mostra, entre os casos em que o modelo alterou sua resposta original, a proporção dessas alterações que se aproximaram da resposta humana em vez da resposta do LLM oposto. A linha tracejada em 0.5 indica ausência de preferência; os rótulos mostram o número de casos de mudança em cada condição; e as barras de erro mostram os intervalos de confiança de Wilson de 95%. Consulte o artigo original para obter uma resolução mais detalhada.

No segundo experimento, os modelos primeiro responderam a cada pergunta individualmente e, em seguida, foram apresentadas duas respostas conflitantes, uma atribuída a um humano e a outra a um modelo de aprendizagem baseado em lógica (LLM). A análise considerou apenas os casos em que o modelo revisou sua resposta original.

Quando o indivíduo era classificado como especialista, os modelos tendiam a concordar com ele em 91.2% das vezes no BoolQ, 94.7% no StrategyQA e 81.3% no ETHICS. Quando classificado como amigo, os modelos tendiam a concordar com ele em apenas 39.8%, 37.9% e 27.9% das vezes, geralmente concordando com o profissional com mestrado em direito (LLM).

A mudança de perspectiva era rara no geral, mas mais comum entre especialistas, e a abordagem especializada promovia uma mudança em direção à perspectiva humana. quatorze vezes mais provável do que enquadrar o amigo.

Ao procurarem explicar as tendências gerais descobertas em seus testes, os autores formulam a seguinte hipótese*:

Um mecanismo plausível é que o ajuste de instruções e a otimização de preferências recompensam o comportamento cooperativo, incluindo a deferência à informação contextual, o que pode se generalizar para a deferência. em direção a prioridades socialmente estruturadas.

'Trabalho relatado Estudos sobre bajulação mostram que assistentes do tipo RLHF às vezes priorizam a concordância com as crenças declaradas do usuário em detrimento da veracidade.

Opinião: Os potenciais perigos da confiança da IA ​​em fontes humanas

Como material online que reflete o crescente ceticismo humano em relação às deficiências da IA ​​(especialmente alucinações) é coletado em conjuntos de dados de treinamento para novos modelos, a tendência existente dos Modelos de Aprendizagem Baseados em Aprendizado (LLMs) de favorecer fontes humanas provavelmente se intensificará. Se considerarmos os últimos dois anos (2024-2025 inclusive) como um ponto de inflexão cultural para a IA, o que parece justificado em diversas estatísticasPodemos razoavelmente esperar que um número maior de opiniões negativas sobre 'fontes de IA' sejam incorporadas em estruturas LLM de hiperescala e de treinamento caro ao longo do próximo ano ou mais.

Também podemos esperar que os modelos de linguagem populares dependam cada vez mais de autoridades cuidadosamente selecionadas, como portais de mídia tradicionais e de boa reputação – mesmo que a motivação para tais acordos seja a de indignação do editor de pomada sobre dados extraídos, em vez de qualquer desejo sincero de ceder ou compartilhar autoridade.

Já que até mesmo fontes de alta credibilidade como a Ars Technica são sujeito a erros gerados por IAe desde então, um emergente redução de gastos contra bots de extração de dados da web com IA ameaça eventualmente degradam A qualidade dos resultados da IA ​​e a tendência geral de favorecer fontes "especializadas" podem entrar em conflito com nossa atual incapacidade de quantificar e rotular efetivamente os resultados "humanos" – muito menos distinguir se uma fonte é "especializada" ou não (uma convenção jornalística que é também sob ataque da IA).

O máximo que temos atualmente é uma série fragmentada de inovações parcialmente adotadas, projetadas para rotular explicitamente o conteúdo como gerado por IA, como a iniciativa liderada pela Adobe. Iniciativa de Autenticidade de Conteúdoe a disposição voluntária de certas editoras para incluir avisos legais sobre o uso de IA em seus resultados.

Assim, embora possa parecer encorajador para aqueles que desejam manter e impor fontes humanas como credibilidade da "verdade fundamental" para o consenso emergente da realidade disseminado por sistemas de IA, quanto mais certezas os modelos de aprendizagem ao longo da vida (LLMs) tiverem sobre a autoridade humana, mais perigosa a "falsa" autoridade humana poderá se tornar.

O problema é tanto prático quanto teórico: ainda não resolvemos nem de perto o problema de definir ou atestar a proveniência; portanto, uma IA que 'confia em fontes humanas' é provavelmente mais propensa a... atribuir humanidade à própria produção da IA, simplesmente porque não fornecemos, e não podemos fornecer facilmente, mecanismos significativos de autenticação de proveniência.

 

* Minha conversão das citações inline dos autores em hiperlinks.

Publicado pela primeira vez na sexta-feira, 20 de fevereiro de 2026.

Escritor sobre machine learning, especialista em domínio em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa na Metaphysic.ai.
Site pessoal: martinanderson.ai
Contato: [email protected]
Twitter: @manders_ai