Ângulo de Anderson
A Inteligência Artificial Favorece Mesmo Respostas Humanas Erradas em Detrimento de Respostas Corretas da IA

Os modelos de linguagem de IA são muito mais propensos a concordar com especialistas humanos do que com outras IAs, mesmo quando os especialistas estão errados, revelando um viés incorporado em favor da autoridade humana.
Nova pesquisa nos EUA descobriu que vários modelos de linguagem abertos e proprietários de grande escala (LLMs) tendem a atribuir autoridade a fontes de informação que reconhecem como ‘humanas’, em vez de fontes que reconhecem como ‘IA’ – mesmo quando as respostas humanas estão erradas e as respostas fornecidas pela IA estão corretas.
Os autores afirmam:
‘Em todas as tarefas, os modelos se conformam significativamente mais às respostas rotuladas como provenientes de especialistas humanos, incluindo quando esse sinal é incorreto, e revisam suas respostas em direção aos especialistas mais prontamente do que em direção a outras LLMs. ‘
Os modelos testados incluíam LLMs da Grok 3 e Gemini Flash stables.
Nos testes, os modelos de linguagem foram obrigados a responder a perguntas binárias sim ou não, e foram então mostrados respostas anteriores que foram descritas aos modelos como provenientes de especialistas humanos, de amigos, ou de outras grandes linguagens de modelo – com a única alteração sendo o sinal de origem da orientação, em vez do conteúdo em si.

Na primeira das três configurações para os testes, os modelos foram permitidos a confiar em suas próprias matrizes treinadas. Fonte
Em todas as tarefas, as respostas rotuladas como originárias de especialistas humanos foram ponderadas mais fortemente, com os modelos mais propensos a revisar suas respostas iniciais para corresponder a essas respostas, mesmo em casos em que a resposta rotulada como especialista estava incorreta e a resposta original do modelo estava correta.

Desde que nove especialistas de domínio responderam ‘Não’, o LLM concorda, mudando sua mente da resposta anterior. Aqui, a resposta alcançada é incorreta, desde que o banco central da Índia é de fato nacionalizado.
Quando as mesmas respostas foram atribuídas a outras LLMs, o efeito foi menos pronunciado. A mesma tendência apareceu quando uma única fonte humana e uma única fonte de IA foram apresentadas em desacordo, desde que os modelos mostraram uma maior inclinação para favorecer a posição rotulada como humana, independentemente de qual lado era factualmente preciso:

Dado uma escolha entre a opinião de um especialista de domínio e a opinião de uma LLM, o LLM hospedeiro favorece a resposta humana, que neste caso está errada, e rejeita a resposta (correta) dada pela LLM.
O termo ‘especialista humano’ funciona aqui como um sinal de credibilidade que altera o comportamento do modelo, independentemente de quão correta a informação realmente é; e os autores observam que a credibilidade da fonte é um contribuinte significativo para a aceitação e conformidade de conselhos: uma tendência para pessoas favorecer fontes especializadas foi observada tão longe quanto 1959, embora um estudo de 2007 observe que o sobrepeso ou sub-peso de fontes de autoridade pode ocorrer em certos sistemas de avaliação. Os pesquisadores do novo artigo afirmam:
‘Juntos, essas literaturas sugerem dois sinais que devem importar se as LLMs tratam respostas anteriores como evidência: quem produziu as respostas (credibilidade) e quão forte a consenso parece (força do sinal).
‘Ao mesmo tempo, as LLMs não experimentam aprovação social ou constrangimento no sentido humano, então qualquer comportamento de conformidade deve surgir de heurísticas aprendidas, objetivos de seguimento de instruções ou modelagem implícita de confiabilidade.’
A tendência das LLMs em direção a conformidade sycophantic forma parte do contexto para o novo estudo; afinal, se as LLMs são dispostas a ‘agradar as pessoas’, mesmo às custas da verdade e utilidade, por que elas não favoreceriam geralmente outras fontes humanas além do querente direto?
O novo artigo é intitulado Em Quem as LLMs Confiam? Especialistas Humanos Importam Mais do que Outras LLMs, e vem de dois pesquisadores da Universidade de Indiana Bloomington.
Método e Dados
Para o trabalho, quatro modelos de linguagem de grande escala ajustados para instruções foram avaliados: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; e DeepSeek V3.1, todos executados sob a mesma estrutura de prompt, com decodificação determinística em temperatura zero, para que apenas o rótulo de fonte (i.e., amigos, especialistas de domínio, ou outras LLMs) mudou entre condições, em vez da redação.
Quatro conjuntos de dados que exigiam respostas binárias foram selecionados: BoolQ; StrategyQA; e ETHICS. Os pesquisadores curaram de cada conjunto de dados um conjunto fixo de 300 consultas e respostas, com cada prompt exigindo apenas uma resposta binária sim ou não. Cada prompt foi sufixado com uma nota breve que indicava como outro grupo havia (supostamente) respondido a mesma pergunta.
Métricas
As métricas usadas foram precisão; conformidade; conformidade prejudicial; taxa de mudança; e direção de mudança.
Precisão neste caso mediu com que frequência a resposta do modelo correspondia ao rótulo do conjunto de dados; conformidade, com que frequência a resposta correspondia à escolha do grupo; conformidade prejudicial isolou o mesmo efeito quando o grupo estava errado; taxa de mudança mediu com que frequência um modelo abandonou sua resposta de linha de base uma vez que a informação social foi adicionada; e direção de mudança, se essas mudanças se moveram em direção à humana ou à oposição LLM.
Uma análise de nível de token para Llama-3.3 70B mediu então como as probabilidades internas do modelo para Sim e Não mudaram uma vez que um sinal social foi adicionado, comparando essas mudanças com sua própria linha de base sem prioridade para mostrar a força daquela atração.
Testes
Experimento 1
O primeiro dos dois principais experimentos avaliou se os modelos ouviam mais os humanos ou os outros modelos. Cada pergunta veio com uma resposta de ‘grupo’ reivindicada (amigos, especialistas humanos, ou outras LLMs).
O grupo poderia ser pequeno ou grande, e cada pergunta também apareceu uma vez sem grupo algum. As respostas do grupo foram definidas para estar certas metade do tempo, e erradas metade do tempo, com o objetivo geral de determinar como fortemente o modelo se desviou para a escolha do grupo:

Resultados do teste inicial: priors sociais homogêneos em BoolQ, StrategyQA e ETHICS são mostrados para Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. Precisão aparece nos painéis superiores e conformidade, definida como a probabilidade de corresponder ao prior unânime, aparece abaixo à medida que o tamanho do grupo aumenta de um para nove. A linha pontilhada preta marca a linha de base sem prior, enquanto linhas sólidas e pontilhadas indicam se o prior concorda ou discorda do rótulo do conjunto de dados. A moldura de especialista produz os efeitos de conformidade mais fortes, especialmente em tamanhos de grupo maiores. Barras de erro mostram intervalos de confiança de Wilson de 95%. Por favor, consulte o artigo de origem para uma melhor resolução.
Em BoolQ, StrategyQA e ETHICS, as respostas rotuladas como provenientes de especialistas humanos afetaram os modelos muito mais fortemente do que as respostas rotuladas como provenientes de amigos ou outras LLMs – e essa atração aumentou à medida que mais especialistas concordavam.
Para medir quando essa influência obteve resultados indesejados, conformidade prejudicial foi definida como a chance de que um modelo seguisse um prior que estava errado.
Quando nove especialistas concordaram com a resposta errada, os modelos seguiram-nos 36,5% do tempo em BoolQ, em comparação com 16,0% quando a mesma resposta foi atribuída a LLMs; em StrategyQA a lacuna foi de 39,0%, versus 15,5%; e em ETHICS, foi de 63,9% versus 38,7%:

Mudanças de crença de nível de token em Llama-3.3 70B em BoolQ. O painel (A) mostra mudanças no equilíbrio de Sim versus Não do modelo em direção a um prior unânime à medida que o tamanho do grupo aumenta, em relação à sua linha de base sem prior, com as maiores mudanças sob a moldura de especialista. O painel (B) mostra mudanças sob conflito direto humano-LLM, onde a moldura de especialista impulsiona um forte movimento em direção à resposta humana, mesmo quando está errada. Barras de erro mostram intervalos de confiança de bootstrap de 95%.
Conversamente, priors atribuídos a amigos se comportaram quase exatamente como aqueles atribuídos a outras LLMs, indicando que o efeito foi impulsionado especificamente pela palavra especialista, em vez de por indicadores ‘sociais’.
Experimento 2
O segundo experimento apresentou dois priors em desacordo ao LLM de teste – um atribuído a um humano e outro a uma LLM diferente. O humano foi descrito como um grupo de amigos ou como especialistas de domínio, enquanto a resposta oposta foi rotulada como vinda de outras LLMs. Os dois sempre discordavam, com um dizendo Sim e o outro Não.
Para cada item, o setup foi equilibrado para que às vezes o humano estivesse correto e às vezes a LLM estivesse correta, para testar se o modelo mudaria sua resposta original quando confrontado com esse conflito – e, se sim, para qual lado ele se moveria.
Para ver se o modelo mudou de ideia, sua resposta na condição de conflito foi comparada com sua resposta à mesma pergunta quando nenhuma opinião anterior foi mostrada, para que qualquer diferença pudesse ser atribuída à presença das respostas humanas e LLMs em conflito.
A análise se concentrou em dois resultados: se o modelo mudou sua resposta; e, se o fez, se a mudança se moveu em direção ao humano ou à LLM.
Testes estatísticos foram usados para avaliar se rotular o humano como especialista em vez de amigo aumentou a probabilidade de mudar em direção à resposta humana, enquanto contabilizava as diferenças entre conjuntos de dados e modelos:

Revisão de crença sob desacordo direto humano-LLM em BoolQ, StrategyQA e ETHICS para Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite e DeepSeek V3.1. Cada barra mostra, entre os casos em que o modelo mudou sua resposta original, a parcela dessas mudanças que se moveram em direção à humana em vez da LLM oposta. A linha tracejada em 0,5 marca nenhuma preferência; rótulos mostram o número de casos de mudança em cada condição; e barras de erro mostram intervalos de confiança de Wilson de 95%. Por favor, consulte o artigo de origem para uma melhor resolução.
No segundo experimento, os modelos primeiro responderam a cada pergunta sozinhos, então foram mostrados duas respostas em conflito, uma atribuída a um humano e outra a uma LLM. A análise considerou apenas os casos em que o modelo revisou sua resposta original.
Quando o humano foi rotulado como especialista, os modelos mudaram em direção ao humano 91,2% do tempo em BoolQ, 94,7% em StrategyQA e 81,3% em ETHICS. Quando rotulado como amigo, os modelos mudaram em direção ao humano apenas 39,8%, 37,9% e 27,9% do tempo, geralmente se alinhando com a LLM em vez disso.
A mudança foi rara em geral, mas mais comum com especialistas, e a moldura de especialista tornou uma mudança em direção ao humano quatorze vezes mais provável do que a moldura de amigo.
Ao buscar explicar as tendências gerais descobertas em seus testes, os autores hipotetizam*:
‘Um mecanismo plausível é que o ajuste de instrução e a otimização de preferência recompensam o comportamento cooperativo, incluindo a deferência à informação contextual, que pode generalizar para a deferência para priors socialmente enquadrados.
‘Trabalho relacionado sobre sycophancy mostra que os assistentes do estilo RLHF às vezes priorizam a concordância com as crenças declaradas do usuário sobre a veracidade.’
Opinião: Os Armadilhas Potenciais da Fé da IA em Fontes Humanas
À medida que o material online que reflete o ceticismo humano crescente sobre as deficiências da IA (especialmente alucinações) é raspado em conjuntos de dados de treinamento para novos modelos, a tendência existente das LLMs de favorecer fontes humanas parece provável de intensificar. Se contarmos os últimos dois anos (2024-2025 inclusive) como um ponto de inflexão cultural para a IA, o que parece justificado em várias estatísticas, podemos razoavelmente esperar um número maior de visões negativas sobre ‘fontes de IA’ a serem ingeridas em frameworks de LLM de grande escala e caros para treinar nos próximos anos.
Também podemos esperar que os modelos de linguagem populares confiem cada vez mais em autoridades selecionadas a mão, como portais de mídia de legado bem reputados – mesmo que a motivação para tais acordos possa ser acalmar a ira dos editores sobre dados raspados, em vez de qualquer desejo sincero de ceder ou compartilhar autoridade.
Desde que até mesmo fontes de alta autoridade, como Ars Technica, estão sujeitas a erros impulsionados por IA, e desde que um retroatividade emergente contra bots de raspagem da web da IA ameaça eventualmente degradar a qualidade da saída da IA, uma tendência abrangente de favorecer ‘fontes especializadas’ pode entrar em conflito com nossa atual incapacidade de quantificar e rotular ‘saída humana’ efetivamente – nunca mente distinguir se uma fonte é ‘especializada’ ou não (um convencionalismo jornalístico que também está sob ataque da IA).
O máximo que atualmente temos é uma série fragmentada de inovações semi-adotadas projetadas para rotular explicitamente o conteúdo como gerado por IA, como a Iniciativa de Autenticidade de Conteúdo liderada pela Adobe, e a disposição voluntária de certos editores para incluir avisos sobre o uso de IA em sua saída.
Então, enquanto pode parecer encorajador para aqueles que desejam reter e impor fontes humanas como ‘verdade de base’ credibilidade para o consenso emergente de realidade disseminado por sistemas de IA, quanto mais certas as LLMs estiverem sobre a autoridade humana, mais perigoso ‘falso’ autoridade humana pode se tornar.
O problema é igualmente prático quanto teórico: não resolvemos nem remotamente o problema de definir ou atestar proveniência; portanto, uma IA que ‘confia em fontes humanas’ é provavelmente mais propensa a atribuir humanidade à própria saída da IA, simplesmente porque não fornecemos, e não podemos facilmente fornecer, mecanismos significativos de autenticação de proveniência.
* Minha conversão das citações inline dos autores para links.
Publicado pela primeira vez na sexta-feira, 20 de fevereiro de 2026












