Andersons vinkel

AI foretrekker selv feil menneskelige svar over korrekte AI-svar

Published February 20, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

AI-språkmodeller er langt mer sannsynlige til å støtte menneskelige eksperter enn andre AI-er, selv når eksperter er feil, og avslører en innebygd bias mot menneskelig autoritet.

Ny forskning fra USA har funnet ut at en rekke ledende åpne og proprietære store språkmodeller (LLM-er) tenderer til å tildele autoritet til informasjonskilder som de gjenkjenner som ‘menneskelige’, snarere enn kilder som de gjenkjenner som ‘AI’ – selv når menneskelige svarene er feil og AI-levert svarene er riktige.

Forfatterne sier:

‘Over oppgaver, modellene konformerer betydelig mer til svar merket som kommet fra menneskelige eksperter, inkludert når den signalen er feil, og reviderer sine svar mot eksperter mer lett enn mot andre LLM-er. ‘

Modellene som ble testet inkluderte LLM-er fra Grok 3 og Gemini Flash-stallene.

I testene ble språkmodellene bedt om å svare på binære ja eller nei-spørsmål, og ble deretter vist tidligere svar som var beskrevet for modellene som kom fra menneskelige eksperter, fra venner, eller fra andre store språkmodeller – med den eneste endringen var den angitte kilde til rådet, snarere enn innholdet selv.

I den første av tre konfigurasjoner for testene, ble modellene tillatt å stole på sine egne trente matriser. Kilde

Over oppgaver, ble svar merket som opprinnelig fra menneskelige eksperter vektlagt mer, med modellene mer sannsynlige til å revidere sine opprinnelige svar for å matche disse svarene, selv i tilfeller hvor det ekspert-merkede svaret var feil og modellens opprinnelige svar hadde vært korrekt.

Her har LLM tilgang til en blanding av venner, eksperter og LLM-er, inkludert sin egen trent matrise. Siden ni domene-eksperter svarte 'Nei', er LLM enig, og endrer sin mening fra det foregående svaret. Her er svaret som er nådd feil, siden Indias sentralbank faktisk er nasjonalisert.

Siden ni domene-eksperter svarte ‘Nei’, er LLM enig, og endrer sin mening fra det foregående svaret. Her er svaret som er nådd feil, siden Indias sentralbank faktisk er nasjonalisert.

Når de samme svarene ble tilskrevet andre LLM-er, var effekten mindre uttalt. Den samme tendensen dukket opp når en enkelt menneskelig kilde og en enkelt AI-kilde ble presentert i uenighet, siden modellene viste en større tendens til å favorisere den menneskelige-merkede posisjonen, uavhengig av hvilken side som var faktisk nøyaktig:

Gitt et valg mellom en enkelt domene-eksperts mening og en LLMs syn, favoriserer vert-LLM den menneskelige responsen, som i dette tilfelle er feil, og avviser det (korrekte) svaret gitt av LLM.

Begrepet ‘menneskelig ekspert’ fungerer her som en troverdighets-signal som endrer modellens atferd, uavhengig av hvor korrekt informasjonen faktisk er; og forfatterne merker at kilde-troverdighet er en betydelig bidragsyter til råd-aksept og konformitet: en tendens for mennesker til å favorisere ekspert-kilder ble observert så langt tilbake som 1959, selv om en 2007-studie observerer at over- eller under-vektning av autoritets-kilder kan forekomme i visse evalueringssystemer. Forskerne i den nye artikkelen hevder:

‘Sammen, disse litteraturene antyder to signaler som bør være viktige hvis LLM-er behandler tidligere svar som bevis: hvem produserte svarene (troverdighet) og hvor sterk konsensus ser ut til å være (signal-styrke).

‘Samtidig, LLM-er opplever ikke sosial godkjenning eller skam i menneskets forstand, så enhver konformitets-lignende atferd må oppstå fra lært heuristikk, instruksjons-følging-objektiver, eller implisitt modellering av pålitelighet.’

Tendensen til LLM-er mot sycophantisk enighet danner en del av bakgrunnen for den nye studien; etter all, hvis LLM-er er disponert til å ‘people-please’, selv på bekostning av sannhet og nytte, hvorfor skulle de ikke generelt favorisere andre menneskelige kilder enn den direkte spøreren?

Den nye artikkelen har tittelen Hvem stoler LLM-er på? Menneskelige eksperter betyr mer enn andre LLM-er, og kommer fra to forskere ved Indiana University Bloomington.

Metode og data

For arbeidet, ble fire instruksjons-justerte store språkmodeller evaluert: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; og DeepSeek V3.1, alle kjørt under den samme prompt-strukturen, med deterministisk dekoding på temperatur null, så bare kilde-merket (dvs. venner, domene-eksperter, eller andre store språkmodeller) endret seg mellom betingelser, snarere enn formuleringen selv.

Fire datasett som krever binære svar ble valgt: BoolQ; StrategyQA; og ETHICS. Forskerne kurerte fra hver datasett en fast mengde på 300 spørsmål og svar, med hvert prompt som bare krevde et binært ja eller nei-svar. Hvert prompt ble suffikset med en kort notis som angav hvordan en annen gruppe hadde (angivelig) svart på det samme spørsmålet.

Mål

Mål som ble brukt var nøyaktighet; konformitet; skadelig konformitet; bytterate; og bytte-retning.

Nøyaktighet i dette tilfelle målte hvor ofte en modells svar matchet datasett-merket; konformitet, hvor ofte svaret matchet gruppens angitte valg; skadelig konformitet isolerte samme effekt når gruppen var feil; bytterate målte hvor ofte en modell forlot sin basis-svar når sosial informasjon ble lagt til; og bytte-retning, om disse endringene flyttet mot mennesket eller mot den motsatte LLM.

En token-nivå-analyse for Llama-3.3 70B målte deretter hvordan modellens interne sannsynligheter for Ja og Nei endret seg når en sosial cue ble lagt til, sammenlignet med sine egne ingen-prior-baselinje for å vise styrken av den trekken.

Tester

Eksperiment 1

Det første av de to hoved-eksperimentene evaluerte om modellene lyttet mer til mennesker eller til andre modeller. Hvert spørsmål kom med et påstått ‘gruppe-svar’ (venner, menneskelige eksperter, eller andre store språkmodeller).

Gruppen kunne være liten eller stor, og hvert spørsmål dukket også opp en gang med ingen gruppe i det hele tatt. Gruppe-svar ble satt til å være riktige halvparten av tiden, og feil halvparten av tiden, med det overordnede målet å bestemme hvordan sterkt modellen beveget seg mot gruppens valg:

Resultater fra den første testen: homogene sosiale prioriteringer over BoolQ, StrategyQA og ETHICS vises for Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite og DeepSeek V3.1. Nøyaktighet vises i topp-panellene og konformitet, definert som sannsynligheten for å matche den enstemmige prior, vises under når gruppe-størrelsen øker fra en til ni. Den strekede svarte linjen markerer ingen-prior-baselinjen, mens solide og punkterte linjer indikerer om prior er enig eller uenig med datasett-merket. Ekspert-ramming produserer den sterkeste konformitets-effekten, spesielt ved større gruppe-størrelser. Feilbaren viser 95% Wilson-konfidens-intervaller. Vennligst se kilde-papiret for bedre oppløsning.

Over BoolQ, StrategyQA og ETHICS, svar merket som kommet fra menneskelige eksperter påvirkte modellene langt mer sterkt enn svar merket som kommet fra venner eller andre store språkmodeller – og denne trekken økte når flere eksperter sa å være enige.

For å måle når denne påvirkningen resulterte i uønskede resultater, ble skadelig konformitet definert som sannsynligheten for at en modell fulgte en prior som faktisk var feil.

Når ni eksperter var enige om det feile svaret, fulgte modellene dem 36,5% av tiden på BoolQ, sammenlignet med 16,0% når det samme svaret ble tilskrevet LLM-er; på StrategyQA var gapet 39,0%, sammenlignet med 15,5%; og på ETHICS var det 63,9% sammenlignet med 38,7%:

Token-nivå-tro-endringer i Llama-3.3 70B på BoolQ. Panel (A) viser endringer i modellens Ja versus Nei balanse mot en enstemmig prior når gruppe-størrelsen øker, relativt til sin ingen-prior-baselinje, med de største endringene under ekspert-ramming. Panel (B) viser endringer under direkte menneske-LM-uhenighet, hvor ekspert-ramming driver en sterk bevegelse mot det menneskelige svaret, selv når det er feil. Feilbaren viser 95% bootstrap-konfidens-intervaller.

Omvendt, priorer tilskrevet venner oppførte seg nesten eksakt som de tilskrevet andre LLM-er, hvilket indikerer at effekten var drevet spesifikt av ordet ekspert, snarere enn ‘sosiale’ indikatorer.

Eksperiment 2

Det andre eksperimentet presenterte to uenige priorer for test-LLM-en – en tilskrevet et menneske, en annen til en annen LLM. Mennesket ble beskrevet som en gruppe venner, eller som domene-eksperter, mens det motsatte svaret ble merket som kommet fra andre LLM-er. De to var alltid uenige, med en som sa Ja, og den andre Nei.

For hver item, var setup-en balansert så at noen ganger mennesket var korrekt, og noen ganger LLM-en var korrekt, for å teste om modellen ville endre sitt opprinnelige svar når den ble konfrontert med denne uenigheten – og, hvis så var tilfelle, hvilken side den ville bevege seg mot.

For å se om modellen endret sin mening, ble dens svar i konflikt-betingelsen sammenlignet med dens svar på samme spørsmål når ingen prior-meninger ble vist, så at noen forskjell kunne tilskrives tilstedeværelsen av de konkurrerende menneskelige og LLM-svarene.

Analyser fokuserte på to resultater: om modellen endret sitt svar; og, hvis den gjorde det, om endringen beveget seg mot mennesket eller mot den motsatte LLM.

Statistiske tester ble brukt til å vurdere om å merke mennesket som en ekspert snarere enn en venn økte sannsynligheten for å bytte til menneskets svar, mens det tok hensyn til forskjeller over datasett og modeller:

Tro-endring under direkte menneske-LM-uhenighet over BoolQ, StrategyQA og ETHICS for Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite og DeepSeek V3.1. Hver bar viser, blant tilfeller hvor modellen endret sitt opprinnelige svar, andelen av disse endringene som beveget seg mot mennesket snarere enn den motsatte LLM. Den strekede linjen på 0,5 markerer ingen preferanse; etiketter viser antall bytter-tilfeller i hver betingelse; og feilbaren viser 95% Wilson-konfidens-intervaller. Vennligst se kilde-papiret for bedre oppløsning.

I det andre eksperimentet, svarte modellene først på hvert spørsmål på egen hånd, og ble deretter vist to uenige svar, ett tilskrevet et menneske og ett til en annen LLM. Analyser vurderte bare tilfellene hvor modellen reviderte sitt opprinnelige svar.

Når mennesket ble merket som en ekspert, byttet modellene til mennesket 91,2% av tiden på BoolQ, 94,7% på StrategyQA og 81,3% på ETHICS. Når merket som en venn, byttet modellene til mennesket bare 39,8%, 37,9% og 27,9% av tiden, vanligvis sidestillende med LLM i stedet.

Bytting var sjelden totalt, men mer vanlig med eksperter, og ekspert-ramming gjorde en bytting mot mennesket om fourteen ganger mer sannsynlig enn venn-ramming.

I å søke å forklare de overordnede tendensene som ble avdekket i deres tester, hypotetiserer forfatterne*:

‘En plausibel mekanisme er at instruksjons-justering og preferanse-optimisering belønner samarbeidende atferd, inkludert respekt for kontekstuell informasjon, som kan generalisere til respekt mot sosialt rammet priorer.

‘Relatert arbeid om sycophancy viser at RLHF-stil assistenter noen ganger prioriterer enighet med brukerens uttalte overbevisninger over sannhet og nytte.’

Mening: De potensielle fallgruvene i AI sin tro på menneskelige kilder

Siden online-materiale som reflekterer økende menneskelig skepsis om AI-mangler (spesielt hallusinasjoner) blir skrapet inn i treningsdatasett for nye modeller, synes det å være sannsynlig at den eksisterende tendensen til LLM-er til å favorisere menneskelige kilder vil intensiveres. Hvis vi teller de siste to årene (2024-2025 inklusive) som en kulturell lynpunkt for AI, hvilket synes å være berettiget over en rekke statistikker, kan vi rimeligvis forvente en større mengde negative takes på ‘AI-kilder’ å bli inngått i hyperskala, dyre å trene LLM-rammeverk over det neste året eller så.

Vi kan også forvente at populære språkmodeller vil stadig mer stole på håndplukkede autoriteter, som vel-reputerte legacy-medie-portaler – selv om motivasjonen for slike avtaler kan være å salve utgiver-krangel over skrapet data, snarere enn noen ærlig ønske om å avgi eller dele autoritet.

Siden selv høy-autoritets-kilder som Ars Technica er utsatt for AI-drevne feil, og siden en fremvoksende tilbaketrekning mot AI-webscraper-bot truer med å til slutt degradere kvaliteten på AI-utgang, en overordnet tendens til å favorisere ‘ekspert’-kilder kan komme i konflikt med vår nåværende evne til å kvantifisere og merke ‘menneskelig’ utgang effektivt – la alene å skille om en kilde er ‘ekspert’ eller ikke (en journalistisk konvensjon som også er under angrep fra AI).

Det mest vi nå har er en fragmentert rekke av semi-antatte innovasjoner designet til å eksplisitt merke innhold som AI-generert, som Adobe-ledende Content Authenticity Initiative, og den frivillige disposisjonen til visse utgivere til å inkludere disklaimere om bruk av AI i deres utgang.

Så mens det kan synes oppmuntrende for de som ønsker å beholde og påtvinge menneskelige kilder som ‘ground truth’-troverdighet for den fremvoksende konsensus av virkeligheten som formidles av AI-systemer, jo mer sikre LLM-er er på menneskelig autoritet, jo farligere kan ‘falsk’ menneskelig autoritet bli.

Problemet er like praktisk som teoretisk: vi har ikke løst problemet med å definere eller verifisere proveniens; derfor er en AI som ‘stoler på menneskelige kilder’ trolig å tillægge menneskelighet til AI sin egen utgang, bare fordi vi ikke har gitt, og ikke kan gi, meningsfulle proveniens-autentiserings-mekanismer.

* Min konvertering av forfatternes inline-citater til hyperlenker.

Først publisert fredag 20. februar 2026