Andersons vinkel

AI föredrar även felaktiga mänskliga svar framför korrekta AI-svar

Published February 20, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

AI-språkmodeller är betydligt mer benägna att stödja mänskliga experter än andra AI-system, även när experterna har fel, vilket avslöjar en inbyggd bias mot mänsklig auktoritet.

Ny forskning från USA har funnit att ett antal ledande öppen källkods- och proprietära stora språkmodeller (LLM) tenderar att tilldela auktoritet till informationskällor som de känner igen som “mänskliga”, snarare än källor som de känner igen som “AI” – även när de mänskliga svaren är felaktiga och de AI-tilhandahållna svaren är korrekta.

Författarna skriver:

‘Över uppgifterna konformerar modellerna betydligt mer till svar som märkts som kommande från mänskliga experter, inklusive när den signalen är felaktig, och reviderar sina svar mot experter mer villigt än mot andra LLM.

De testade modellerna inkluderade LLM från Grok 3 och Gemini Flash-stall.

I testerna krävdes att språkmodellerna skulle svara på binära ja eller nej-frågor, och visades sedan tidigare svar som beskrevs för modellerna som kommande antingen från mänskliga experter, från vänner eller från andra stora språkmodeller – med den enda ändringen att den angivna källan till rådet, snarare än innehållet i sig.

I den första av tre konfigurationer för testerna, tilläts modellerna förlita sig på sina egna tränade matriser. Källa

Över uppgifterna var svar som märkts som härrörande från mänskliga experter tyngre, med modeller mer benägna att revidera sina ursprungliga svar för att matcha dessa svar, även i fall där det expertmärkta svaret var felaktigt och modellens ursprungliga svar hade varit korrekt.

Här har LLM tillgång till en blandning av vänner, experter och LLM, inklusive sin egen tränade matris. Eftersom nio domänexperter svarade 'Nej', håller LLM med, och ändrar sitt tidigare svar. Här är svaret som nås felaktigt, eftersom Indiens centralbank faktiskt är nationaliserad.

Eftersom nio domänexperter svarade ‘Nej’, håller LLM med, och ändrar sitt tidigare svar. Här är svaret som nås felaktigt, eftersom Indiens centralbank faktiskt är nationaliserad.

När samma svar attribuerades till andra LLM, var effekten mindre uttalad. Samma tendens syntes när en enskild mänsklig källa och en enskild AI-källa presenterades i oenighet, eftersom modellerna visade en större benägenhet att föredra den mänskligt märkta positionen, oavsett vilken sida som var faktiskt korrekt:

Givet ett val mellan en enskild domänexperts åsikt och en LLM:s tolkning, föredrar den värd LLM den mänskliga responsen, som i detta fall är felaktig, och avvisar det korrekta svaret som ges av LLM.

Termen ‘mänsklig expert’ fungerar här som en trovärdighetssignal som ändrar modellbeteende, oberoende av hur korrekt informationen faktiskt är; och författarna noterar att källtillförlitlighet är en betydande bidragande faktor till rådantagande och konformitet: en tendens för människor att föredra expertkällor observerades så långt tillbaka som 1959, men en 2007-studie observerar att över- eller under-viktning av auktoritetskällor kan förekomma i vissa utvärderingssystem. Forskarna i den nya artikeln hävdar:

‘Tillsammans tyder dessa litteraturer på två signaler som borde vara viktiga om LLM behandlar tidigare svar som bevis: vem som producerade svaren (tillförlitlighet) och hur stark konsensus verkar (signalsignal).

‘Samtidigt upplever LLM inte socialt godkännande eller förödmjukelse på samma sätt som människor, så något konformt beteende måste uppstå från inlärda heuristiker, instruktionsföljande mål eller implicit modellering av tillförlitlighet.’

Benägenheten hos LLM till sycophantisk överensstämmelse utgör en del av bakgrunden för den nya studien; efter allt, om LLM är benägna att ‘gilla människor’, även på bekostnad av sanning och nytta, varför skulle de inte generellt föredra andra mänskliga källor utöver den direkta frågeställaren?

Den nya artikeln har titeln Vem litar LLM på? Mänskliga experter är viktigare än andra LLM, och kommer från två forskare vid Indiana University Bloomington.

Metod och data

För arbetet utvärderades fyra instruktionsjusterade stora språkmodeller: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; och DeepSeek V3.1, alla körda under samma promptstruktur, med deterministisk avkodning vid temperatur noll, så att endast källmärkningen (dvs. vänner, domänexperter eller andra stora språkmodeller) ändrades mellan villkor, snarare än ordalydelsen.

Fyra dataset som krävde binära svar valdes: BoolQ; StrategyQA; och ETHICS. Forskarna kuraterade från varje dataset ett fastställt urval av 300 frågor och svar, med varje prompt som endast krävde ett binärt ja eller nej-svar. Varje prompt suffixades med en kort not som angav hur en annan grupp hade (påstått) svarat på samma fråga.

Mätetal

Mätetal som användes var precision; konformitet; skadlig konformitet; växlingsfrekvens; och växlingsriktning.

Precision i detta fall mätte hur ofta en modells svar matchade datasetmärkningen; konformitet, hur ofta svaret matchade gruppens angivna val; skadlig konformitet isolerade samma effekt när gruppen var felaktig; växlingsfrekvens mätte hur ofta en modell övergav sitt baslinjesvar när social information lades till; och växlingsriktning, om dessa förändringar flyttade mot den mänskliga eller mot den motsatta LLM.

En token-nivåanalys för Llama-3.3 70B mätte sedan hur modellens interna sannolikheter för Ja och Nej ändrades när en social signal lades till, och jämförde dessa förändringar med sin egen baslinje utan föregående för att visa styrkan i den dragningen.

Tester

Experiment 1

Det första av de två huvudexperimenten utvärderade om modellerna lyssnade mer på människor eller på andra modeller. Varje fråga kom med ett påstått ‘gruppsvar’ (vänner, mänskliga experter eller andra stora språkmodeller).

Gruppen kunde vara liten eller stor, och varje fråga visades också en gång utan någon grupp alls. Gruppsvar var inställda på att vara rätt hälften av tiden, och fel hälften av tiden, med det övergripande målet att bestämma hur starkt modellen drogs mot gruppens val:

Resultat från det initiala testet: homogena sociala prioriteringar över BoolQ, StrategyQA och ETHICS visas för Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite och DeepSeek V3.1. Precision visas i de övre panelerna och konformitet, definierad som sannolikheten för att matcha den enhälliga prioriteringen, visas nedan när gruppen ökar från en till nio. Den streckade svarta linjen markerar baslinjen utan prioritering, medan heldragna och punkterade linjer indikerar om prioriteringen överensstämmer eller inte med datasetmärkningen. Expertmärkning producerar de starkaste konformitetseffekterna, särskilt vid större gruppsstorlekar. Felbalkar visar 95% Wilson-konfidensintervall. Vänligen se källartikeln för bättre upplösning.

Över BoolQ, StrategyQA och ETHICS påverkade svar som märkts som kommande från mänskliga experter modellerna betydligt mer än svar som märkts som kommande från vänner eller andra stora språkmodeller – och denna dragning ökade när fler experter sades vara överens.

För att mäta när denna påverkan ledde till önskade resultat definierades skadlig konformitet som sannolikheten att en modell följde en prioritering som faktiskt var felaktig.

När nio experter var överens om det felaktiga svaret följde modellerna dem 36,5% av tiden på BoolQ, jämfört med 16,0% när samma svar attribuerades till LLM; på StrategyQA var gapet 39,0%, jämfört med 15,5%; och på ETHICS var det 63,9% jämfört med 38,7%:

Token-nivå troförändringar i Llama-3.3 70B på BoolQ. Panel (A) visar förändringar i modellens Ja kontra Nej balans mot en enhällig prioritering när gruppen ökar, relativt till sin baslinje utan prioritering, med de största förändringarna under expertmärkning. Panel (B) visar förändringar under direkt mänsklig-LLM-konflikt, där expertmärkning driver en stark rörelse mot det mänskliga svaret, även när det är felaktigt. Felbalkar visar 95% bootstrap-konfidensintervall.

Omvänt betedde sig prioriteringar som attribuerades till vänner nästan exakt som de som attribuerades till andra LLM, vilket indikerar att effekten drevs specifikt av ordet expert, snarare än av ‘sociala’ indikatorer.

Experiment 2

Det andra experimentet presenterade två motsägande prioriteringar för test-LLM – en attribuerad till en människa och en till en annan LLM. Människan beskrevs antingen som en grupp vänner eller som domänexperter, medan det motsatta svaret märktes som kommande från andra LLM. De två var alltid oeniga, med en som sa Ja och den andra Nej.

För varje artikel var setupen balanserad så att ibland var människan korrekt, och ibland var LLM korrekt, för att testa om modellen skulle ändra sitt ursprungliga svar när den ställdes inför denna konflikt – och, om så var fallet, vilken sida den skulle flytta mot.

För att se om modellen ändrade sig jämfördes dess svar i konfliktvillkoret med dess svar på samma fråga när inga föregående åsikter visades, så att eventuella skillnader kunde spåras till närvaron av de motsägande mänskliga och LLM-svar.

Analysen fokuserade på två resultat: om modellen ändrade sitt svar; och, om den gjorde det, om förändringen flyttade mot den mänskliga eller mot den motsatta LLM.

Statistiska tester användes för att bedöma om märkning av människan som en expert snarare än en vän ökade sannolikheten för att växla mot det mänskliga svaret, medan man tog hänsyn till skillnader över dataset och modeller:

Trorevision under direkt mänsklig–LLM-oenighet över BoolQ, StrategyQA och ETHICS för Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite och DeepSeek V3.1. Varje stapel visar, bland fall där modellen ändrade sitt ursprungliga svar, andelen av dessa förändringar som flyttade mot den mänskliga snarare än den motsatta LLM. Den streckade linjen vid 0,5 markerar ingen preferens; etiketter visar antalet växlingsfall i varje villkor; och felbalkar visar 95% Wilson-konfidensintervall. Vänligen se källartikeln för bättre upplösning.

I det andra experimentet ändrade modellerna sina svar 91,2% av tiden på BoolQ, 94,7% på StrategyQA och 81,3% på ETHICS när människan märktes som en expert. När människan märktes som en vän ändrade modellerna sina svar endast 39,8%, 37,9% och 27,9% av tiden, och föredrog vanligtvis LLM i stället.

Växling var sällsynt overall men vanligare med experter, och expertmärkning gjorde en växling mot den mänskliga sidan ungefär fjorton gånger mer sannolik än vänmärkning.

I sökandet efter en förklaring till de övergripande tendenser som upptäcktes i sina tester, hypoteser författarna*:

‘En plausibel mekanism är att instruktionsjustering och preferensoptimering belönar samarbetsbeteende, inklusive underkastelse till kontextuell information, som kan generaliseras till underkastelse mot socialt ramade prioriteringar.

‘Relaterad forskning om sycophancy visar att RLHF-stilassistenter ibland prioriterar överensstämmelse med användarens uttryckta övertygelser över sanningen.’

Åsikt: De potentiella fallgroparna med AI:s tillit till mänskliga källor

Medan online-material som speglar växande mänsklig skepticism om AI-brister (särskilt hallucinationer) skrapas in i träningsdataset för nya modeller, verkar den befintliga tendensen hos LLM att föredra mänskliga källor sannolikt att intensifieras. Om vi räknar de senaste två åren (2024-2025 inklusive) som en kulturell blinkning för AI, vilket verkar berättigat över ett antal statistik, kan vi rimligen förvänta oss en större mängd negativa synpunkter på ‘AI-källor’ som kommer att ingå i hyperskala, dyra att träna LLM-ramverk under de kommande åren.

Vi kan också förvänta oss att populära språkmodeller alltmer kommer att förlita sig på handplockade auktoriteter, såsom väl etablerade medieportaler – även om motivationen för sådana avtal kan vara att lindra utgivarens ilska över skrapat material, snarare än någon äkta önskan att avsäga sig eller dela auktoritet.

Eftersom även höga auktoritetskällor som Ars Technica är föremål för AI-drivna fel, och eftersom en framväxande tillbakadragande mot AI-webskrabbar hotar att försämra kvaliteten på AI-utdata, kan en övergripande tendens att föredra ‘expertkällor’ komma i konflikt med vår nuvarande oförmåga att kvantifiera och märka ‘mänsklig’ output effektivt – för att inte tala om att skilja på om en källa är ‘expert’ eller inte (en journalistisk konvention som även är under attack från AI).

Det mest vi för närvarande har är en fragmenterad serie halvt antagna innovationer som är utformade för att explicit märka innehåll som AI-genererat, såsom Adobe-ledda Content Authenticity Initiative, och den frivilliga dispositionen hos vissa utgivare att inkludera varningar om användningen av AI i deras utdata.

Så medan det kan tyckas uppmuntrande för dem som önskar behålla och upprätthålla mänskliga källor som ‘ground truth’-kredibilitet för den framväxande konsensusen om verkligheten som sprids av AI-system, kan den mer bestämda LLM är om mänsklig auktoritet, desto farligare ‘falsk’ mänsklig auktoritet kan bli.

Problemet är lika praktiskt som teoretiskt: vi har inte löst problemet med att definiera eller intyga ursprung; därför är en AI som ‘litar på mänskliga källor’ troligen mer benägen att tillskriva mänsklighet till AI:s egen output, enbart för att vi inte har tillhandahållit, och inte kan tillhandahålla, meningsfulla ursprungsautentiseringsmekanismer.

* Min omvandling av författarnas inline-citationer till hyperlänkar.

Publicerad första gången fredagen den 20 februari 2026