Artificiell intelligens
När AI-benchmarks lär modeller att ljuga

AI-hallucination — när ett system producerar svar som låter korrekta men i själva verket är fel — kvarstår som en av de tuffaste utmaningarna inom artificiell intelligens. Även dagens mest avancerade modeller, såsom DeepSeek-V3, Llama, och OpenAI:s senaste utgåvor, producerar fortfarande felaktig information med hög tillförlitlighet. Inom områden som hälsovård eller juridik kan sådana misstag leda till allvarliga konsekvenser.
Traditionellt har hallucinationer setts som en biprodukt av hur stora språkmodeller tränas: de lär sig att förutsäga nästa mest sannolika ord utan att kontrollera om informationen är sann. Men ny forskning tyder på att problemet kanske inte slutar vid träningsprocessen. De benchmarks som används för att testa och jämföra AI-prestanda kan faktiskt förstärka vilseledande beteende, belöna svar som låter övertygande snarare än de som är korrekta.
Denna skiftning i perspektiv omformar problemet. Om modeller tränas för att tillfredsställa testet snarare än att tala sanningen, då är hallucinationer inte oavsiktliga fel, de är inlärda strategier. För att se varför detta händer, måste vi titta på varför AI-modeller väljer att gissa snarare än att medge sin okunskap?
Varför AI-modeller gissar
För att se varför AI-modeller ofta gissar istället för att medge att de inte vet, överväg en student som står inför en svår examensfråga. Studenten har två alternativ: lämna svaret blankt och få noll poäng, eller göra ett utbildat gissning som kanske kan ge några poäng. Rent rationellt verkar gissning som det bättre valet eftersom det finns åtminstone en chans att vara rätt.
AI-modeller står inför en liknande situation under utvärdering. De flesta benchmarks använder ett binärt poängsystem: korrekta svar ger poäng, medan felaktiga eller osäkra svar ger ingenting. Om en modell tillfrågas, “Vad är födelsedagen för en forskare?” och den verkligen inte vet, räknas det som ett misslyckande att svara “Jag vet inte”. Att hitta på ett datum däremot bär med sig en chans att vara rätt — och även om det är fel, straffar systemet inte det säkra gissningen mer än tystnaden.
Denna dynamik förklarar varför hallucinationer består trots omfattande forskning för att eliminera dem. Modellerna beter sig inte illa; de följer incitamenten som är inbyggda i utvärderingen. De lär sig att låta säkra är det bästa sättet att maximera sin poäng, även när svaret är falskt. Som ett resultat, istället för att uttrycka osäkerhet, trycks modellerna att ge auktoritativa uttalanden — rätt eller fel.
Den matematiska grunden för AI-oärlighet
Forskningen visar att hallucinationer uppstår från de matematiska grunderna för hur språkmodeller lär sig. Även om en modell tränades enbart på fullständigt korrekt information, skulle dess statistiska mål fortfarande leda till fel. Det beror på att att generera rätt svar är grundläggande svårare än att känna igen om ett svar är giltigt.
Detta hjälper till att förklara varför modeller ofta misslyckas med fakta som saknar tydliga mönster, som födelsedagar eller andra unika detaljer. Matematisk analys tyder på att hallucinationsfrekvensen i dessa fall kommer att vara minst lika hög som andelen fakta som bara förekommer en gång i träningsdata. Med andra ord, ju sällsyntare informationen är i data, desto mer benägna är modellen att kämpa med den.
Problemets omfattning är inte begränsad till sällsynta fakta. Strukturella begränsningar som begränsad modellkapacitet eller arkitektonisk design producerar också systematiska fel. Till exempel misslyckades tidigare modeller med mycket korta sammanhangsfönster konsekvent med uppgifter som krävde långsiktig resonemang. Dessa misstag var inte slumpmässiga fel, utan förutsägbara resultat av modellens matematiska ramverk.
Varför post-träningsprocessen inte löser problemet
När en AI-modell har tränats på stora textdata, genomgår den vanligtvis finjustering för att göra dess utdata mer användbara och mindre skadliga. Men denna process möter samma grundläggande problem som orsakar hallucinationer från början; hur vi utvärderar modeller.
De vanligaste finträningsmetoderna, som reinforcement learning från mänsklig återkoppling, förlitar sig fortfarande på benchmarks som använder binärt poängsättning. Dessa benchmarks belönar modeller för att ge säkra svar medan de inte ger någon poäng när en modell medger att den inte vet. Som ett resultat kan ett system som alltid svarar med säkerhet, även när det är fel, prestera bättre än ett som ärligt uttrycker osäkerhet.
Forskare kallar detta problemet för att bestraffa osäkerhet. Även avancerade tekniker för att upptäcka eller minska hallucinationer kämpar när de underliggande benchmarkerna fortsätter att favorisera övertron. Med andra ord, oavsett hur sofistikerade lösningarna är, så länge utvärderingssystemen belönar säkra gissningar, kommer modellerna att vara förbiasterade mot fel-men-säkra svar snarare än ärliga medgivanden av tvivel.
Illusionen av framsteg
Leaderboards, som delas flitigt i AI-samhället, förstärker detta problem. Benchmarks som MMLU, GPQA, och SWE-bench dominerar forskningsartiklar och produktmeddelanden. Företag betonar sina poäng för att visa snabb framsteg. Men som rapporten påpekar, dessa benchmarks uppmuntrar hallucination.
En modell som ärligt säger “Jag vet inte” kan vara säkrare i verkliga situationer men kommer att rankas lägre på leaderboarden. I kontrast, en modell som fabricerar övertygande men falska svar kommer att få ett bättre betyg. När antagning, finansiering och prestige beror på leaderboard-rankning, blir riktningen för framsteg snedvriden. Allmänheten ser en berättelse om konstant förbättring, men under ytan tränas modellerna för att bedra.
Varför ärlig osäkerhet är viktig i AI
Hallucinationer är inte bara en forskningsutmaning; de har verkliga konsekvenser. Inom hälsovård kan en modell som fabricerar läkemedelsinteraktioner vilseleda läkare. Inom utbildning kan en modell som uppfinner historiska fakta vilseleda studenter. Inom journalistik kan en chatbot som producerar falska men övertygande citat sprida desinformation. Dessa risker är redan synliga. Stanford AI Index 2025 rapporterade att benchmarks som är utformade för att mäta hallucinationer “har kämpat för att få fäste”, även när AI-användningen accelererar. Samtidigt fortsätter de benchmarks som dominerar leaderboarden och som belönar säkra men opålitliga svar att sätta riktningen för framsteg.
Dessa fynd lyfter fram både en utmaning och en möjlighet. Genom att undersöka de matematiska rötterna till hallucination, har forskare identifierat tydliga riktningar för att bygga mer tillförlitliga AI-system. Nyckeln är att sluta behandla osäkerhet som en svaghet och istället erkänna den som en avgörande förmåga som bör mätas och belönas.
Denna skiftning i perspektiv har implikationer bortom att minska hallucinationer. AI-system som kan korrekt bedöma och kommunicera sina egna kunskapsbegränsningar skulle vara mer lämpliga för högriskapplikationer där övertron bär med sig allvarliga risker. Medicinsk diagnos, juridisk analys och vetenskaplig forskning kräver alla förmågan att skilja mellan säker kunskap och informerad spekulation.
Omprövning av utvärdering för ärlig AI
Dessa fynd lyfter fram att byggandet av mer tillförlitliga AI-system kräver en omprövning av hur vi mäter AI-förmåga. Istället för att förlita sig på enkel rätt-eller-fel-poängsättning, bör utvärderingsramverk belöna modeller för att uttrycka osäkerhet på lämpligt sätt. Detta innebär att ge tydliga riktlinjer om förtroendetrösklar och motsvarande poängsystem inom benchmark-instruktioner.
En lovande ansats involverar skapandet av explicita förtroendemål som specificerar när modeller bör svara och när de bör avstå. Till exempel kan instruktioner ange att svar bara bör ges när förtroendet överstiger en viss tröskel, med poängsättning justerad därefter. I detta upplägg är osäkerhet inte en svaghet, utan en värdefull del av ansvarsfullt beteende.
Nyckeln är att göra förtroendekrav transparenta snarare än implicita. Nuvarande benchmarks skapar dolda straff för osäkerhet som modeller lär sig att undvika. Explicita förtroendemål skulle möjliggöra för modeller att optimera för det faktiskt önskade beteendet: korrekta svar när de är säkra, och ärliga medgivanden av osäkerhet när kunskap saknas.
Slutsatsen
AI-hallucinationer är inte slumpmässiga fel — de förstärks av de benchmarks som används för att mäta framsteg. Genom att belöna säkra gissningar snarare än ärlig osäkerhet, trycker nuvarande utvärderingssystem modeller mot bedrägeri snarare än tillförlitlighet. Om vi vill ha AI som kan lita på i högriskdomäner som hälsovård, juridik och vetenskap, måste vi ompröva hur vi testar och belönar dem. Framsteg bör mätas inte bara av korrekthet, utan av förmågan att erkänna och medge vad modellen inte vet.












