Kunstig intelligens
Når AI-benchmarking lærer modellene å lyve

AI-hallusinasjon — når et system produserer svar som lyder korrekte, men i virkeligheten er feil — forblir ett av de tøffeste utfordringene i kunstig intelligens. Selv dagens mest avanserte modeller, som DeepSeek-V3, Llama, og OpenAI’s siste utgaver, produserer fortsatt uriktige opplysninger med høy tillit. I områder som helse eller lov, kan slike feil føre til alvorlige konsekvenser.
Tradisjonelt har hallusinasjoner blitt sett på som et biprodukt av hvordan store språkmodeller er trent: de lærer å forutsi det neste mest sannsynlige ordet uten å verifisere om informasjonen er sann. Men ny forskning tyder på at problemet ikke stopper ved trening. Benchmarkene som brukes til å teste og sammenligne AI-ytelse, kan faktisk forsterke misvisende atferd, og belønne svar som lyder overbevisende, i stedet for de som er korrekte.
Denne skiftningen i perspektiv omdefinierer problemet. Hvis modellene er trent for å tilfredsstille testen i stedet for å fortelle sannheten, så er hallusinasjoner ikke tilfeldige feil, men lærte strategier. For å se hvorfor dette skjer, må vi se på hvorfor AI-modellene velger å gjette i stedet for å innrømme sin uvitenhet?
Hvorfor AI-modeller gjetter
For å se hvorfor AI-modeller ofte gjetter i stedet for å innrømme at de ikke vet, kan vi betrakte en student som står overfor et vanskelig eksamensspørsmål. Studenten har to valg: å la svaret stå blankt og få null poeng, eller å gjette på et svar som kanskje kan gi noen poeng. Rasjonelt sett, ser gjetting ut til å være det beste valget, fordi det er en sjanse for å være riktig.
AI-modeller står overfor en lignende situasjon under evaluering. De fleste benchmarkene bruker et binært poengsystem: korrekte svar gir poeng, mens feil eller usikre svar gir ingenting. Hvis en modell blir spurt “Hva er fødselsdagen til en forsker?” og den virkelig ikke vet, så teller å svare “Jeg vet ikke” som feil. Å finne på en dato, derimot, bærer en sjanse for å være korrekt — og selv om det er feil, straffer systemet ikke det sikre gjettet mer enn stillheten.
Denne dynamikken forklarer hvorfor hallusinasjoner består til tross for omfattende forskning for å eliminere dem. Modellene oppfører seg ikke dårlig; de følger incentivene som er bygget inn i evalueringen. De lærer at å lyde sikre er den beste måten å maksimere sin score, selv om svaret er feil. Som resultat, i stedet for å uttrykke usikkerhet, blir modellene presset til å gi autoritative uttalelser — riktige eller feil.
Den matematiske grunnlaget for AI-urettferdighet
Forskningen viser at hallusinasjoner oppstår fra de matematiske grunnleggende av hvordan språkmodeller lærer. Selv om en modell ble trent bare på fullstendig nøyaktig informasjon, ville dens statistiske mål fortsatt føre til feil. Dette skyldes at å generere det riktige svaret er fundamentalt vanskeligere enn å gjenkjenne om et svar er gyldig.
Dette hjelper med å forklare hvorfor modellene ofte feiler på fakta som mangler klare mønster, som fødselsdager eller andre unike detaljer. Matematisk analyse tyder på at hallusinasjonsraten i disse tilfellene vil være minst like høy som brøkdelen av fakta som kun opptrer én gang i treningsdataene. Med andre ord, jo sjeldnere informasjonen er i dataene, jo mer sannsynlig er det at modellen vil ha problemer med den.
Problemene er ikke begrenset til sjeldne fakta. Strukturelle begrensninger som begrensede modellkapasiteter eller arkitektonisk design, produserer også systematiske feil. For eksempel, tidligere modeller med svært korte kontekstvinduer, feilet konsistent på oppgaver som krevde langtids-argumentasjon. Disse feilene var ikke tilfeldige feil, men forutsigbare resultater av modellens matematiske rammeverk.
Hvorfor post-trening ikke løser problemet
Når en AI-modell er trent på store tekstdatasett, går den vanligvis gjennom finjustering for å gjøre utdata mer nyttig og mindre skadelig. Men denne prosessen møter det samme grunnleggende problemet som forårsaker hallusinasjoner fra begynnelsen av; måten vi evaluerer modellene på.
De vanligste finjusteringsmetodene, som forsterkingslæring fra menneskelig tilbakemelding, bruker fortsatt benchmarkene som bruker binært poengsystem. Disse benchmarkene belønner modeller for å gi sikre svar, mens de ikke gir noen poeng når en modell innrømmer at den ikke vet. Som resultat, et system som alltid responderer med sikkerhet, selv når det er feil, kan overstige et system som ærlig uttrykker usikkerhet.
Forskere kaller dette problemet for å straffe usikkerhet. Selv avanserte teknikker for å oppdage eller redusere hallusinasjoner, strever når de underliggende benchmarkene fortsatt favoriserer overmot.
Illusjonen av fremgang
Leaderboard, som er vidt delt i AI-samfunnet, forsterker dette problemet. Benchmarkene som MMLU, GPQA, og SWE-bench dominerer forskningsartikler og produktannonser. Selskaper fremhever sine poeng for å vise rask fremgang. Likevel, som rapporten bemerker, er disse benchmarkene som oppmuntre hallusinasjoner.
En modell som ærlig sier “Jeg vet ikke” kan være tryggere i virkelige verdenssettinger, men vil rangere lavere på leaderboarden. I motsetning, en modell som fabrikkere overbevisende, men feile svar, vil score bedre. Når adopsjon, finansiering og prestisje avhenger av leaderboard-rangering, blir retningen av fremgang skjev. Offentligheten ser en fortelling om konstant fremgang, men under overflaten, blir modellene trent til å bedra.
Hvorfor ærlig usikkerhet er viktig i AI
Hallusinasjoner er ikke bare en forskningsutfordring; de har virkelige konsekvenser. I helse, kan en modell som fabrikkere en interaksjon mellom legemidler, mislede leger. I utdanning, en modell som oppfinner historiske fakta, kan misinformere studenter. I journalistikk, en chatbot som produserer feile, men overbevisende sitater, kan spre desinformasjon. Disse risikoene er allerede synlige. Stanford AI Index 2025 rapporterte at benchmarkene som er designet for å måle hallusinasjoner, har “strugglet med å få grep,” selv om AI-adoptsjon akselererer. I mellomtiden, benchmarkene som dominerer leaderboardene og som belønner sikre, men upålitelige svar, fortsetter å sette retningen for fremgang.
Disse funnene fremhever både en utfordring og en mulighet. Ved å undersøke de matematiske røttene av hallusinasjoner, har forskerne identifisert klare retninger for å bygge mer pålitelige AI-systemer. Nøkkelen er å slutte å behandle usikkerhet som en feil, og i stedet anerkjenne det som en essensiell evne som bør måles og belønnes.
Denne skiftningen i perspektiv har implikasjoner utover reduksjon av hallusinasjoner. AI-systemer som kan nøyaktig vurdere og kommunisere sine egne kunnskapsbegrensninger, ville være mer egnet for høyrisikoutgifter hvor overmot bærer alvorlige risiko. Medisinsk diagnose, juridisk analyse og vitenskapelig forskning krever alle evnen til å skille mellom sikker kunnskap og informert spekulasjon.
Omtenkning av evaluering for ærlig AI
Disse funnene fremhever at bygging av mer pålitelige AI krever omtenkning av hvordan vi måler AI-evne. I stedet for å stole på enkel rett-eller-feil scoring, bør evalueringssystemer belønne modeller for å uttrykke usikkerhet på en passende måte. Dette innebærer å gi tydelige retningslinjer om tillitsnivå og korresponderende poengsystemer i benchmark-instruksjoner.
En løftende tilnærming innebærer å opprette eksplisitte tillitsmål som spesifiserer når modeller bør svare i stedet for å avstå. For eksempel, instruksjoner kan angi at svar bare skal gis når tillit overstiger en bestemt terskel, med poeng justert deretter. I denne oppsettet, er usikkerhet ikke lenger en svakhet, men en verdifull del av ansvarlig atferd.
Nøkkelen er å gjøre tillitskravene transparente i stedet for implisitte. Gjeldende benchmarkene skaper skjulte straffer for usikkerhet som modellene lærer å unngå. Eksplisitte tillitsmål ville enable modellene til å optimere for det faktisk ønskede atferden: nøyaktige svar når sikre, og ærlige innrømmelser av usikkerhet når kunnskap mangler.
Bunnlinjen
AI-hallusinasjoner er ikke tilfeldige feil — de er forsterket av de samme benchmarkene som brukes til å måle fremgang. Ved å belønne sikre gjett i stedet for ærlig usikkerhet, presser gjeldende evalueringssystemer modellene mot bedrageri i stedet for pålitelighet. Hvis vi ønsker AI som kan være tillitsfull i høyrisikoutgifter som helse, lov og vitenskap, må vi omtenke hvordan vi tester og belønner dem. Fremgang bør måles ikke bare av nøyaktighet, men også av evnen til å gjenkjenne og innrømme hva modellen ikke vet.












