Artificial Intelligence
Wanneer AI-benchmarks modellen leren liegen

AI hallucinatie — wanneer een systeem antwoorden produceert die correct klinken, maar in werkelijkheid fout zijn — blijft een van de grootste uitdagingen binnen kunstmatige intelligentie. Zelfs de meest geavanceerde modellen van vandaag, zoals DeepSeek-V3, Lamaen de nieuwste van OpenAI releases, produceren nog steeds met grote zekerheid onjuiste informatie. In sectoren zoals de gezondheidszorg of de advocatuur kunnen dergelijke fouten ernstige gevolgen hebben.
Traditioneel worden hallucinaties gezien als een bijproduct van hoe grote taalmodellen worden getraind: ze leren het volgende meest waarschijnlijke woord te voorspellen zonder te controleren of de informatie klopt. Maar nieuwe onderzoek suggereert dat het probleem mogelijk niet bij training blijft. De benchmarks die worden gebruikt om AI-prestaties te testen en vergelijken, versterken mogelijk misleidend gedrag en belonen overtuigende antwoorden in plaats van correcte antwoorden.
Deze perspectiefverschuiving plaatst het probleem in een ander perspectief. Als modellen getraind zijn om de test te volgen in plaats van de waarheid te vertellen, dan zijn hallucinaties geen toevallige fouten, maar aangeleerde strategieën. Om te begrijpen waarom dit gebeurt, moeten we kijken naar waarom AI-modellen ervoor kiezen om te gokken in plaats van hun onwetendheid toe te geven.
Waarom AI-modellen gokken
Om te begrijpen waarom AI-modellen vaak gokken in plaats van toe te geven dat ze het niet weten, denk aan een student die voor een moeilijke examenvraag staat. De student heeft twee opties: het antwoord leeg laten en nul punten krijgen, of een weloverwogen gok wagen die misschien wel punten oplevert. Rationeel gezien lijkt gokken de betere keuze, omdat er dan tenminste een kans is dat het goed is.
AI-modellen worden tijdens de evaluatie met een vergelijkbare situatie geconfronteerd. De meeste benchmarks gebruiken een binair scoresysteem: goede antwoorden leveren punten op, terwijl onjuiste of onzekere antwoorden niets opleveren. Als een model de vraag krijgt: "Wat is de geboortedatum van een onderzoeker?" en het weet het echt niet, dan telt "Ik weet het niet" als een mislukking. Het verzinnen van een datum heeft echter een zekere kans op een juiste uitkomst – en zelfs als die fout is, straft het systeem de zelfverzekerde gok net zo min af als zwijgen.
Deze dynamiek verklaart waarom hallucinaties blijven bestaan, ondanks uitgebreid onderzoek om ze te elimineren. De modellen misdragen zich niet; ze volgen de prikkels die in de evaluatie zijn ingebouwd. Ze leren dat zelfverzekerd klinken de beste manier is om hun score te maximaliseren, zelfs als het antwoord onjuist is. Hierdoor worden modellen, in plaats van onzekerheid uit te drukken, gedwongen om gezaghebbende uitspraken te doen – goed of fout.
De wiskundige basis van AI-oneerlijkheid
Ocuco's Medewerkers onderzoek toont aan dat hallucinaties voortkomen uit de wiskundige basisprincipes van hoe taalmodellen leren. Zelfs als een model alleen getraind zou worden met perfect accurate informatie, zouden de statistische doelstellingen ervan nog steeds tot fouten leiden. Dat komt doordat het genereren van het juiste antwoord fundamenteel moeilijker is dan het herkennen of een antwoord geldig is.
Dit verklaart mede waarom modellen vaak falen bij feiten zonder duidelijke patronen, zoals verjaardagen of andere unieke details. Wiskundige analyse suggereert dat de hallucinatiepercentages in deze gevallen minstens zo hoog zullen zijn als de fractie feiten die slechts één keer in de trainingsdata voorkomen. Met andere woorden: hoe zeldzamer de informatie in de data, hoe groter de kans dat het model er moeite mee heeft.
Het probleem beperkt zich niet tot zeldzame feiten. Structurele beperkingen zoals beperkte modelcapaciteit of architectonisch ontwerp veroorzaken ook systematische fouten. Zo faalden eerdere modellen met zeer korte contextvensters consequent bij taken die redeneren op lange termijn vereisten. Deze fouten waren geen willekeurige fouten, maar voorspelbare uitkomsten van het wiskundige kader van het model.
Waarom post-training het probleem niet oplost
Zodra een AI-model is getraind met enorme tekstdatasets, ondergaat het meestal een finetuning om de output nuttiger en minder schadelijk te maken. Maar dit proces stuit op hetzelfde kernprobleem dat in de eerste plaats hallucinaties veroorzaakt: de manier waarop we modellen evalueren.
De meest voorkomende fijne trainingsmethoden, zoals versterking leren van menselijke feedback, vertrouwen nog steeds op benchmarks die binaire scores gebruiken. Deze benchmarks belonen modellen voor het geven van overtuigende antwoorden, maar geven geen krediet wanneer een model toegeeft het niet te weten. Hierdoor kan een systeem dat altijd met zekerheid antwoordt, zelfs wanneer het fout zit, beter presteren dan een systeem dat eerlijk onzekerheid uitdrukt.
Onderzoekers noemen dit het probleem van het bestraffen van onzekerheid. Zelfs geavanceerde technieken voor het detecteren of verminderen van hallucinaties hebben moeite wanneer de onderliggende criteria overmoed blijven begunstigen. Met andere woorden, hoe geavanceerd de oplossingen ook zijn, zolang evaluatiesystemen zelfverzekerde gissingen belonen, zullen modellen bevooroordeeld zijn ten gunste van foute maar zekere antwoorden in plaats van eerlijke erkenningen van twijfel.
De illusie van vooruitgang
Leaderboards, die breed gedeeld worden in de AI-community, versterken dit probleem. Benchmarks zoals MMLU, GPQAen SWE-bank domineren onderzoeksrapporten en productaankondigingen. Bedrijven benadrukken hun scores om snelle vooruitgang aan te tonen. Maar zoals het rapport opmerkt, moedigen juist deze benchmarks hallucinaties aan.
Een model dat eerlijk zegt "Ik weet het niet" is in de praktijk wellicht veiliger, maar scoort lager op het scorebord. Een model dat daarentegen overtuigende maar onjuiste antwoorden verzint, scoort beter. Wanneer acceptatie, financiering en prestige afhankelijk zijn van de ranglijstposities, wordt de richting van de vooruitgang scheefgetrokken. Het publiek ziet een verhaal van constante verbetering, maar daaronder worden modellen getraind om te misleiden.
Waarom eerlijke onzekerheid belangrijk is in AI
Hallucinaties vormen niet alleen een uitdaging voor onderzoek; ze hebben ook gevolgen in de echte wereld. In de gezondheidszorg kan een model dat geneesmiddelinteracties verzint, artsen misleiden. In het onderwijs kan een model dat historische feiten verzint, studenten verkeerd informeren. In de journalistiek kan een chatbot die valse maar overtuigende citaten produceert, desinformatie verspreiden. Deze risico's zijn al zichtbaar. Stanford AI-index 2025 meldde dat benchmarks die ontworpen zijn om hallucinaties te meten, "moeite hebben om aan populariteit te winnen", zelfs nu de adoptie van AI versnelt. Ondertussen blijven de benchmarks die de ranglijsten domineren en die zelfverzekerde maar onbetrouwbare antwoorden belonen, de richting van de vooruitgang bepalen.
Deze bevindingen benadrukken zowel een uitdaging als een kans. Door de wiskundige oorzaken van hallucinaties te onderzoeken, hebben onderzoekers duidelijke richtingen gevonden voor het ontwikkelen van betrouwbaardere AI-systemen. De sleutel is om onzekerheid niet langer als een tekortkoming te beschouwen, maar te erkennen als een essentiële vaardigheid die gemeten en beloond moet worden.
Deze perspectiefverschuiving heeft implicaties die verder gaan dan het verminderen van hallucinaties. AI-systemen die hun eigen kennisbeperkingen nauwkeurig kunnen inschatten en communiceren, zouden geschikter zijn voor toepassingen met hoge inzetten waarbij overmoed ernstige risico's met zich meebrengt. Medische diagnoses, juridische analyses en wetenschappelijk onderzoek vereisen allemaal het vermogen om onderscheid te maken tussen zelfverzekerde kennis en gefundeerde speculatie.
Evaluatie heroverwegen voor eerlijke AI
Deze bevindingen benadrukken dat het ontwikkelen van betrouwbaardere AI een heroverweging vereist van hoe we AI-capaciteit meten. In plaats van te vertrouwen op simpele goed-of-fout-scores, zouden evaluatiekaders modellen moeten belonen voor het correct uitdrukken van onzekerheid. Dit betekent dat er duidelijke richtlijnen moeten worden gegeven over betrouwbaarheidsdrempels en bijbehorende scoreschema's binnen benchmarkinstructies.
Een veelbelovende aanpak is het creëren van expliciete vertrouwensdoelen die specificeren wanneer modellen wel en niet mogen antwoorden. Instructies zouden bijvoorbeeld kunnen aangeven dat er alleen antwoorden gegeven mogen worden wanneer het vertrouwen een bepaalde drempel overschrijdt, waarna de score dienovereenkomstig wordt aangepast. In deze opzet is onzekerheid niet langer een zwakte, maar een waardevol onderdeel van verantwoordelijk gedrag.
De sleutel is om vertrouwensvereisten transparant te maken in plaats van impliciet. Huidige benchmarks creëren verborgen sancties voor onzekerheid die modellen leren te vermijden. Expliciete vertrouwensdoelen zouden modellen in staat stellen te optimaliseren voor het daadwerkelijk gewenste gedrag: accurate antwoorden wanneer ze vertrouwen hebben, en eerlijke erkenning van onzekerheid wanneer kennis ontbreekt.
The Bottom Line
AI-hallucinaties zijn geen willekeurige fouten – ze worden juist versterkt door de benchmarks die gebruikt worden om vooruitgang te meten. Door zelfverzekerde gissingen te belonen boven eerlijke onzekerheid, duwen huidige evaluatiesystemen modellen eerder richting misleiding dan naar betrouwbaarheid. Als we AI willen die betrouwbaar is in sectoren met hoge inzetten zoals gezondheidszorg, recht en wetenschap, moeten we heroverwegen hoe we AI testen en belonen. Vooruitgang moet niet alleen worden gemeten aan de hand van nauwkeurigheid, maar ook aan het vermogen om te herkennen en toe te geven wat het model niet weet.