Connect with us

Kunstmatige intelligentie

Wanneer AI-benchmarks modellen leren te liegen

mm

AI-hallucinatie — wanneer een systeem antwoorden produceert die correct klinken maar eigenlijk verkeerd zijn — blijft een van de grootste uitdagingen in kunstmatige intelligentie. Zelfs de meest geavanceerde modellen van vandaag, zoals DeepSeek-V3, Llama, en OpenAI’s laatste releases, produceren nog steeds onnauwkeurige informatie met hoge zekerheid. In gebieden zoals gezondheidszorg of recht, kunnen dergelijke fouten leiden tot ernstige gevolgen.

Traditioneel worden hallucinaties gezien als een bijproduct van hoe grote taalmodellen getraind worden: ze leren de volgende meest waarschijnlijke woord te voorspellen zonder te controleren of de informatie waar is. Maar nieuw onderzoek suggereert dat het probleem niet stopt bij training. De benchmarks die worden gebruikt om AI-prestaties te testen en te vergelijken, kunnen eigenlijk misleidend gedrag versterken, door antwoorden te belonen die overtuigend klinken in plaats van die correct zijn.

Deze verschuiving in perspectief herformuleert het probleem. Als modellen getraind worden om de test te behagen in plaats van de waarheid te vertellen, dan zijn hallucinaties geen toevallige fouten, maar geleerde strategieën. Om te zien waarom dit gebeurt, moeten we kijken naar waarom AI-modellen kiezen voor gokken in plaats van toe te geven dat ze het niet weten?

Waarom AI-modellen gokken

Om te zien waarom AI-modellen vaak gokken in plaats van toe te geven dat ze het niet weten, kunt u een student overwegen die een moeilijke examenvraag tegenkomt. De student heeft twee opties: het antwoord leeg laten en nul punten krijgen, of een geïnformeerde gok doen die mogelijk enkele credits kan opleveren. Rationeel gezien lijkt gokken op de beste keuze, omdat er tenminste een kans is dat het goed is.

AI-modellen staan voor een soortgelijke situatie tijdens evaluatie. De meeste benchmarks gebruiken een binaire scoresysteem: correcte antwoorden verdienen punten, terwijl onjuiste of onzekere reacties niets opleveren. Als een model wordt gevraagd: “Wat is de verjaardag van een onderzoeker?” en het weet het echt niet, telt het antwoord “Ik weet het niet” als falen. Een datum verzinnen heeft echter een kans om correct te zijn — en zelfs als het verkeerd is, straft het systeem de zelfverzekerde gok niet meer dan stilte.

Deze dynamiek verklaart waarom hallucinaties blijven bestaan ondanks uitgebreid onderzoek om ze te elimineren. De modellen gedragen zich niet slecht; ze volgen de stimulansen die zijn ingebouwd in de evaluatie. Ze leren dat klinken alsof ze zeker zijn de beste manier is om hun score te maximaliseren, zelfs als het antwoord vals is. Als gevolg daarvan geven modellen in plaats van onzekerheid te uiten, gezaghebbende verklaringen — goed of fout.

De wiskundige basis van AI-onbetrouwbaarheid

Het onderzoek toont aan dat hallucinaties voortkomen uit de wiskundige basis van hoe taalmodellen leren. Zelfs als een model alleen getraind werd op perfect accurate informatie, zouden de statistische doelstellingen nog steeds leiden tot fouten. Dat komt omdat het produceren van het juiste antwoord fundamenteel moeilijker is dan het herkennen of een antwoord geldig is.

Dit helpt te verklaren waarom modellen vaak falen bij feiten die geen duidelijke patronen hebben, zoals verjaardagen of andere unieke details. Wiskundige analyse suggereert dat de hallucinatiesnelheid in deze gevallen minstens zo hoog zal zijn als het fractie van feiten die slechts één keer in de trainingsgegevens voorkomen. Met andere woorden, hoe zeldzamer de informatie in de gegevens, hoe groter de kans dat het model ermee worstelt.

Het probleem is niet beperkt tot zeldzame feiten. Structurele beperkingen zoals beperkte modelcapaciteit of architectonisch ontwerp produceren ook systematische fouten. Bijvoorbeeld, eerdere modellen met zeer korte contextwindows faalden consistent bij taken die langeafstandsredenering vereisten. Deze fouten waren geen willekeurige storingen, maar voorspelbare resultaten van het wiskundige kader van het model.

Waarom post-training het probleem niet oplost

Zodra een AI-model getraind is op enorme tekstdatasets, gaat het meestal door een fine-tuning om de output nuttiger en minder schadelijk te maken. Maar dit proces heeft hetzelfde kernprobleem dat hallucinaties veroorzaakt: de manier waarop we modellen evalueren.

De meest voorkomende fine-tunemethoden, zoals reinforcement learning from human feedback, vertrouwen nog steeds op benchmarks die binaire scoring gebruiken. Deze benchmarks belonen modellen voor het geven van zelfverzekerde antwoorden, terwijl ze geen credits geven wanneer een model toegeeft dat het het niet weet. Als gevolg daarvan kan een systeem dat altijd met zekerheid antwoordt, zelfs als het verkeerd is, beter presteren dan een dat eerlijk onzekerheid uit.

De illusie van vooruitgang

Leaderboards, die breed worden gedeeld in de AI-gemeenschap, versterken dit probleem. Benchmarks zoals MMLU, GPQA, en SWE-bench domineren onderzoeksartikelen en productaankondigingen. Bedrijven benadrukken hun scores om snelle vooruitgang te laten zien. Toch, zoals het rapport opmerkt, moedigen deze benchmarks hallucinaties aan.

Een model dat eerlijk “Ik weet het niet” zegt, kan veiliger zijn in real-world situaties, maar zal lager scoren op de leaderboard. In tegenstelling, een model dat overtuigende maar valse antwoorden fabriceert, zal beter scoren. Wanneer adoptie, financiering en prestige afhankelijk zijn van leaderboard-ranglijsten, wordt de richting van vooruitgang vertekend. Het publiek ziet een verhaal van constante verbetering, maar onder de oppervlakte worden modellen getraind om te bedriegen.

Waarom eerlijke onzekerheid belangrijk is in AI

Hallucinaties zijn niet alleen een onderzoeksuitdaging; ze hebben echte gevolgen in de praktijk. In de gezondheidszorg kan een model dat medicatie-interacties fabriceert, artsen misleiden. In het onderwijs kan een model dat historische feiten uitvindt, studenten misinformeren. In de journalistiek kan een chatbot die valse maar overtuigende citaten produceert, desinformatie verspreiden. Deze risico’s zijn al zichtbaar. De Stanford AI Index 2025 rapporteerde dat benchmarks die zijn ontworpen om hallucinaties te meten, “moeite hebben om grip te krijgen”, zelfs terwijl de adoptie van AI versnelt. Ondertussen blijven de benchmarks die de leaderboards domineren en die zelfverzekerde maar onbetrouwbare antwoorden belonen, de richting van vooruitgang bepalen.

Deze bevindingen benadrukken zowel een uitdaging als een kans. Door de wiskundige wortels van hallucinaties te onderzoeken, hebben onderzoekers duidelijke richtingen geïdentificeerd voor het bouwen van betrouwbaardere AI-systemen. De sleutel is om te stoppen met het behandelen van onzekerheid als een fout en deze in plaats daarvan te erkennen als een essentiële capaciteit die moet worden gemeten en beloond.

Deze verschuiving in perspectief heeft implicaties die verder gaan dan het reduceren van hallucinaties. AI-systemen die hun eigen kennisbeperkingen nauwkeurig kunnen inschatten en communiceren, zouden beter geschikt zijn voor high-stakes toepassingen waar overmoedige zekerheid ernstige risico’s met zich meebrengt. Medische diagnose, juridische analyse en wetenschappelijk onderzoek vereisen allemaal de mogelijkheid om tussen zelfverzekerde kennis en geïnformeerde speculatie te onderscheiden.

Heroverweging van evaluatie voor eerlijke AI

Deze bevindingen benadrukken dat het bouwen van meer betrouwbare AI vereist dat we opnieuw kijken naar hoe we AI-capaciteit meten. In plaats van te vertrouwen op eenvoudige goed-of-fout scoring, zouden evaluatiekaders modellen moeten belonen voor het uitdrukken van onzekerheid op een passende manier. Dit betekent het verstrekken van duidelijke richtlijnen over betrouwbaarheidsdrempels en overeenkomstige scoreschema’s binnen benchmarkinstructies.

Een veelbelovende aanpak omvat het creëren van expliciete betrouwbaarheidsdoelen die specificeren wanneer modellen moeten antwoorden en wanneer ze moeten afzien. Bijvoorbeeld, instructies kunnen vermelden dat antwoorden alleen moeten worden gegeven wanneer de betrouwbaarheid een specifieke drempel overschrijdt, met scores die dienovereenkomstig worden aangepast. In deze setup is onzekerheid geen zwakte, maar een waardevol onderdeel van verantwoord gedrag.

De sleutel is om betrouwbaarheidsvereisten transparant te maken in plaats van impliciet. Huidige benchmarks creëren verborgen straffen voor onzekerheid die modellen leren te vermijden. Expliciete betrouwbaarheidsdoelen zouden modellen in staat stellen om te optimaliseren voor het werkelijk gewenste gedrag: nauwkeurige antwoorden wanneer ze zeker zijn, en eerlijke bekentenissen van twijfel wanneer kennis ontbreekt.

De bottom line

AI-hallucinaties zijn geen toevallige fouten — ze worden versterkt door de benchmarks die worden gebruikt om vooruitgang te meten. Door zelfverzekerde gokken te belonen in plaats van eerlijke onzekerheid, duwen huidige evaluatiesystemen modellen naar bedrog in plaats van betrouwbaarheid. Als we AI willen die kan worden vertrouwd in high-stakes domeinen zoals gezondheidszorg, recht en wetenschap, moeten we opnieuw kijken naar hoe we ze testen en belonen. Vooruitgang moet worden gemeten niet alleen door nauwkeurigheid, maar door de capaciteit om te erkennen en toe te geven wat het model niet weet.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.