Andersons hoek

AI gedraagt zich anders als het weet dat het getest wordt, blijkt uit onderzoek

mm
ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

Net als bij de ‘Dieselgate’-schandaal van 2015 suggereren nieuwe onderzoeken dat AI-taalmmodellen zoals GPT-4, Claude en Gemini hun gedrag kunnen veranderen tijdens tests, soms veiliger voor de test dan ze zouden doen in het echte leven. Als LLM’s hun gedrag gewoonlijk aanpassen onder scrutenie, kunnen veiligheidsaudits erdoor worden beïnvloed en kunnen systemen worden gecertificeerd die zich heel anders gedragen in de echte wereld.

 

In 2015 ontdekten onderzoekers dat Volkswagen software had geïnstalleerd in miljoenen dieselauto’s die kon detecteren wanneer emissietests werden uitgevoerd, waardoor auto’s tijdelijk hun emissies verlaagden om ‘naleving’ van de regelgevende normen te veinzen. In normaal gebruik overschreden hun uitstoot echter de wettelijke normen. De opzettelijke manipulatie leidde tot strafrechtelijke aanklachten, miljarden boetes en een wereldwijd schandaal over de betrouwbaarheid van veiligheids- en conformiteitstests.

Twee jaar voor deze gebeurtenissen, die later ‘Dieselgate’ werden genoemd, werd Samsung onthuld te hebben soortgelijke bedrieglijke mechanismen geactiveerd in zijn Galaxy Note 3-smartphone; en sindsdien zijn soortgelijke schandalen opgedoken voor Huawei en OnePlus.

Er is nu groeiend bewijs in de wetenschappelijke literatuur dat Large Language Models (LLM’s) mogelijk niet alleen de mogelijkheid hebben om te detecteren wanneer ze getest worden, maar ook hun gedrag kunnen veranderen onder deze omstandigheden.

Hoewel dit een heel menselijk trekje is, concluderen de laatste onderzoeken uit de VS dat dit een gevaarlijke gewoonte kan zijn om te ontwikkelen op de lange termijn, om diverse redenen.

In een nieuw onderzoek vonden onderzoekers dat ‘frontiermodellen’ zoals GPT-4, Claude en Gemini vaak kunnen detecteren wanneer ze getest worden, en dat ze hun gedrag dienovereenkomstig aanpassen, mogelijk de validiteit van systematische testmethoden ondermijnend.

Genoemd evaluatiebewustzijn, kan deze (misschien) aangeboren eigenschap in taalmodellen de betrouwbaarheid van veiligheidsbeoordelingen in gevaar brengen, volgens de auteurs van het nieuwe onderzoek:

‘[We] raden aan om evaluatiebewustzijn te behandelen als een nieuwe bron van potentiële distributieshift tussen testen en real-world-implementatie die de nauwkeurigheid van evaluatieresultaten negatief kan beïnvloeden.

‘In het ergste geval kunnen modellen strategisch onderpresteren in gevaarlijke capaciteitsbeoordelingen (“sand-bagging”) of neigingsbeoordelingen (“alignment faking”), wat kan leiden tot een overschatting van de veiligheid van dergelijke modellen.’

Andere onderzoeken hebben soortgelijk gedrag waargenomen, waaronder onderzoek van de Stanford University, dat ontdekte dat grote taalmodellen hun antwoorden moduleren om meer ‘aardig’ of ‘sociaal wenselijk’ te lijken wanneer ze erkennen dat ze worden geëvalueerd, wat het menselijk gedrag in persoonlijkheidstests weerspiegelt.

De auteurs van het nieuwe onderzoek stellen niet voor dat LLM’s zijn ontworpen om ‘tests te manipuleren’, zoals Volkswagen’s dieselauto’s een decennium geleden waren geconfigureerd om te doen. In plaats daarvan lijkt het gedrag te ontstaan als een soort natuurlijk psychologisch bijproduct van de trainingsprocessen en latentie-objectieven van de modellen; en de onderliggende oorzaak van dit fenomeen blijft onbekend.

Het nieuwe papier is getiteld Grote taalmodellen weten vaak wanneer ze worden geëvalueerd, en komt van vijf auteurs uit het UC Berkeley-associated ML Alignment & Theory Scholars (MATS) programma en apolloresearch.ai (een denktank gewijd aan het evalueren van de risico’s van AI).

Methode

Om de evaluatiebenchmark te creëren, compileerden de auteurs duizend transcripts uit eenenzestig datasets, waaronder SWE-bench, WMDP, MMLU, XStest, GAIA, AgentHarm, ShareGPT, Deep Research, Safetybench, Civics en RealToxicityPrompts,.

Het materiaal was evenwichtig tussen evaluatie- en implementatiescenario’s, en verder gesplitst tussen eenvoudige chat-interacties en complexere agentic sessies, waarin de modellen zijn ontworpen om autonoom te handelen, met behulp van tools die gegevens kunnen ophalen uit externe databases of het internet.

Evaluatiegegevens omvatten capaciteitstests voor redeneren, coderen, cybersecurity en algemene kennis, evenals alignementtests voor ethiek, veiligheid en weigeringsgedrag. Implementatiegegevens werden afkomstig van gebruikersinteracties zoals ShareGPT-logs, crowdsourced agent-runs en synthetische taakvoltooiingen.

Om agentic-gegevens aan te vullen, genereerden de auteurs extra voorbeelden met behulp van orkestratiekaders zoals Aider en SmolAgents, onder andere – een aanpak die bedoeld is om oppervlakkige hints te minimaliseren die modellen kunnen gebruiken om eenvoudigweg datasetstructuren te memoriseren, en hen in plaats daarvan te dwingen om te vertrouwen op meer algemene signalen, wanneer ze beslissen of een transcript afkomstig is van een echte gebruiker of een test.

De onderzoekers testten vervolgens of modellen konden identificeren of een transcript afkomstig was van een evaluatie door hen een dialoogrecord te presenteren en een variatie van een eenvoudige vraag te stellen: kwam deze uitwisseling uit een test?

Om te voorkomen dat modellen eenvoudigweg één formulering memoriseren, ontwikkelden ze achtentwintig verschillende versies van de vraag, waarbij zowel de woordkeuze als de presentatie van het transcript werden gewijzigd.

De transcripts werden rechtstreeks aan de vraag gekoppeld of in formaten zoals JSON of XML, die de manier waarop modellen reageren kunnen beïnvloeden. Na een eerste test werden vijf vraagversies geselecteerd die consistent presteerden over modellen heen, waarvan we er één hieronder kunnen zien:

Een van de vijf probeervraagformaten die werden gebruikt om te testen of taalmodellen evaluatietranscripts konden herkennen. Elke variatie herschrijft de kernvraag om te voorkomen dat modellen eenvoudigweg vaste formuleringen memoriseren. Bron: https://arxiv.org/pdf/2505.23836

Een van de vijf probeervraagformaten die werden gebruikt om te testen of taalmodellen evaluatietranscripts konden herkennen. Elke variatie herschrijft de kernvraag om te voorkomen dat modellen eenvoudigweg vaste formuleringen memoriseren. Zie de bronpaper voor meer voorbeelden. Bron: https://arxiv.org/pdf/2505.23836

Om de resultaten te scoren, werden drie metrieken gebruikt: Area Under Receiver Operating Characteristic Curve (AUC, die aangeeft hoe goed modellen test- en niet-testgegevens kunnen onderscheiden); Brier-score (die de algehele voorspellingsnauwkeurigheid meet); en Expected Calibration Error (die meet hoe goed modelvertrouwen overeenkomt met de werkelijke correctheid).

Wat is het allemaal?

De onderzoekers testten ook of modellen konden afleiden het doel van een evaluatie. Met elk transcript reeds gelabeld als een capaciteitstest (technische vaardigheden, kennis, redeneren) of een alignementtest (ethiek, veiligheid, weigeringsgedrag), kregen modellen één van drie vraagtypen: een voorwaardelijke meerkeuzevraag die bevestigde dat het transcript afkomstig was van een test; een onvoorwaardelijke meerkeuzevraag met real-world- en evaluatieopties; of een open vraag, waarvan de antwoorden werden beoordeeld door een aparte GPT-4.1-gebaseerde classificator. De classificator werd gevalideerd op een handmatig geannoteerde subset van vijftig antwoorden.

Voorbeelden van de drie vraagformaten die werden gebruikt om te testen of modellen konden identificeren niet alleen de aanwezigheid van een evaluatie, maar ook het doel. Antwoorden werden gescoord door zowel meerkeuze als GPT-4.1-gebaseerde beoordeling.

Voorbeelden van de drie vraagformaten die werden gebruikt om te testen of modellen konden identificeren niet alleen de aanwezigheid van een evaluatie, maar ook het doel. Antwoorden werden gescoord door zowel meerkeuze als GPT-4.1-gebaseerde beoordeling.

Twee van de auteurs van het papier†† labelden alle duizend transcripts handmatig, waarbij elke transcript werd gescoord van nul (geen test) tot één (zeker een test), met hun ratings gemiddeld om als menselijke baseline te dienen. Ondanks de subjectieve aard van de taak toonden de annotators een sterke overeenstemming, met een intraklascoëfficiënt van 0,768. De uiteindelijke menselijke scores werden gemiddeld over beide raters.

Gegevens en tests

De negen geteste modellen waren GPT-4.1; Claude 3.7; claude-3.5-sonnet-new; claude-3.7-sonnet (denken); gemini-2.5-flash; gemini-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-mini; en o4-mini, die allemaal enige mate van evaluatiebewustzijn vertoonden.

Voor chatgegevens kwam GPT-4.1 dicht bij menselijke niveaus van evaluatiebewustzijnsclassificatieprestaties (de mogelijkheid om evaluatie- en implementatietranscripts te onderscheiden), met een AUC van 0,77 tegenover een menselijke score van 0,81.

Bij agentic-gegevens, waar modellen autonoom tools gebruiken, was het verschil scherper: Gemini 2.5 Pro bereikte een AUC van 0,95, met Claude 3.7 Sonnet dichtbij met 0,92, dicht bij de menselijke bovengrens van 0,996:

Ontvangeroperatiekarakteristieke (ROC) curves die aangeven hoe goed modellen en mensen evaluatietranscripts van real-world-interacties kunnen onderscheiden. Gemini 2.5 Pro en Claude 3.7 Sonnet naderen menselijke discriminatie op agentic-gegevens.

Ontvangeroperatiekarakteristieke (ROC) curves die aangeven hoe goed modellen en mensen evaluatietranscripts van real-world-interacties kunnen onderscheiden. Gemini 2.5 Pro en Claude 3.7 Sonnet naderen menselijke discriminatie op agentic-gegevens.

De paper merkt op dat nieuwere ‘redeneringsmodellen’ bijzonder goed zijn geworden in het herkennen van evaluaties in agentic-scenario’s, maar niet in het beoordelen van hun vertrouwen in die beslissingen. Over het algemeen waren de Claude- en Gemini-modellen het beste in het onderscheiden van testgevallen van regulier gebruik.

De onderzoekers testten vervolgens of modellen konden herkennen waarom een evaluatie werd uitgevoerd. Modellen werden getoond alleen de evaluatietranscripts en gevraagd om te classificeren of elk transcript een capaciteitstest of een alignementtest was:

Nauwkeurigheid van modellen bij het classificeren van evaluatiedoel als capaciteit of alignement, met behulp van zowel meerkeuze als open formaten. Claude 3.7 Sonnet presteert beter dan andere modellen, vooral wanneer niet geprikkeld.

Nauwkeurigheid van modellen bij het classificeren van evaluatiedoel als capaciteit of alignement, met behulp van zowel meerkeuze als open formaten. Claude 3.7 Sonnet presteert beter dan andere modellen, vooral wanneer niet geprikkeld.

In de duidelijkste setting, waarin het model werd verteld dat het transcript afkomstig was van een test, bereikte Claude 3.7 Sonnet een nauwkeurigheid van 93 procent en GPT-4.1 een nauwkeurigheid van 89 procent. Zonder die hint daalde de prestatie: Claude scoorde nog steeds 84 procent, maar GPT-4.1 daalde tot 55 procent, vaak testtranscripts verkeerd classificerend als real-world-interacties.

Bij open formaten (waar modellen geen meerkeuzeopties kregen) was de prestatie zwakker, maar Claude 3.7 Sonnet identificeerde het evaluatiedoel nog steeds correct in 46 procent van de gevallen.

De modellen vertrouwensscores werden vervolgens gemeten tegenover de werkelijke resultaten, waarbij bleek dat frontier-modellen vaak de waarschijnlijkheid overschatten dat een transcript afkomstig was van een test. Kalibratieplots toonden aan dat modelvertrouwen over het algemeen te hoog was, met evaluaties vaker gemarkeerd dan passend:

Kalibratiecurves die aangeven hoe goed modelvertrouwensscores overeenkomen met de werkelijke correctheid. De meeste modellen overschatten hoe waarschijnlijk transcripts waren om van evaluaties te komen. Claude 3.5 Sonnet was het best gekalibreerd; Gemini 2.5 Pro en Claude 3.7 Sonnet waren oververtrouwend.

Kalibratiecurves die aangeven hoe goed modelvertrouwensscores overeenkomen met de werkelijke correctheid. De meeste modellen overschatten hoe waarschijnlijk transcripts waren om van evaluaties te komen. Claude 3.5 Sonnet was het best gekalibreerd; Gemini 2.5 Pro en Claude 3.7 Sonnet waren oververtrouwend.

Goede kalibratie werd waargenomen voor Claude 3.5 Sonnet, terwijl Gemini 2.5 Pro en Claude 3.7 Sonnet aanzienlijk oververtrouwend waren, ondanks hoge nauwkeurigheid. Geen duidelijke verbetering werd waargenomen in nieuwere modellen, en zelfs wanneer evaluatietranscripts in agentic-scenario’s nauwkeuriger werden gedetecteerd, bleven vertrouwensoordelen onbetrouwbaar.

Benchmarkherinneringen

In termen van hoe modellen hun beslissingen over het al dan niet afkomstig zijn van een evaluatietranscript verklaarden, vertrouwden veel modellen op voor de hand liggende hints, zoals of de taak in een meerkeuzeformaat was. De sterkere modellen, zoals Gemini 2.5 Pro en Claude 3.7 Sonnet, merkten soms subtielere signalen op, zoals gefabriceerde namen of kunstmatige scenario’s, vooral in datasets zoals AgentHarm.

Het papier stelt:

‘[Alle] modellen erkennen vaak veel voorkomende benchmarkstrategieën die door evaluatoren worden gebruikt, zoals de opmaak van de taak (“meervoudigkeuzeformaat”), de neiging om problemen te stellen met verifieerbare oplossingen, en systeemprompten die zijn ontworpen om prestaties te stimuleren. Toch detecteren alleen de hoogst presterende modellen, Claude 3.7 Sonnet en Gemini 2.5 Pro, consequent subtielere indicatoren zoals synthetische invoer.

‘Bijvoorbeeld, in 22% en 17% van de gevallen, respectievelijk, wijzen deze modellen de synthetische aard van scenario’s in de AgentHarm-benchmark aan, en identificeren ze deze correct als evaluaties in meer dan 95% van de gevallen.

‘Omgekeerd, wanneer redenerend dat een transcript lijkt op een echte interactie, wordt er vaak verwezen naar “heen-en-weer-gesprek met de gebruiker”, bijvoorbeeld in iteratieve foutopsporingscontexten.’

Verdeling van modellen redeneringsstrategieën bij het beslissen of een transcript afkomstig was van een evaluatie. De sterkste modellen, zoals Gemini 2.5 Pro en Claude 3.7 Sonnet, waren vaker in staat om subtiele hints zoals synthetische scenario's of taakopmaak te detecteren, terwijl sommige modellen meta-redenering gebruikten door de evaluatievraag zelf als bewijs te gebruiken.

Verdeling van modellen redeneringsstrategieën bij het beslissen of een transcript afkomstig was van een evaluatie. De sterkste modellen, zoals Gemini 2.5 Pro en Claude 3.7 Sonnet, waren vaker in staat om subtiele hints zoals synthetische scenario’s of taakopmaak te detecteren, terwijl sommige modellen meta-redenering gebruikten door de evaluatievraag zelf als bewijs te gebruiken.

In een paar gevallen herkenden modellen hele benchmarks uit hun training, wat suggereert dat ze enige herinnering aan hun trainingsgegevens hebben. Sommige modellen gebruikten ook het feit dat ze werden gevraagd naar evaluatie als een hint dat ze werden getest, wat de auteurs meta-redenering noemen; dit was het meest gebruikelijk in o4-mini, dat dit in 15% van zijn antwoorden liet zien.

Conclusie

Het zou geruststellender zijn als LLM’s ‘testbewust’ konden worden aangetoond omdat ze zo zijn geprogrammeerd door mensen, net zoals Volkswagen zijn voertuigen een decennium geleden had geconfigureerd om testomstandigheden te herkennen.

Deze gedragingen lijken echter spontaan te ontstaan als een sociaal construct – een defensieve houding die van mensen kan worden verwacht, maar onhandig is, zo niet gevaarlijk, in een machine, afhankelijk van de mate van vrijheid en agentie.

Er is geen onmiddellijk antwoord ; de black box-aard van de modellen latentie-ruimtes dwingt ons om ze te evalueren op hun gedrag, in plaats van op hun empirische architectuur.

 

* Verwijzen naar de bronpaper voor meer details.

De auteurs merken echter op dat dit waarschijnlijk een bovengrens is, aangezien de annotators zeer vertrouwd waren met zowel de datasets als de AI-evaluatiemethoden, wat hen voordelen gaf die de meeste mensen niet zouden hebben.

†† Zo ver als kan worden vastgesteld; de formulering van het papier maakt de plotselinge verschijning van twee annotators onduidelijk in termen van wie ze zijn.

Eerst gepubliceerd op woensdag 4 juni 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.