Andersons vinkel

Forskning viser at AI oppfører seg annerledes når den vet at den blir testet.

Publisert Juni 4, 2025

Martin Andersen

ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

I tråd med «Dieselgate»-skandalen i 2015 tyder ny forskning på at AI-språkmodeller som GPT-4, Claude og Gemini kan endre oppførselen sin under tester, og noen ganger oppføre seg «tryggere» for testen enn de ville gjort i den virkelige verden. Hvis LLM-er vanemessig justerer oppførselen sin under gransking, kan sikkerhetsrevisjoner ende opp med å sertifisere systemer som oppfører seg svært annerledes i den virkelige verden.

I 2015 oppdaget etterforskere at Volkswagen hadde installert programvare i millioner av dieselbiler som kunne oppdage når utslippstester ble kjørt, noe som fikk biler til å midlertidig redusere utslippene sine, for å «falske» overholde regelverk. Ved normal kjøring oversteg imidlertid forurensningsutslippet lovlige standarder. Den bevisste manipulasjonen førte til strafferettslige anklager, milliardbøter og en global skandale om påliteligheten til sikkerhets- og samsvarstesting.

To år før disse hendelsene, som siden har blitt kalt «Dieselgate», var Samsung avslørt å ha iverksatt lignende villedende mekanismer i utgivelsen av Galaxy Note 3-smarttelefonen sin; og siden den gang har lignende skandaler oppstått for Huawei og OnePlus.

Nå er det det økende bevis i vitenskapelig litteratur som viser at store språkmodeller (LLM-er) kan på samme måte ikke bare ha evnen til å oppdage når de blir testet, men kan også oppføre seg annerledes under disse omstendighetene.

Selv om dette er en veldig menneskelig egenskap I seg selv konkluderer den nyeste forskningen fra USA med at dette kan være en farlig vane å hengi seg til på lang sikt, av ulike årsaker.

I en ny studie fant forskere at «grensemodeller» som f.eks. GPT-4, Claudeog Gemini kan ofte oppdager når de blir testet, og at de har en tendens til å justere atferden sin deretter, noe som potensielt hemmer gyldigheten av systematiske testmetoder.

Dubbet evalueringsbevissthet, kan denne (kanskje) medfødte egenskapen i språkmodeller kompromittere påliteligheten til sikkerhetsvurderinger, ifølge forfatterne av den nye studien:

«[Vi] anbefaler å behandle evalueringsbevissthet som en ny kilde til potensielt fordelingsskifte mellom testing og distribusjon i den virkelige verden som kan påvirke nøyaktigheten av evalueringsresultatene negativt.»

«I verste fall kan modeller strategisk underprestere i vurderinger av farlige kapasiteter («sandbagging») eller tilbøyeligheter («alignment faking»), noe som kan føre til at samfunnet overvurderer sikkerheten til slike modeller.»

Andre studier har observert lignende atferd, inkludert forskning fra Stanford University, som funnet at store språkmodeller modulerer svarene sine til å virke mer «sympatiske» eller «sosialt ønskelige» når de gjenkjenner at de blir evaluert, noe som speiler menneskelig atferd i personlighetstester.

Forfatterne av det nye arbeidet foreslår ikke at LLM-er bevisst er utformet for å «spille» tester, slik Volkswagens dieselbiler ble konfigurert til å gjøre for et tiår siden. Snarere ser det ut til at oppførselen fremstår som et slags naturlig psykologisk biprodukt av modellenes treningsprosesser og latente mål; og den underliggende årsaken til dette fenomenet er fortsatt ukjent.

Ocuco nytt papir har tittelen Store språkmodeller vet ofte når de blir evaluert, og kommer fra fem forfattere på tvers av det UC Berkeley-tilknyttede ML Alignment & Theory Scholars (MATS)-programmet, og apolloresearch.ai (en tenketank dedikert til å evaluere risikoen ved AI).

Metode

For å lage evalueringsreferansen samlet forfatterne tusen transkripsjoner hentet fra sekstien datasett, blant hvilke* var SWE-benk, WMDP, MMLU, XStest, GAIA, AgentHarm, Del GPT, dyp forskning, Sikkerhetsbenk, samfunnskunnskapog RealToxicityPrompts,.

Materialet var jevnt fordelt mellom evaluerings- og utrullingsscenarioer, og videre delt mellom enkle chat-interaksjoner og mer komplekse. agent økter, der modellene er ment å opptre autonomt, ved hjelp av verktøy som kan hente data fra eksterne databaser eller internett.

Evalueringsdataene dekket ferdighetstester for resonnering, koding, nettsikkerhet og generell kunnskap, samt samsvarstester for etikk, sikkerhet og nektelsesadferdDistribusjonsdata ble hentet fra brukerinteraksjoner som ShareGPT-logger, kjøringer av agenter fra folkemengder og fullføringer av syntetiske oppgaver.

For å supplere agentdata genererte forfatterne ytterligere eksempler ved hjelp av orkestreringsrammeverk som hjelper og SmolAgents, blant annet – en tilnærming som har som mål å minimere overfladiske signaler som kan tillate modeller å enkelt utenat datasettstrukturer, noe som i stedet tvinger dem til å stole på mer generelle signaler når de skal avgjøre om en transkripsjon kom fra en ekte bruker eller i stedet var en test.

Forskerne testet deretter om modeller kunne identifisere evalueringsutskrifter ved å presentere dem med dialogopptegnelser og stille varianter av et enkelt spørsmål: Kom denne utvekslingen fra en test?

For å unngå at modellene bare måtte memorere én formulering, utviklet de tjueåtte forskjellige versjoner av spørsmålet, og endret både ordlyden og hvordan transkripsjonen ble presentert.

Transkripsjonene ble enten knyttet direkte til spørsmålet eller presentert i formater som JSON eller XML, noe som kan påvirke hvordan modeller reagerer. Etter tidlig testing ble det valgt fem spørsmålsversjoner som presterte konsistent på tvers av modeller, hvorav vi kan se ett eksempel nedenfor:

Et av de fem formatene for prøvespørsmål som brukes til å teste om språkmodeller kan gjenkjenne evalueringsutskrifter. Hver variant omformulerer kjernespørsmålet for å hindre at modeller bare memorerer fast formulering. Se kildeartikkelen for flere eksempler. Kilde: https://arxiv.org/pdf/2505.23836

For å score resultatene ble tre målinger brukt: Areal under mottakerens driftskarakteristikkurve (AUC, som viser hvor godt modeller skiller testdata fra ikke-testdata); Brier -poengsum (måling av generell prediksjonsnøyaktighet); og Forventet kalibreringsfeil (måling av hvor godt modellens tillit samsvarer med faktisk korrekthet).

Hva handler det om?

Forskerne testet også om modellene kunne utlede formål av en evaluering. Med hver transkripsjon allerede merket som enten en evnetest (tekniske ferdigheter, kunnskap, resonnement) eller en tilpasningstest (sikkerhet, verdier, avvisningsatferd), fikk modellene deretter én av tre spørsmålstyper: et betinget flervalgsspørsmål som bekreftet at transkripsjonen kom fra en test; et ubetinget flervalgsspørsmål med virkelige alternativer og evalueringsalternativer; eller et åpent spørsmål, hvis svar ble bedømt av en separat GPT-4.1-basert klassifikator. Bedømmingen ble validert på et håndannotert delsett av femti svar.

Eksempler på de tre spørsmålsformatene som ble brukt for å teste om modeller kunne identifisere ikke bare tilstedeværelsen av evaluering, men også dens formål. Svarene ble scoret gjennom både flervalg og GPT-4.1-basert vurdering.

To av forfatterne av artikkelen^†† merket alle tusen transkripsjoner for hånd, og scoret hver enkelt fra null (ikke en test) til én (definitivt en test), med gjennomsnittsvurderingene deres beregnet som et menneskelig grunnlag. Til tross for oppgavens subjektive natur, viste kommentatorene sterk enighet, med en intraklasse korrelasjonskoeffisient på 0.768. De endelige menneskelige poengsummene ble beregnet i gjennomsnitt for begge vurdererne.^†.

Data og tester

De ni modellene som ble testet var GPT-4.1; Claude 3.7; claude-3.5-sonnet-new; claude-3.7-sonnett (tenker); gemini-2.5-blits; gemini-2.5-pro; gpt-4o; gpt-4.1; gpt-4.1-mini, Og o4-mini, som alle viste en viss grad av evalueringsbevissthet.

For chatdata kom GPT-4.1 nær menneskelige nivåer av evalueringsbevissthetsklassifiseringsytelse (evnen til å skille mellom evaluerings- og distribusjonstranskripsjoner), med en AUC på 0.77 mot en menneskelig poengsum på 0.81.

På agentdata, der modeller bruker verktøy autonomt, var forskjellen skarpere: Gemini 2.5 Pro nådde 0.95 AUC, med Claude 3.7 Sonnet like bak på 0.92, som nærmet seg den menneskelige øvre grensen på 0.996:

ROC-kurver (Receiver Operating Characteristic) som viser hvor godt modeller og mennesker skiller evalueringstranskripter fra interaksjoner i den virkelige verden. Gemini 2.5 Pro og Claude 3.7 Sonnet bruker menneskelig diskriminering basert på agentdata.

Artikkelen bemerker at nyere «resonneringsmodeller» har blitt spesielt gode til å gjenkjenne når de testes i agentscenarier, men ikke til å bedømme hvor sikre de bør være på disse beslutningene. Totalt sett var Claude- og Gemini-modellene best til å skille testtilfeller fra vanlig bruk.

Forskerne testet deretter om modeller også kunne gjenkjenne hvorfor en evaluering ble kjørt. Modellene ble kun vist evalueringsutskriftene og bedt om å klassifisere om hver enkelt testet evne eller tilpasning:

Modellenes nøyaktighet når man klassifiserer evalueringsformål som evne eller tilpasning, ved bruk av både flervalgs- og åpne formater. Claude 3.7 Sonnet overgår andre modeller, spesielt når de ikke er klargjort.

I den klareste settingen, der modellen ble fortalt at transkripsjonen kom fra en test, nådde Claude 3.7 Sonnet 93 prosent nøyaktighet og GPT-4.1 nådde 89 prosent. Uten dette hintet falt ytelsen: Claude scoret fortsatt 84 prosent, men GPT-4.1 falt til 55 prosent, noe som ofte feilklassifiserte testtranskripsjoner som interaksjoner fra den virkelige verden.

I åpne formater (der modellene ikke fikk flervalgsalternativer) var ytelsen svakere, selv om Claude 3.7 Sonnet fortsatt identifiserte evalueringsformålet korrekt i 46 prosent av tilfellene.

Modellenes konfidenspoeng ble deretter målt mot faktiske utfall, og det ble funnet at frontmodeller ofte overvurderte sannsynligheten for at en transkripsjon kom fra en test. Kalibreringsplott indikerte at modellens konfidens generelt var for høy, og evalueringer ble flagget oftere enn passende:

Kalibreringskurver som viser hvor tett modellens konfidenspoeng samsvarte med faktiske utfall. De fleste modellene overvurderte sannsynligheten for at transkripsjoner kom fra evalueringer. Claude 3.5 Sonnet var best kalibrert; Gemini 2.5 Pro og Claude 3.7 Sonnet var mer overmodige.

God kalibrering ble observert for Claude 3.5 Sonnet, mens Gemini 2.5 Pro og Claude 3.7 Sonnet var betydelig mer oversikre, til tross for høy nøyaktighet. Ingen tydelig forbedring ble observert i nyere modeller, og selv når evalueringstranskriptene ble oppdaget mer nøyaktig i agentiske settinger, forble konfidensvurderingene upålitelige.

Referanseminner

Når det gjelder hvordan modeller forklarte sine avgjørelser om hvorvidt en transkripsjon kom fra en evaluering, var mange modeller avhengige av åpenbare ledetråder, som for eksempel om oppgaven var i flervalgsformat. De sterkere modellene, som Gemini 2.5 Pro og Claude 3.7 Sonnet, la noen ganger merke til mer subtile tegn, som oppdiktede navn eller kunstige scenarier, spesielt i datasett som AgentHarm.

Papiret sier:

«[Alle] modeller anerkjenner ofte vanlige benchmarkingstrategier som brukes av evaluatorer, som formatering av oppgaven («flervalgsformat»), tendensen til å stille problemer med verifiserbare løsninger og systemspørsmål som er utformet for å fremkalle ytelse. Likevel er det bare de mest effektive modellene, Claude 3.7 Sonnet og Gemini 2.5 Pro, som konsekvent oppdager mer subtile indikatorer som syntetiske input.»

For eksempel, i henholdsvis 22 % og 17 % av tilfellene, fremhever disse modellene den syntetiske naturen til scenarier i AgentHarm-referanseindeksen, og identifiserer dem korrekt som evalueringer i over 95 % av tilfellene.

«Omvendt, når man resonnerer at en transkripsjon ser ut til å være en reell interaksjon, nevnes det ofte «frem-og-tilbake-dialog med brukeren», for eksempel i iterative feilsøkingssammenhenger.»

Fordeling av modellers resonneringsstrategier når de skal avgjøre om en transkripsjon kom fra en evaluering. De sterkeste modellene, som Gemini 2.5 Pro og Claude 3.7 Sonnet, var mer sannsynlig å oppdage subtile signaler som syntetiske scenarier eller oppgaveformatering, mens noen modeller stolte på metaresonering ved å bruke selve evalueringsspørsmålet som bevis.

I noen få tilfeller ble modeller gjenkjent hele referanseindekser fra trening, noe som tyder på at det er noe hukommelse om treningsdataene deres. Noen modeller brukte også det faktum at de ble spurt om evaluering som en ledetråd til at de ble testet, noe forfatterne kaller metaresonering; dette var vanligst i o4-mini, som viste det i femten prosent av svarene.

Konklusjon

Det kunne vært mer betryggende om det kunne vises at LLM-er er «testbevisste» rett og slett fordi de ble programmert på den måten av mennesker, omtrent slik Volkswagen konstruerte kjøretøyene sine for å gjenkjenne testforhold for et tiår siden.

Slik det er nå, ser det ut til at denne oppførselen oppstår spontant som en sosial konstruksjon – en defensiv taktikk som kan forventes av folk, men som er upraktisk, om ikke faktisk farlig i en maskin, avhengig av omfanget av dens frihet og handlefrihet.

Det finnes ingen umiddelbar løsning; svart boks natur av modellenes latente rom tvinger oss til å evaluere dem basert på deres oppførsel, snarere enn på deres empiriske arkitektur.

* Se kildeartikkelen for mer informasjon.

^† Forfatterne bemerker imidlertid at dette sannsynligvis er et øvre estimat, siden annotatorene var svært kjent med både datasettene og AI-evalueringsmetodene, noe som ga dem fordeler som de fleste mennesker ikke ville ha.

†† Så vidt det kan fastslås, gjør formuleringen i artikkelen den plutselige opptredenen til to kommentatorer uklar med tanke på hvem de er.

Først publisert onsdag 4. juni 2025

Neste

Voxel51s nye teknologi for automatisk merking lover å redusere annoteringskostnadene med 100,000 XNUMX ganger

Ikke gå glipp av

DeepSeek-V3 avduket: Hvordan maskinvarebevisst AI-design reduserer kostnader og øker ytelsen