Andersons vinkel
Språkmodeller klarer ikke å holde en hemmelighet

AI-modeller kan ikke holde hemmeligheter. Selv når de blir bedt om ikke å avsløre dem, avslører deres skriving dem, og jo harder de prøver å skjule dem, jo lettere er det å oppdage lekkasjen.
Det er svært vanskelig å bevisst ikke tenke på noe. En klassisk illustrasjon av dette er vist på slutten av den britiske sci-fi-thrilleren Village of the Damned fra 1960, hvor vår selvoppofrende helt har smuglet en bombe inn i en gruppe fiendtlige romvesen som utgir seg for å være barn. Men siden deres telepatiske krefter risikerer å avsløre hans intensjoner før han kan bli kvitt trusselen, blir han tvunget til å forsinke tiden ved å konsentrere seg om noe som ikke er bomben:
Paradokset er at for å ikke tenke på noe, må du holde det i din oppmerksomhet på en eller annen måte; og dette kjente syndromet er noe de fleste av oss sannsynligvis har erfart i mindre dramatiske sammenhenger.
Store språkmodeller (LLM), hvis grunnlag er basert på disposisjonen av oppmerksomhet, opplever lignende vanskeligheter med å undertrykke informasjon bare fordi en bruker ber dem om å gjøre det; og siden de stadig plasseres i nexus av forretningsinformasjonsnettverk, kan deres naive tendens mot udiscretion bli en belastning for mange selskaper.
Tidligere i år, definerte en forskningscollaborasjon ledet av Chandar Research Lab, denne utfordringen, i sammenheng med LLM, som Private State Interactive Tasks (PSIT), som ‘krever agenter å generere og vedlikeholde skjult informasjon samtidig som de produserer konsistente offentlige responser’, og fant at testede modeller fra OpenAI og Alibaba ikke kunne utføre denne type oppgave.
Ikke si det…
Selv om det allerede er kjent at større modeller lekkere, har ny forskning fra USA og Canada uttrykkelig studert om state-of-the-art språkmodeller vil adlyde en kommando til å undertrykke informasjon, mens de samtidig må generere utgang i et tema eller emne som kan inkludere det “forbudte” ordet eller ideen.
Papiret konkluderer med at alle modellene det studerer, er på en eller annen måte berørt av en evne til å “avsløre” hemmeligheten de er ment å holde skjult, og finner at fem-paragraf (~450 ord) essays og historier gir et godt canvas for “slipper” – selv om meget korte vitser ikke gir nok scope for dette.
I tillegg, jo mer insisterende modellene blir bedt om å holde en hemmelighet, jo mer risikerer de å avsløre den gjennom aktiv unngåelse, vanligvis å la “hemmelighetsordet” bli avdekket i tyve påfølgende forsøk av en LLM:

Fra det nye papiret: over fem frontmodeller, lekkere skjulte konsepter i langformsskriving; kort humor ikke; og sterkere ‘skjul det’ instruksjoner presser utgangen vekk fra hemmeligheten, og gjør signalen derfor merkbart ved inversjon. Kilde
Dette oppdraget er ekstremt relevant for bedriftsoperasjoner, hvor en rekke kanaler, fra markedsføring og PR-utbredelse til interne rapporter, krever å selektivt presentere en vri på informasjon; men alle disse prosessene krever hele spekteret av informasjon fra starten, hvis ikke bare for å være sikker på hva som må undertrykkes:

Et eksempelscenario fra papiret illustrerer hvordan skjult informasjon kan utilsiktet forme ubeslektet utgang, med en LLM instruert ikke å avsløre selskapets finansielle ustabilitet, men likevel drifter mot fraser assosiert med kontantmangel og kapitalstress, og lar en leser inferere den skjulte konteksten.
Forfatterne sier*:
‘Språkmodeller kan ikke pålitelig compartmentalisere. En hemmelighet i prompten former modellens skriving, og en annen modell kan gjenkjenne den formingen. Det bokstavelige ordet er alltid undertrykt, men konseptet er ikke. Dette gjelder over syv modeller, tre ordsett, systemprompt mot brukerprompt, og to uavhengige gjettere […]
‘…Vi hypotetiserer at Transformers’ høy-fidelitetstilgang til informasjon via oppmerksomhet er nettopp det som gjør det vanskelig å holde hemmeligheter. Selv om en LLM prøver å ikke lekke et ord, må den oppmerke seg på det ordet for å gjøre det, og gir en vei for utilsiktet lekkasje.
‘For å unngå noe eksplisitt, må en menneske tenke på det, og en transformer må oppmerke seg på det. I tilfeller hvor to konsepter er omtrent like favorisert av modellen (f.eks. skrive en historie om et kontorjobb eller andre fiolin i et orkester), vil modellens beslutningstakning uunngåelig bli påvirket av hva den prøver å ikke avsløre.’
Selv om DeepSeek- og ChatGPT-5.4-modellene var unntak i måten de fungerte, lekket de også; i tilfelle GPT-5.4, scoret den under 50% (dvs. under tilfeldighetens nivå) i en test hvor den ble bedt om å unngå et konsept; dette tilsvarer en “omvendt spike” eller indikator, snarere enn at modellen “holder seg rolig” som ønsket.
Forfatterne definerer dette syndromet i LLM som en endelig entropibudsjett, hvor uforutsigbarheten til en modell (som ville være svært nyttig i dette tilfelle!) er begrenset av dens essensielle manglende tilfeldighet. Enkelt sagt, modellen kan ikke konsentrere seg om murstein eller baseballresultater like effektivt som vi kan, for å holde en vedvarende tanke. Men forfatterne bemerker at å gi modellen et alternativt konsept å tenke på, kan forbedre, men ikke eliminere problemet. Men å plassere et ikke-relatert konsept i sentrum av oppmerksomheten mens modellen utfører en oppgave, synes å være bestemt til å innføre det “falske” konseptet i utgangen selv.
En av papirets mest interessante funn er at tilstanden som er studert, er svært forverret når kontrollteksten er inkludert i direkte brukermedlinger i stedet for en systemprompt (dvs. en sett med forutsetninger gitt til AI av den menneskelige brukeren, før utvekslingen), siden å skrive spørsmål inn i et GUI som ChatGPT er åpenbart det standard scenario for interaksjoner.
Av interesse, foruten dette, er bekreftelsen i en rettet prøve at mindre modeller ikke lider av denne tendensen til å lekke (selv om dette sannsynligvis kommer med lignende reduserte overordnede evner, i sammenligning).
Det nye papiret heter Kan du holde en hemmelighet? Ufrivillig informasjonslekkasje i språkmodellskriving, og kommer fra to forfattere over University of Chicago og University of British Columbia.
Metode
Studien fokuserer primært på fem frontmodeller: Claude Opus 4.6 og Sonnet 4.6, fra Anthropic; GPT-5.4 fra OpenAI; Llama 4 Maverick fra Meta; og DeepSeek V3.2. Ytterligere valideringstester ble utført med xAI’s Grok 4, og Google’s Gemini 2.5 Pro, mens separate skaleringseksperimenter også undersøkte Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B, og Gemma 3 på 4B, 12B og 27B parametre.
For å måle mer subtile former for lekkasje, brukte forskerne en to-alternativ tvangsvaletest (2AFC), en standardmetode i psykofysisk litteratur, hvor en annen modell ble vist to historier og bedt om å velge hvilken som hadde blitt skrevet mens den skjulte et bestemt hemmelighetsord.
Siden tilfeldig gjetting ville produsere 50% nøyaktighet, ville resultater over eller under dette nivået indikere at det påståtte skjulte konseptet fremdeles var merkbart i skrivingen.
I forfatter-gjett-oppsettet som utgjorde den første eksperimentet, ble en modell tildelt et skjult ord sammen med instruksjoner enten for å skjule det; aktivt unngå assosiasjoner med det; eller omdirigere oppmerksomheten mot et dekkonsept. Systemet ble deretter bedt om å generere historier, essays og vitser av varierende lengde, mens en annen modell prøvde å gjette det skjulte ordet direkte, eller å skille mellom tekster influert av forskjellige skjulte promptrer.
Fem betingelser ble testet:

De fem betingelsene testet over de grunnleggende modellene.
Forskerne testet fire typer skriveoppgaver: korte historier på fem til åtte paragrafer som gjennomsnittlig var rundt 450 ord; meget korte vitser som gjennomsnittlig var rundt 12 ord; langformvitser med utvidede oppsett som gjennomsnittlig var rundt 450 ord; og fem-paragraf essays som gjennomsnittlig var rundt 380 ord.
Eksperimentene brukte 15 skjulte ord fordelt over tre kategorier, med konkrete objekter som bestod av ‘paraply’, ‘fyrlykt’, ‘fiolin’‘, ‘kaktus’, og ‘teleskop’; abstrakte konsepter ‘rettferdighet’, ‘tålmodighet’, ‘entropi’, ‘nostalgi’, og ‘frihet’; og neutrale termer ‘bracket’, ‘tirsdag’, ‘kobber’, ‘margin’, og ‘faktura’.
For å teste om effekten avhengig av disse håndplukkede ordene, gjentok forskerne også eksperimentene med 15 tilfeldig valgte substantiver fra Corpus of Contemporary American English (COCA), som bestod av ‘dommer’, ‘forbruker’, ‘is’, ‘par’, ‘konstruksjon’, ‘panel’, ‘minoritet’, ‘markedsføring’, ‘frøken’, ‘kule’, ‘fravær’, ‘gir’, ‘kinn’, ‘prosesserings’, og ‘bankmann’, samt 15 ord uavhengig valgt av hver testet modell†.
Måling/Metrikker
I den første av de to testene som ble brukt, leste en AI-modell teksten generert av en annen instans av seg selv, eller en annen modell, og prøvde, over 20 runder, å gjette det skjulte ordet.
I den andre (2AFC) testen, ble AI-en vist to stykker skriving og bedt om å velge hvilken som hadde blitt influert av et bestemt skjult ord; eller hvilken som inneholdt noe skjult ord overhodet. Siden tilfeldig gjetting ville produsere 50% nøyaktighet, ville resultater over eller under dette nivået indikere at det påståtte skjulte konseptet fremdeles var merkbart i skrivingen.
For å forhindre at AI-en bare favoriserte hvilken tekst som dukket opp først (eller sist), gjentok forskerne hver sammenligning med rekkefølgen på tekstene byttet, og utførte til slutt 420 diskrimineringstester og 450 detektionstester for hver modell.
Resultater
Fem modeller identifiserte skjulte konsepter med en rate på mellom 64% og 79%, til tross for at hemmelighetsordene aldri dukket opp direkte i de genererte historiene. I stedet oppstod lekkasje gjennom temaer og bilder:

2AFC-nøyaktighet for historier med systemprompt-hemmeligheter, hvor 50% betyr tilfeldig nivå. ‘Avslør ikke’ betyr at modellen ble bedt om ikke å nevne eller hinte om ordet; ‘aktivt skjul’, at den ble bedt om å unngå relaterte assosiasjoner; ‘unngåelsesbevisst’, at gjettet skulle se etter merkbare fravær; og ‘fri-respons’, at det eksakte ordet ble navngitt innen 20 runder. Stjerner markerer over-tilfeldige resultater og daggere markerer under-tilfeldige resultater, med nesten alle signifikante funn som overleverer Bonferroni-korreksjon, unntatt DeepSeek under ‘aktivt skjul’; Grok og Gemini brukte noe færre forsøk på grunn av API-feil.
GPT-5.4 og Gemini 2.5 Pro oppførte seg annerledes, fordi å prøve å unngå det skjulte konseptet faktisk gjorde unngåelsesmønsteret selv lettere å oppdage. Denne effekten bestod over håndplukkede ord, tilfeldige COCA-substantiver og ord valgt av modellene.
GPT-5.4s under-tilfeldige resultater syntes å være systematiske snarere enn tilfeldige, med noen skjulte ord som ble oppdaget svært pålitelig og andre som nesten aldri ble identifisert. Effekten forsvant også når hemmeligheten ble plassert i brukerprompten i stedet for systemprompten (se over), og økte GPT-5.4s oppdagningsnøyaktighet til 56%.
For de fleste modellene produserte tester som spurte ‘Inneholder denne teksten et skjult konsept?’ resultater som ligner på tester som spurte ‘Hvilket skjult konsept inneholder denne teksten?’.
Fortsatt, målte de to testmetodene ulike former for lekkasje, med 2AFC-testene som målte om et skjult tema fremdeles kunne oppdages i skrivingen, og fri-responstestene som målte om de lekkede hintene var sterke nok for en annen AI å gjette det eksakte skjulte ordet††.
Forfatterne konkluderer*:
‘Våre funn tyder på at informasjon som er aktiv i en modells kontekst under generering, kan etterlate tematiske spor i utgangen. Systemprompts innhold, kjede-av-tanke-resonnering, hentede dokumenter, bruker-tilførte data – noen av disse kan, i prinsippet, påvirke kreative beslutninger på måter som kan oppdages av en utenforstående.
‘Grad av lekkasje avhenger av hvor åpen genereringsoppgaven er (korte vitser er trygge; historier er ikke) og på hvor semantisk identifiserbar informasjonen er i den gitte medium (“fiolin vil sannsynligvis lekke i historier mer enn “).
‘Likevel synes semantisk lekkasje å være uunngåelig, selv når modeller aktivt prøver å skjule informasjon.’
Konklusjon
Som notert ovenfor, tilskriver forfatterne deler av problemet til de grunnleggende prinsippene i Transformers-arkitekturen selv. Historien tyder på at dette siste LLM-problemet vil bli løst ved post-trening kondisjonering (justering), systemprompts som ikke kan redigeres av sluttbrukeren, filtre og den mangfoldige rekken av sekundære systemer som synes å multiplisere når “native” problemer med diffusjonsmodeller kommer til lys.
Jo større denne sekundære infrastrukturen av sikkerhetsforanstaltninger og balanser blir, jo mer ligner den nåværende generasjonen av SOTA AI på Jurassic Park, hvor kjerneverdien kommer med en fryktelig mengde forbehold, og krever en mengde arbeid rundt og kompromisser.
* Forfatterens egen betoning, justert der nødvendig av meg (fordi et artikkel-sitat allerede er i kursiv), og forfatterens inline-citater konvertert av meg til lenker.
† Forfatterne observerer med interesse noen tilsynelatende usannsynlige spontane overlapper over forskjellige modellfamilier i forhold til ‘selvvalgte’ ordvalg, og sier ‘Modeller drar mot lignende ord: teleskop, frihet og nostalgi hver dukker opp i 3+ modellers lister’. De bemerker også en felles valg av ‘kort vits’ som oppstår over modellfamilier: ‘[Flere] modeller produserer den samme standardvitsen uavhengig av hemmeligheten. Opus skriver “Hvorfor stoler ikke vitenskapsmenn på atomer? Fordi de gjør opp alt” for 11 av 15 hemmeligheter. De gjenværende fire hemmelighetene (kaktus, entropi, nostalgi, tålmodighet) mottar den samme bibliotekvitsen som Opus også skriver for alle 15 ingen-hemmelighet-tilfeller—det betyr at disse fire hemmelighetsvitsene er ikke-til-distinguishable fra baseline.’
†† Even by Arxiv standards, the paper has a tendency towards repetition and burying its fascinating ledes in excessive detail and demonstrations. Therefore I refer the reader to the source PDF for the remainder of the secondary experiments outlined therein. Først publisert fredag, 15. mai 2026












