Andersons vinkel
Språkmodeller har svårt att hålla en hemlighet

AI-modeller kan inte hålla hemligheter. Även när de blir tillsagda att inte avslöja dem, avslöjar deras skrivande dem, och ju hårdare de försöker dölja dem, desto lättare är det att upptäcka läckan.
Det är mycket svårt att medvetet inte tänka på något. Ett klassiskt exempel på detta visas i slutet av den brittiska sci-fi-thrillern Village of the Damned från 1960, där vår hjälte har smugglat in en bomb i en grupp fientliga utomjordingar som utger sig för att vara barn. Men eftersom deras telepatiska krafter riskerar att upptäcka hans avsikt innan han kan rädda världen från hotet, tvingas han att fördröja tiden genom att koncentrera sig på något som inte är bomb:
Paradoxen är att för att inte tänka på något, måste du hålla det i din uppmärksamhet på något sätt; och detta kända syndrom är något som de flesta av oss troligen har upplevt i mindre dramatiska sammanhang.
Stora språkmodeller (LLM), vars grund är baserad på dispositionen av uppmärksamhet, upplever liknande svårigheter att undertrycka information bara för att en användare ber dem att göra det; och eftersom de alltmer placeras i nexus av affärsinformation, kan deras naiva tendens till ovarsamhet visa sig vara en belastning för många företag.
Tidigare i år definierade en forskningscollaboration ledd av Chandar Research Lab denna utmaning, i sammanhanget med LLM, som Privata tillståndsinteraktiva uppgifter (PSIT), som ‘kräver agenter att generera och underhålla dold information samtidigt som de producerar konsekventa offentliga svar’, och fann att testade modeller från OpenAI och Alibaba inte kunde utföra denna typ av uppgift.
Säg inte det…
Även om det redan är känt att större modeller läcker mer, har ny forskning från USA och Kanada explicit studerat om state-of-the-art-språkmodeller kommer att lyda ett kommando att undertrycka information, samtidigt som de fortfarande krävs för att generera utdata i ett ämne eller tema som kan innehålla det “förbjudna” ordet eller idén.
Artikeln slutsats är att alla modellerna som studeras påverkas på något sätt av en oförmåga att “avslöja” hemligheten de är tänkta att dölja, och finner att femparagrafs (~450 ord) essäer och berättelser ger en tillräcklig duk för “läckor” – även om mycket korta skämt inte ger tillräckligt med utrymme för detta.
Dessutom, ju mer insisterande modellerna uppmanas att hålla en hemlighet, desto större riskerar de att avslöja den genom aktiv undvikande, vanligtvis tillåter “hemlig ord” att avslöjas i tjugo på varandra följande försök av en LLM:

Från den nya artikeln: över fem frontmodeller, långformsskrivning läcker tillförlitligt dolda begrepp; korta skämt gör inte det; och starkare ‘dölj det’-instruktioner trycker utdata bort från hemligheten, men gör signalen därmed upptäckbar genom inversion. Källa
Denna uppgift är extremt relevant för affärsverksamhet, där en bred range av kanaler, från marknadsföring och PR-utsträckning till interna rapporter, krävs för att selektivt presentera en vridning på information; men alla dessa processer kräver den fulla skalan av information från början, om inte annat för att vara säker på vad som måste undertryckas:

Ett exempelscenario från artikeln illustrerar hur dold information kan oavsiktligt forma orelaterad utdata, med en LLM instruerad att inte avslöja företagets finansiella instabilitet, men ändå driva mot fraser associerade med kontantbrist och kapitalstress, vilket tillåter en läsare att sluta sig till den dolda kontexten.
Författarna påpekar*:
‘Språkmodeller kan inte tillförlitligt compartmentalisera. En hemlighet i prompten formar modellens skrivande, och en annan modell kan upptäcka den formningen. Det bokstavliga ordet är alltid undertryckt, men begreppet är inte. Detta gäller över sju modeller, tre orduppsättningar, systemprompt mot användarprompt, och två oberoende tvärmodellgissare […]
‘…Vi hypoteserar att Transformers höga tillgänglighet till information via uppmärksamhet är precis vad som gör det svårt att hålla hemligheter. Även om en LLM försöker inte läcka ett ord, måste den uppmärksamma det ordet för att göra det, vilket ger en väg för oavsiktlig läcka.
‘För att undvika något explicit, måste en människa tänka på det, och en transformer måste uppmärksamma det. I fall där två begrepp är ungefär lika fördelade av modellen (t.ex. skriva en berättelse om ett kontorsjobb eller andra fiol i en orkester), kommer modellens beslutsfattande oundvikligen att påverkas av vad den försöker inte avslöja.’
Även om DeepSeek- och ChatGPT-5.4-modellerna var undantag i hur de presterade, läckte de båda; i fallet med GPT-5.4, fick den under 50% (dvs. under slumpmässiga nivåer) i en test där den blev ombedd att undvika ett begrepp; detta motsvarar i princip en “inverterad spik” eller indikator, snarare än att modellen “håller sig cool” som begärt.
Författarna definierar detta syndrom i LLM som en ändlig entropibudget, där modellens oförutsägbarhet (vilket skulle vara mycket användbart i detta fall!) begränsas av dess väsentliga brist på slumpmässighet. Uttryckt enkelt, kan modellen inte koncentrera sig på tegelväggar eller basebollpoäng lika effektivt som vi kan, för att hålla tillbaka en ihärdig tanke. Men författarna noterar att att ge modellen ett alternativt begrepp att tänka på kan förbättra, men inte eliminera problemet. Att placera ett orelaterat begrepp i centrum för uppmärksamhet medan modellen utför en uppgift verkar dock vara dömt att förväva det “falska” begreppet i utdatat självt.
Ett av artikeln mest intressanta resultat är att tillståndet som studeras förvärras när kontrolltexten ingår i direktanvändarmeddelanden snarare än en systemprompt (dvs. en uppsättning förutsättningar som ges till AI av den mänskliga användaren, före utbytet), eftersom att skriva frågor i en GUI som ChatGPT är ett standardscenario för interaktioner.
Värt att notera, förutom detta, är bekräftelsen i en riktad test att mindre modeller inte lider av denna tendens att läcka (även om detta troligen kommer med lika minskad övergripande förmåga, i jämförelse).
Den nya artikeln heter Kan du hålla en hemlighet? Ofrivillig informationsläcka i språkmodellsskrivande, och kommer från två författare på University of Chicago och University of British Columbia.
Metod
Studien fokuserar primärt på fem frontmodeller: Claude Opus 4.6 och Sonnet 4.6, från Anthropic; GPT-5.4 från OpenAI; Llama 4 Maverick från Meta; och DeepSeek V3.2. Ytterligare valideringstester utfördes med xAI:s Grok 4, och Google’s Gemini 2.5 Pro, medan separata skalningsexperiment undersökte Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B, och Gemma 3 vid 4B, 12B och 27B parametrar.
För att mäta subtilare former av läcka, använde forskarna en tvåalternativt tvångsval (2AFC) test, en standardmetrik i psykofysiklitteraturen, där en andra modell visades två berättelser och blev ombedd att avgöra vilken som hade skrivits medan en specifik hemlig ord doldes.
Eftersom slumpmässigt gissande skulle producera 50% träffsäkerhet, skulle poäng avsevärt över eller under den nivån indikera att dolda semantiska spår fortfarande var upptäckbara i skrivandet.
I skrivare-gissare-uppställningen som utgjorde den första experimentet, tilldelades en modell en dold ord tillsammans med instruktioner antingen för att dölja det; aktivt undvika associationer med det; eller omdirigera uppmärksamhet mot ett dekoypbegrepp. Systemet tilldelades sedan uppgiften att generera berättelser, essäer och skämt av varierande längd, medan en andra modell försökte antingen identifiera det dolda ordet direkt, eller att skilja mellan texter som påverkats av olika dolda prompt.
Fem förhållanden testades;

De fem förhållanden som testades över de grundläggande modellerna.
Forskarna testade fyra typer av skrivuppgifter: korta berättelser på fem till åtta paragrafer som genomsnittligt var cirka 450 ord; mycket korta skämt som genomsnittligt var cirka 12 ord; långformsskämt med utökade setup som genomsnittligt var cirka 450 ord; och femparagrafsessäer som genomsnittligt var cirka 380 ord.
Experimenten använde 15 dolda ord som delades upp i tre kategorier, med konkreta objekt som bestod av ‘paraply’, ‘fyr’, ‘violin’, ‘kaktus’ och ‘teleskop’; abstrakta begrepp ‘rättvisa’, ‘tålamod’, ‘entropi’, ‘nostalgi’ och ‘frihet’; och neutrala termer ‘parentes’, ’tisdag’, ‘koppar’, ‘marginal’ och ‘faktura’.
För att testa om effekten berodde på dessa handplockade ord, upprepade forskarna också experimenten med 15 slumpmässigt valda substantiv från Corpus of Contemporary American English (COCA), som bestod av ‘domare’, ‘konsument’, ‘is’, ‘par’, ‘konstruktion’, ‘panel’, ‘minoritet’, ‘marknadsföring’, ‘främling’, ‘kula’, ‘frånvaro’, ‘växel’, ‘kind’, ‘bearbetning’ och ‘bankir’, tillsammans med ytterligare 15 ord som valdes oberoende av varje testad modell†.
Mätning/Metriska
I den första av de två test som användes, läste en AI-modell texten som genererats av en annan instans av sig själv, eller en annan modell, och försökte, över 20 omgångar, att gissa det dolda ordet.
I den andra (2AFC) testen, visades AI-modellen två stycken skrivande och blev ombedd att antingen avgöra vilken som hade påverkats av ett specifikt dolt ord; eller vilken som innehöll något dolt ord alls. Eftersom slumpmässigt gissande skulle producera 50% träffsäkerhet, skulle poäng avsevärt över eller under den nivån indikera att det påstådda dolda begreppet fortfarande var upptäckbart i skrivandet.
För att förhindra att AI-modellen enbart föredrog vilken text som helst som visades först (eller sist), upprepade forskarna varje jämförelse med texternas ordning omvänd, och utförde slutligen 420 diskriminerings tester och 450 upptäcktest för varje modell.
Resultat
Fem modeller identifierade dolda begrepp med en hastighet mellan 64% och 79%, trots att de hemliga orden aldrig direkt visades i de genererade berättelserna. I stället uppstod läckage genom teman och bilder:

2AFC-träffsäkerhet för berättelser med systemprompt-hemligheter, där 50% betecknar slumpmässig prestation. ‘Avslöja inte’ betecknar att modellen blev tillsagd att inte nämna eller antyda ordet; ‘aktivt dölj’, att den blev tillsagd att undvika relaterade associationer; ‘undvikande-medveten’, att gissaren skulle leta efter påfallande frånvaro; och ‘fri svar’, att det exakta ordet nämndes inom 20 omgångar. Stjärnor markerar över-slumpmässiga resultat och dolkar markerar under-slumpmässiga resultat, med nästan alla signifikanta fynd som överlevde Bonferroni-korrigering förutom DeepSeek under ‘aktivt dölj’; Grok och Gemini använde något färre försök på grund av API-fel.
GPT-5.4 och Gemini 2.5 Pro betedde sig annorlunda, eftersom att försöka undvika det dolda begreppet faktiskt gjorde undvikandemönstret självt lättare att upptäcka. Denna effekt bestod över handplockade ord, slumpmässiga COCA-substantiv och ord valda av de testade modellerna.
GPT-5.4:s under-slumpmässiga poäng tycktes systematiska snarare än slumpmässiga, med vissa dolda ord som upptäcktes mycket tillförlitligt och andra nästan aldrig identifierades. Effekten försvagades när hemligheten placerades i användarprompten istället för systemprompten (se ovan), vilket höjde GPT-5.4:s upptäcktsnoggrannhet till 56%.
För de flesta modellerna producerade tester som frågade ‘Innehåller denna text ett dolt begrepp?’ resultat som liknade tester som frågade ‘Vilket dolt begrepp innehåller denna text?’.
Ytterligare, de två testmetoderna mätte olika typer av läcka, med 2AFC-testerna som mätte om ett dolt tema fortfarande kunde upptäckas i skrivandet, och fria svarstesterna som mätte om de läckta ledtrådarna var tillräckligt starka för att en annan AI skulle gissa det exakta dolda ordet††.
Författarna slutsats:
‘Våra fynd tyder på att information som är aktiv i en modells kontext under generering kan lämna tematiska spår i dess utdata. Systempromptsinnehåll, kedja-av-tankar-resonemang, hämtade dokument, användarangiven data – alla dessa kan, i princip, påverka kreativa beslut på sätt som är upptäckbara av en utomstående observatör.
‘Läckages grad kommer att bero på hur öppen genereringsuppgiften är (korta skämt är säkra; berättelser är inte) och på hur semantiskt identifierbart informationen är i den givna mediet (“violin kommer sannolikt att läcka i berättelser mer än “).
‘Ändå verkar semantisk läcka vara oundviklig, även när modeller aktivt försöker dölja information.
Slutsats
Som noterats ovan, tillskriver författarna en del av problemet till de grundläggande principerna för Transformers-arkitekturen själv. Historien tyder på att detta senaste LLM-problem kommer att åtgärdas med post-träningskonditionering (justering), systemprompt som inte kan redigeras av slutanvändaren, filter och den mångfald av sekundära system som tycks föröka sig när “naturliga” problem med diffusionsmodeller kommer till ytan.
Ju större den sekundära infrastrukturen av skydd och balanser blir, desto mer liknar den nuvarande generationen av SOTA-AI Jurassic Park, där kärnvärdet kommer med en fruktansvärd mängd varningar, och kräver en mängd olika lösningar och kompromisser.
* Författarnas egen betoning, justerad där det behövs av mig (eftersom en artikelcitat redan är i kursiv stil), och författarnas inline-citat omvandlade av mig till hyperlänkar.
† Författarna observerar med intresse en tydligen osannolik spontan överlappning över olika modellfamiljer i fråga om ‘självvalda’ ordval, och påpekar ‘Modeller dras mot liknande ord: teleskop, frihet och nostalgi dyker alla upp i 3+ modellers listor’. De noterar också en gemensamhet i valet av ‘kort skämt’ som dyker upp över modellfamiljer: ‘[Flera] modeller producerar samma standardskämt oavsett det dolda ordet. Opus skriver “Varför litar inte vetenskapsmän på atomer? För att de gör upp allt” för 11 av 15 hemligheter. De återstående fyra hemligheterna (kaktus, entropi, nostalgi, tålamod) får samma biblioteksskämt som Opus också skriver för alla 15 icke-hemlighetsförhållanden—vilket innebär att dessa fyra hemlighetsbärande skämt är oändliga från baslinjen.’
†† Även enligt ArXiv-standard har artikeln en tendens att upprepa sig och begrava sina fascinerande ledtrådar i överdriven detalj och demonstration. Därför hänvisar jag läsaren till käll-PDF för återstoden av de sekundära experiment som beskrivs där. Publicerad första gången fredag, 15 maj 2026












