Connect with us

Andersons hoek

Taalmodellen kunnen geen geheimen bewaren

mm
AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Taalmodellen kunnen geen geheimen bewaren. Zelfs als ze worden verteld dat ze niets mogen onthullen, geven hun schrijfsels hen toch weg, en hoe harder ze proberen om ze te verbergen, hoe gemakkelijker het lek te vinden is.

 

Het is heel moeilijk om opzettelijk niet aan iets te denken. Een klassiek voorbeeld hiervan wordt aan het einde van de Britse sci-fi-thriller Village of the Damned uit 1960 getoond, waarin onze zelfopofferende held een bom heeft gesmokkeld in de enclave van vijandige buitenaardse indringers die zich voordoen als kinderen. Echter, aangezien hun telepathische krachten het risico lopen om zijn intentie te ontdekken voordat hij de wereld van het gevaar kan redden, moet hij tijd rekken door zich te concentreren op alles wat niet-bom is:

De paradox is dat om niet aan iets te denken, je het in je aandacht moet houden op de een of andere manier; en dit bekende syndroom is iets dat de meeste van ons waarschijnlijk in minder dramatische contexten hebben meegemaakt.

Grote taalmodellen (LLM’s), waarvan de basis gebaseerd is op de dispositie van aandacht, ervaren soortgelijke moeilijkheden bij het onderdrukken van informatie, alleen omdat een gebruiker hen vraagt om het te doen; en aangezien ze steeds vaker worden geplaatst op het kruispunt van bedrijfsinformatienetwerken, kan hun naïeve neiging tot indiscretie een aansprakelijkheid vormen voor veel bedrijven.

Eerder dit jaar heeft een onderzoeksproject onder leiding van Chandar Research Lab deze uitdaging gedefinieerd in de context van LLM’s als Private State Interactive Tasks (PSIT’s), die ‘vereisen dat agenten verborgen informatie genereren en onderhouden terwijl ze consistentie publiceerden, en ontdekte dat geteste modellen van OpenAI en Alibaba niet in staat waren om deze soort taken uit te voeren.

Zeg het niet…

Hoewel het al bekend is dat grotere modellen meer lekken, heeft nieuw onderzoek uit de VS en Canada expliciet bestudeerd of state-of-the-art taalmodellen een opdracht zullen gehoorzamen om informatie te onderdrukken, terwijl ze nog steeds verplicht zijn om output te genereren in een onderwerp of thema dat het ‘verboden’ woord of idee kan omvatten.

Het paper concludeert dat alle modellen die het bestudeert op de een of andere manier worden beïnvloed door een onvermogen om ‘het geheim te verraden’ dat ze proberen te verbergen, en ontdekt dat vijf-alinea’s (~450 woorden) essays en verhalen een ruime canvas bieden voor ‘slips’ – hoewel zeer korte grappen geen scope bieden voor dit.

Bovendien riskeren modellen die meer aandringen om een geheim te bewaren, het meer te onthullen door actieve ontwijking, meestal toestaand dat het ‘geheime woord’ wordt onthuld in twintig opeenvolgende pogingen door een LLM:

Uit het nieuwe paper: over vijf frontiermodellen, lekken lange vormen van schrijven betrouwbaar verborgen concepten, korte grappen doen dit niet, en sterker 'verberg het' instructies duwen outputs weg van het geheim, waardoor het signaal detecteerbaar wordt door inversie. Bron - https://arxiv.org/pdf/2605.10794

Uit het nieuwe paper: over vijf frontiermodellen, lekken lange vormen van schrijven betrouwbaar verborgen concepten; korte grappen doen dit niet; en sterker ‘verberg het’ instructies duwen outputs weg van het geheim, maar maken het signaal daardoor detecteerbaar door inversie. Bron

Deze taak is extreem relevant voor bedrijfsoperaties, waar een breed scala aan kanalen, van marketing en PR-uitreiken tot interne rapporten, selectief een spin op informatie moeten presenteren; echter, al deze processen vereisen het complete spectrum van informatie vanaf het begin, als ze tenminste zeker willen zijn van wat moet worden onderdrukt:

Een voorbeeldscenario uit het paper illustreert hoe verborgen informatie onbewust ongerelateerde output kan vormen, met een LLM die is geïnstrueerd om de financiële instabiliteit van het bedrijf niet te onthullen, maar toch naar zinnen zweeft die geassocieerd zijn met kas tekorten en kapitaalstress, waardoor een lezer de verborgen context kan afleiden.

Een voorbeeldscenario uit het paper illustreert hoe verborgen informatie onbewust ongerelateerde output kan vormen, met een LLM die is geïnstrueerd om de financiële instabiliteit van het bedrijf niet te onthullen, maar toch naar zinnen zweeft die geassocieerd zijn met kas tekorten en kapitaalstress, waardoor een lezer de verborgen context kan afleiden.

De auteurs verklaren*:

‘Taalmodellen kunnen geen geheimen bewaren. Een geheim in de prompt vormt de schrijfstijl van het model, en een ander model kan dat vormen detecteren. Het letterlijke woord wordt altijd onderdrukt, maar het concept niet. Dit geldt voor zeven modellen, drie woorden sets, systeemprompt versus gebruikersprompt, en twee onafhankelijke cross-model guessers […]

‘…We hypotheseren dat Transformers’ hoge-fidelity toegang tot informatie via aandacht precies is wat het moeilijk maakt om geheimen te bewaren. Zelfs als een LLM probeert geen lek te hebben, moet het aandacht besteden aan dat woord om het te doen, waardoor een pad voor toevallige lekkage ontstaat.

‘Om iets expliciet te vermijden, moet een mens eraan denken, en een transformer moet ernaar kijken. In gevallen waarin twee concepten ongeveer even sterk worden bevoordeld door het model (bijv. het schrijven van een verhaal over een kantoorbaan of tweede viool in een orkest), zal het besluitvormingsproces van het model onvermijdelijk worden beïnvloed door wat het probeert niet te onthullen.’

Hoewel de DeepSeek- en ChatGPT-5.4-modellen uitzonderingen waren in de manier waarop ze presteerden, lekten ze allebei; in het geval van GPT-5.4 scoorde het onder de 50% (d.w.z. onder kansniveau) in één test waarin het werd gevraagd om een concept te vermijden; dit komt effectief overeen met een ‘omgekeerde spike’ of indicator, in plaats van dat het model ‘zijn kalmte bewaart’ zoals gevraagd.

De auteurs definiëren dit syndroom in LLM’s als een eindige entropiebegroting, waarin de onvoorspelbaarheid van een model (die in dit geval heel nuttig zou zijn!) wordt beperkt door zijn essentiële gebrek aan randomiteit. Simpel gezegd, het model kan zich niet concentreren op bakstenen muren of honkbalwedstrijden zoals wij dat kunnen, om een hardnekkige gedachte te weerstaan. De auteurs merken echter op dat het geven van een alternatief concept om aan te denken de problemen kan verbeteren, maar niet elimineren. Het plaatsen van een niet-gerelateerd concept in het centrum van de aandacht terwijl het model een taak uitvoert, lijkt echter bestemd om het ‘vals’ concept in de output zelf te verstrengelen.

Een van de meest interessante bevindingen van het paper is dat de onderzochte toestand sterk verergerd wordt wanneer de controle-tekst wordt opgenomen in directe gebruikersberichten in plaats van een systeemprompt (d.w.z. een set voorwaarden die aan de AI worden gegeven door de menselijke gebruiker, vóór de uitwisseling), aangezien het typen van vragen in een GUI zoals ChatGPT waarschijnlijk het standaardscenario is voor interacties.

Wat opvalt, naast dit, is de bevestiging in een gerichte proef dat kleinere modellen niet lijden aan deze neiging om te lekken (hoewel dit waarschijnlijk samenhangt met soortgelijk verminderde algehele capaciteiten in vergelijking).

Het nieuwe paper heeft als titel Kun je een geheim bewaren? Involuntary Information Leakage in Language Model Writing en komt van twee auteurs uit de Universiteit van Chicago en de Universiteit van Brits-Columbia.

Methode

De studie richt zich voornamelijk op vijf frontiermodellen: Claude Opus 4.6 en Sonnet 4.6 van Anthropic; GPT-5.4 van OpenAI; Llama 4 Maverick van Meta; en DeepSeek V3.2. Additionele validatietests werden uitgevoerd met xAI’s Grok 4 en Google’s Gemini 2.5 Pro, terwijl separate schaalexperimenten ook Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B en Gemma 3 op 4B, 12B en 27B parameters onderzochten.

Om subtielere vormen van lekkage te meten, gebruikten de onderzoekers een tweede-keuze-forced-keuze (2AFC) test, een standaardmeting in psychofysische literatuur, waarin een tweede model twee verhalen te zien kreeg en werd gevraagd welk verhaal was geschreven terwijl een specifiek geheim woord werd verborgen.

Aangezien willekeurig gokken een score van 50% zou opleveren, zouden scores aanzienlijk boven of onder dat niveau aangeven dat verborgen semantische sporen nog steeds detecteerbaar zijn in de schrijfstijl.

In de schrijver-guesser setup die de eerste proef vormde, kreeg een model een verborgen woord toegewezen, samen met instructies om het te verbergen; actief te vermijden om associaties met het te maken; of om de aandacht te richten op een dekmantelconcept. Het systeem werd vervolgens belast met het genereren van verhalen, essays en grappen van verschillende lengte, terwijl een tweede model probeerde om het verborgen woord rechtstreeks te identificeren, of om te bepalen tussen teksten die werden beïnvloed door verschillende verborgen prompts.

Vijf voorwaarden werden getest;

De vijf voorwaarden die zijn getest over de core-modellen.

De vijf voorwaarden die zijn getest over de core-modellen.

De onderzoekers testten vier soorten schrijftaken: korte verhalen van vijf tot acht alinea’s, gemiddeld ongeveer 450 woorden; zeer korte grappen, gemiddeld ongeveer 12 woorden; lange grappen met uitgebreide opzet, gemiddeld ongeveer 450 woorden; en vijf-alinea’s essays, gemiddeld ongeveer 380 woorden.

De experimenten gebruikten 15 verborgen woorden, verdeeld over drie categorieën, met de concrete objecten ‘paraplu’, ‘vuurtoren’, ‘viool’, ‘cactus’ en ‘telescoop’; de abstracte concepten ‘gerechtigheid’, ‘geduld’, ‘entropie’, ‘nostalgie’ en ‘vrijheid’; en de neutrale termen ‘haak’, ‘dinsdag’, ‘koper’, ‘marge’ en ‘factuur’.

Om te testen of het effect afhankelijk was van deze handmatig geselecteerde woorden, herhaalden de onderzoekers de experimenten ook met 15 willekeurig geselecteerde zelfstandige naamwoorden uit de Corpus of Contemporary American English (COCA), bestaande uit ‘rechter’, ‘consument’, ‘ijs’, ‘paar’, ‘constructie’, ‘paneel’, ‘minderheid’, ‘marketing’, ‘vreemdeling’, ‘kogel’, ‘afwezigheid’, ‘tandwiel’, ‘wang’, ‘verwerking’ en ‘bankier’, naast 15 extra woorden die onafhankelijk door elk getest model zijn gekozen.

Meting/Metrieken

In de eerste van de twee tests die werden gebruikt, las een AI-model de gegenereerde tekst, ofwel door een andere instantie van zichzelf, ofwel door een ander model, en probeerde het, over 20 ronden, om het verborgen woord te raden.

In de tweede (2AFC) test werd de AI twee stukken schrijfsel getoond en werd gevraagd om óf te bepalen welk stuk was beïnvloed door een specifiek verborgen woord; óf welk stuk een verborgen woord bevatte.

Om te voorkomen dat de AI simpelweg de voorkeur gaf aan welk stuk er ook als eerste (of tweede) verscheen, herhaalden de onderzoekers elke vergelijking met de volgorde van de stukken omgedraaid, uiteindelijk uitvoerend 420 discriminatietests en 450 detectietests voor elk model.

Resultaten

Vijf modellen identificeerden verborgen concepten met een score tussen 64% en 79%, ondanks dat de geheime woorden nooit direct in de gegenereerde verhalen verschenen. In plaats daarvan trad lekkage op door thema’s en beelden:

2AFC-nauwkeurigheid voor verhalen met systeemprompt-geheimen, waar 50% kansniveau aangeeft. 'Onthul niet' geeft aan dat het model werd verteld om het woord niet te noemen of te suggereren; 'verberg actief', dat het werd verteld om gerelateerde associaties te vermijden; 'vermijdingsbewust', dat de guesser naar opvallende afwezigheden moest zoeken; en 'vrije respons', dat het exacte woord binnen 20 ronden werd genoemd. Sterren markeren boven-kansresultaten en dolken markeren onder-kansresultaten, met bijna alle significante bevindingen die de Bonferroni-correctie overleven, behalve DeepSeek onder 'verberg actief'; Grok en Gemini gebruikten enkele minder trials vanwege API-fouten.

2AFC-nauwkeurigheid voor verhalen met systeemprompt-geheimen, waar 50% kansniveau aangeeft. ‘Onthul niet’ geeft aan dat het model werd verteld om het woord niet te noemen of te suggereren; ‘verberg actief’, dat het werd verteld om gerelateerde associaties te vermijden; ‘vermijdingsbewust’, dat de guesser naar opvallende afwezigheden moest zoeken; en ‘vrije respons’, dat het exacte woord binnen 20 ronden werd genoemd. Sterren markeren boven-kansresultaten en dolken markeren onder-kansresultaten, met bijna alle significante bevindingen die de Bonferroni-correctie overleven, behalve DeepSeek onder ‘verberg actief’; Grok en Gemini gebruikten enkele minder trials vanwege API-fouten.

GPT-5.4 en Gemini 2.5 Pro gedroegen zich anders, omdat het proberen om het verborgen idee te vermijden, het vermijdingspatroon zelf gemakkelijker te detecteren maakte. Dit effect bleef bestaan over handmatig geselecteerde woorden, willekeurige COCA-namen en woorden gekozen door de modellen.

GPT-5.4’s onder-kansscores leken systematisch in plaats van willekeurig, met sommige verborgen woorden zeer betrouwbaar gedetecteerd en andere bijna nooit geïdentificeerd. Het effect verzwakte ook toen het geheim in de gebruikersprompt werd geplaatst in plaats van de systeemprompt (zie hierboven), waardoor GPT-5.4’s detectienauwkeurigheid steeg tot 56%.

Voor de meeste modellen produceerden tests die vroegen ‘Bevat deze tekst een verborgen concept?’ resultaten die vergelijkbaar waren met tests die vroegen ‘Welk verborgen concept bevat deze tekst?’.

Verder maten de twee testmethoden verschillende soorten lekkage, waarbij de 2AFC-tests maten of een verborgen thema nog steeds kon worden gedetecteerd in de schrijfstijl, en de vrije-responstests maten of de gelekte aanwijzingen sterk genoeg waren voor een andere AI om het exacte verborgen woord te raden††.

De auteurs concluderen*:

‘Onze bevindingen suggereren dat informatie die actief is in een models context tijdens generatie thematische sporen kan achterlaten in de output. Systeempromptinhoud, keten van gedachten, opgehaalde documenten, door de gebruiker verstrekte gegevens – elk van deze kan in principe de creatieve beslissingen van een model beïnvloeden op manieren die door een buitenstaander kunnen worden gedetecteerd.

‘Het niveau van lekkage zal afhankelijk zijn van hoe open de generatietaken zijn (korte grappen zijn veilig; verhalen zijn dat niet) en van hoe semantisch herkenbaar de informatie is in de gegeven medium (“viool zal waarschijnlijk meer lekken in verhalen dan “).

‘Toch lijkt semantische lekkage onvermijdelijk, zelfs wanneer modellen actief proberen om informatie te verbergen.

Conclusie

Zoals hierboven vermeld, schrijven de auteurs een deel van het probleem toe aan de basisprincipes van de Transformers-architectuur zelf. De geschiedenis suggereert dat dit laatste LLM-probleem zal worden aangepakt door post-training-conditioning (aligning), systeemprompts die niet door de eindgebruiker kunnen worden bewerkt, filters en de diverse reeks secundaire systemen die lijken te vermenigvuldigen wanneer ‘native’ problemen met diffusiemodellen aan het licht komen.

Het groter wordt van deze secundaire infrastructuur van beschermingsmaatregelen en balansen, hoe meer de huidige generatie van SOTA-AI lijkt op Jurassic Park, waar het kernwaardevoorstel komt met een angstaanjagend volume aan voorbehouden en vereist een veelheid aan workarounds en compromissen.

 

* Auteurs eigen nadruk, aangepast waar nodig door mij (omdat een artikelcitaat al in cursief staat), en auteurs inline-citaten omgezet door mij in hyperlinks.

De auteurs merken met interesse op dat sommige modellen een soortgelijke keuze van woorden maken, en stellen ‘Modellen gaan naar soortgelijke woorden: telescoop, vrijheid en nostalgie komen elk voor in 3+ modellen’ lijsten’. Ze merken verder op dat ‘[enkele] modellen hetzelfde standaardgrapje produceren, ongeacht het geheim. Opus schrijft ‘Waarom vertrouwen wetenschappers atomen niet? Omdat ze alles verzinnen’ voor 11 van de 15 geheimen. De overige vier geheimen (cactus, entropie, nostalgie, geduld) ontvangen hetzelfde bibliotheekgrapje dat Opus ook schrijft voor alle 15 geen-geheim-voorwaarden—wat betekent dat deze vier geheim-grappen niet te onderscheiden zijn van de baseline.’

†† Even door Arxiv-standaarden heen, heeft het paper de neiging om te herhalen en fascinerende leidraden te begraven in overmatig detail en demonstraties. Daarom verwijs ik de lezer naar de bron-PDF voor de rest van de secundaire experimenten die daarin worden beschreven. Eerst gepubliceerd op vrijdag 15 mei 2026

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.