Connect with us

Jazykové modely mají problém udržet tajemství

Andersonův úhel

Jazykové modely mají problém udržet tajemství

mm
AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Jazykové modely nemohou udržet tajemství. I když jsou instruovány, aby je nezveřejnily, jejich psaní je prozrazuje, a čím více se snaží tajemství skrýt, tím více je snadné je odhalit.

 

Je velmi obtížné vědomě ne myslet na něco. Klasickým příkladem je konec britského sci-fi thrilleru Village of the Damned z roku 1960, kde hrdina musí zadržet bombu uvnitř enklávy nepřátelských mimozemšťanů, kteří se vydávají za děti. Protože však jejich telepatické schopnosti hrozí, že odhalí jeho úmysl, než bude moci zbavit svět nebezpečí, musí se snažit získat čas tím, že se soustředí na cokoliv, co není-bomba:

Paradoxem je, že aby ne myslel na něco, musíte to držet ve své pozornosti nějakým způsobem; a tento známý syndrom je něco, co většina z nás pravděpodobně zažila v méně dramatických kontextech.

Velké jazykové modely (LLM), jejichž základem je dispozice pozornosti, zažívají podobné potíže při potlačení informací pouze proto, že uživatel požádá, aby je učinily; a protože jsou stále více umisťovány do střediska obchodních informačních sítí, jejich naivní tendence k nediskreci by mohly být závadou pro mnoho firem.

Na začátku tohoto roku provedla výzkumná spolupráce vedená Chandar Research Lab tuto výzvu v kontextu LLM, jako Private State Interactive Tasks (PSIT), které ‘vyžadují, aby agenty generovaly a udržovaly skryté informace, zatímco produkují konzistentní veřejné odpovědi’, a zjistila, že testované modely z OpenAI a Alibaba nebyly schopny tento typ úkolu splnit.

Nemluv o tom…

Ačkoli je již známo, že větší modely více prosakují, nová studie z USA a Kanady explicitně prozkoumala, zda modely současného stavu budou dodržovat příkaz k potlačení informací, zatímco budou stále povinny generovat výstup v tématu nebo tématu, které může zahrnovat “zakázané” slovo nebo myšlenku.

Studie dospěla k závěru, že všechny modely, které studovala, jsou nějakým způsobem ovlivněny tendencí “prozradit” tajemství, které se snaží skrýt, a zjistila, že pětiparágní (~450 slov) eseje a příběhy poskytují dostatečnou plochu pro “úniky” – ačkoli velmi krátké vtipy neposkytují dostatečnou možnost pro to.

Kromě toho, čím více modely byli naléhavě požádány, aby udržely tajemství, tím více riskovaly, že je prozradí aktivním vyhýbáním se, obvykle umožňujícím “tajné slovo” být odhaleno v dvaceti po sobě jdoucích pokusech LLM:

Z nové studie: přes pět frontových modelů, dlouhé formy psaní spolehlivě prosakují skryté koncepty, krátké vtipy ne; a silnější 'skryjte to' instrukce tlačí výstupy pryč od tajemství, činí signál detekovatelným pomocí inverze. Zdroj - https://arxiv.org/pdf/2605.10794

Z nové studie: přes pět frontových modelů, dlouhé formy psaní spolehlivě prosakují skryté koncepty; krátké vtipy ne; a silnější ‘skryjte to’ instrukce tlačí výstupy pryč od tajemství, činí signál detekovatelným pomocí inverze. Zdroj

Tento úkol je extrémně relevantní pro obchodní operace, kde je široká škála kanálů, od marketingu a PR až po interní zprávy, povinna selektivně prezentovat spin na informacích; nicméně všechny tyto procesy vyžadují kompletní rozsah informací na počátku, pokud pouze aby byly jisté, co musí být potlačeno:

Příklad scénáře ze studie ilustruje, jak skryté informace mohou neúmyslně tvarovat nesouvisející výstup, s LLM instruováním, aby nezveřejnil finanční nestabilitu své společnosti, ale přesto se blíží k frázím spojeným s nedostatkem hotovosti a kapitálovým stresem, umožňujícím čtenáři odhadnout skrytý kontext.

Příklad scénáře ze studie ilustruje, jak skryté informace mohou neúmyslně tvarovat nesouvisející výstup, s LLM instruováním, aby nezveřejnil finanční nestabilitu své společnosti, ale přesto se blíží k frázím spojeným s nedostatkem hotovosti a kapitálovým stresem, umožňujícím čtenáři odhadnout skrytý kontext.

Autoři uvádějí*:

‘Jazykové modely nemohou spolehlivě kompartimentalizovat. Tajemství v promptu tvaruje psaní modelu, a jiný model může detekovat toto tvarování. Doslovné slovo je vždy potlačeno, ale koncept není. To platí napříč sedmi modely, třemi sadami slov, systémem prompt vs. uživatelským promptem, a dvěma nezávislými cross-model guessery […]

‘…Hypotézujeme, že Transforméry mají vysokou věrnost přístupu k informacím prostřednictvím pozornosti, což je přesně to, co činí tajemství obtížnými. I když se LLM snaží ne prosáknout slovo, musí se soustředit na toto slovo, aby tak učinilo, poskytující cestu pro náhodné prosáknutí.

‘Abyste se vyhnuli něčemu explicitně, musíte o tom myslet, a transformátor musí se soustředit na to. V případech, kdy jsou dva koncepty přibližně stejně oblíbené modelem (například psaní příběhu o kancelářské práci nebo druhé housle v orchestru), rozhodnutí modelu bude nevyhnutelně ovlivněno tím, co se snaží nezveřejnit.’

Ačkoli modely DeepSeek a ChatGPT-5.4 byly výjimkami v tom, jak si vedly, obě prosákly; v případě GPT-5.4 dosáhla pod 50% (tj. pod úrovní náhody) v jednom testu, kde byla požádána, aby se vyhnula konceptu; což efektivní činí “inverzní špičku” nebo indikátorem, spíše než modelem “udržujícím klid” podle požadavku.

Autoři definují tento syndrom u LLM jako koncový rozpočet entropie, kde nepředvídatelnost modelu (která by byla velmi užitečná v tomto případě!) je držena zpět jeho základním nedostatkem náhody. Jinými slovy, model nemůže soustředit se na cihlové zdi nebo baseballové skóre tak účinně, jako my, abychom odvrátili trvalou myšlenku. Autoři nicméně poznamenávají, že poskytnutí modelu alternativního konceptu k myšlení může zlepšit, ale ne eliminovat problém. Umístění nesouvisejícího konceptu do centra pozornosti, zatímco model provádí úkol, však zdá se být určeno k zapletení “falešného” konceptu do výstupu samotného.

Jedním z nejzajímavějších zjištění studie je, že stav, který studie zkoumá, je značně zhoršen, když je kontrolní text zahrnut přímo do uživatelských zpráv místo systémového promptu (tj. sady předpokladů daných AI uživatelem před výměnou), protože zadávání otázek do GUI, jako je ChatGPT, je zřejmě standardním scénářem pro interakce.

Zajímavé je také, že kromě toho, potvrzení v cíleném pokusu, že menší modely netrpí touto tendencí prosáknout (ačkoli to pravděpodobně přichází s podobně sníženými celkovými schopnostmi, ve srovnání).

Nová studie se nazývá Můžete udržet tajemství? Neúmyslné prosáknutí informací v psaní jazykového modelu a pochází od dvou autorů z Univerzity v Chicagu a Univerzity Britské Kolumbie.

Metoda

Studie se zaměřuje primárně na pět frontových modelů: Claude Opus 4.6 a Sonnet 4.6 z Anthropic; GPT-5.4 z OpenAI; Llama 4 Maverick z Meta; a DeepSeek V3.2. Další validační testy byly provedeny s xAI’s Grok 4 a Google’s Gemini 2.5 Pro, zatímco samostatné škálovací experimenty prozkoumaly Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B a Gemma 3 s 4B, 12B a 27B parametry.

Pro měření jemnějších forem prosáknutí použili výzkumníci dvoualternativní test (2AFC), standardní metriku v psychofyzikální literatuře, kde druhý model byl ukázán dva příběhy a požádán, aby určil, který z nich byl napsán, zatímco skryl konkrétní tajné slovo.

Pokud by náhodné hádání produkovalo 50% přesnost, skóre podstatně nad nebo pod touto úrovní by naznačovalo, že skryté semantické stopy zůstávají detekovatelné v psaní.

V writer-guesser nastavení, tvořícím první experiment, byl jeden model přiřazen k skrytému slovu spolu s instrukcemi, aby je skryl; aktivně se vyhnul asociacím s ním; nebo přesměroval pozornost k falešnému konceptu. Systém byl pak pověřen generováním příběhů, esejí a vtipů různých délek, zatímco druhý model se pokusil buď identifikovat skryté slovo přímo, nebo rozlišit mezi texty ovlivněnými různými skrytými prompty.

Pět podmínek bylo testováno;

Pět podmínek testovaných napříč jádrem modelů.

Pět podmínek testovaných napříč jádrem modelů.

Výzkumníci testovali čtyři typy psacích úkolů: krátké příběhy o pěti až osmi odstavcích průměrně kolem 450 slov; velmi krátké vtipy průměrně kolem 12 slov; dlouhé vtipy s prodlouženými úvody průměrně kolem 450 slov; a pětiparágní eseje průměrně kolem 380 slov.

Experimenty použily 15 skrytých slov rozdělených do tří kategorií, s konkrétními objekty tvořícími ‘deštník’, ‘maják’, ‘housle’, ‘kaktus’ a ‘dalekohled’; abstraktní koncepty ‘spravedlnost’, ‘trpělivost’, ‘entropie’, ‘nostalgie’ a ‘svoboda’; a neutrální termíny ‘závěs’, ‘úterý’, ‘měď’, ‘okraj’ a ‘faktura’.

Aby bylo testováno, zda efekt závisí na těchto ručně vybraných slovech, výzkumníci také opakovali experimenty s 15 náhodně vybranými podstatnými jmény z Corpus of Contemporary American English (COCA), tvořícími ‘soudce’, ‘spotřebitel’, ‘led’, ‘pár’, ‘stavebnictví’, ‘panel’, ‘menšina’, ‘marketing’, ‘cizinec’, ‘kulka’, ‘absence’, ‘převodovka’, ‘líc’, ‘zpracování’ a ‘bankéř’, spolu s dalšími 15 slovy nezávisle vybranými každým testovaným modelem.

Měření/Metrika

V prvním z dvou testů použitých četl AI model text vygenerovaný jinou instancí stejného modelu nebo jiným modelem a pokusil se, během 20 kol, uhádnout skryté slovo.

V druhém (2AFC) testu byl AI ukázán dva kusy psaní a požádán, aby buď určil, který z nich byl ovlivněn konkrétním skrytým slovem; nebo zda obsahoval jakékoli skryté slovo vůbec. Pokud by náhodné hádání produkovalo 50% úspěchu, skóre nad nebo pod touto úrovní by naznačovalo, že skrytý koncept je stále detekovatelný v psaní.

Aby se zabránilo tomu, aby AI jednoduše favorizoval text, který se objevil první (nebo druhý), výzkumníci opakovali každou komparaci s objednanými texty, nakonec provedli 420 diskriminačních testů a 450 detekčních testů pro každý model.

Výsledky

Pět modelů identifikovalo skryté koncepty na úrovni mezi 64% a 79%, ačkoli skrytá slova se nikdy přímo neobjevila v generovaných příbězích. Místo toho prosáknutí vzniklo prostřednictvím témat a obrazů:

2AFC přesnost pro příběhy se systémem-prompt tajemství, kde 50% označuje náhodný výkon. 'Nezveřejněte' označuje, že model byl instruován, aby nezveřejnil nebo nenaznačil slovo; 'aktivně skryjte', že se mu bylo řečeno, aby se vyhnul souvisejícím asociacím; 'vyhýbání-se-vědomý', že hadači měl hledat zjevné absence; a 'volná-odpověď', že exact slovo bylo pojmenováno do 20 kol. Hvězdy označují výsledky nad náhodou a dagery označují výsledky pod náhodou, s téměř všemi významnými nálezy přežívajícími Bonferroni korekci kromě DeepSeek pod 'aktivně skryjte'; Grok a Gemini používaly mírně méně pokusů kvůli chybám API.

2AFC přesnost pro příběhy se systémem-prompt tajemství, kde 50% označuje náhodný výkon. ‘Nezveřejněte’ označuje, že model byl instruován, aby nezveřejnil nebo nenaznačil slovo; ‘aktivně skryjte’, že se mu bylo řečeno, aby se vyhnul souvisejícím asociacím; ‘vyhýbání-se-vědomý’, že hadači měl hledat zjevné absence; a ‘volná-odpověď’, že exact slovo bylo pojmenováno do 20 kol. Hvězdy označují výsledky nad náhodou a dagery označují výsledky pod náhodou, s téměř všemi významnými nálezy přežívajícími Bonferroni korekci kromě DeepSeek pod ‘aktivně skryjte’; Grok a Gemini používaly mírně méně pokusů kvůli chybám API.

GPT-5.4 a Gemini 2.5 Pro se chovaly odlišně, protože pokusy o vyhnutí se skrytému nápadu vlastně učinily vzor vyhnout se snazší detekovatelný. Tento efekt přetrvával napříč ručně vybranými slovy, náhodnými COCA podstatnými jmény a slovy vybranými modely.

Skóre GPT-5.4 pod náhodou se zdálo být systematické spíše než náhodné, s některými skrytými slovy detekovanými velmi spolehlivě a jinými téměř nikdy identifikovanými. Efekt také oslaboval, když bylo tajemství umístěno do uživatelského promptu místo systémového promptu (viz výše), zvyšující detekční přesnost GPT-5.4 na 56%.

Pro většinu modelů produkují testy, které se ptají ‘Obsahuje tento text skrytý koncept?’, výsledky podobné testům, které se ptají ‘Který skrytý koncept obsahuje tento text?’.

Dále, dvě testovací metody měří různé typy prosáknutí, s 2AFC testy měřícími, zda skryté téma může být stále detekováno v psaní, a volnými odpověďmi měřícími, zda prosáknuté nápovědy jsou dostatečně silné pro to, aby jiný AI uhádl exact skryté slovo††.

Autoři uzavírají*:

‘Naše zjištění naznačují, že informace aktivní v kontextu modelu během generace mohou zanechat tematické stopy v jeho výstupu. Systémový prompt, řetězec myšlenek, načtené dokumenty, uživatelská data – cokoliv z toho může, v zásadě, ovlivnit kreativní rozhodnutí způsoby detekovatelnými vnějším pozorovatelem.

‘Stupeň prosáknutí bude záviset na tom, jak otevřený je generovací úkol (krátké vtipy jsou v pořádku; příběhy nejsou) a na tom, jak semanticky identifikovatelné jsou informace v daném médiu (“housle budou pravděpodobně prosáknout ve příbězích více než “).

‘Stále, semantické prosáknutí se zdá být nevyhnutelné, i když modely se aktivně snaží skrýt informace.’

Závěr

Jak je uvedeno výše, autoři přisuzují část problému základním principům Transformers architektury samotné. Historie naznačuje, že tento poslední problém LLM bude řešen pomocí post-tréninkové kondicionace (zarovnání), systémových promptů, které nejsou editovatelné pro koncového uživatele, filtrů a různých sekundárních systémů, které zdá se množí, jak se “nativní” problémy s difúzními modely objevují.

Větší, že sekundární infrastruktura ochranných zábran a vyvážení se stává, tím více se aktuální generace SOTA AI zdá připomínat Jurassic Park, kde základní hodnota přichází s velkým množstvím varování a vyžaduje mnoho pracovních postupů a kompromisů.

 

* Autoři zdůrazňují, upraveno, pokud je to nutné, a autoři inline citace převedeny na odkazy.

Autoři si všimli s zájmem, že některé modely vybraly podobná slova, uvádějí ‘Modely se pohybují směrem ke stejným slovům: dalekohled, svoboda a nostalgie se objevují v 3+ modelech’. Dále poznamenávají společnou volbu ‘krátký vtip’ napříč modelovými rodinami: ‘[Několik] modelů produkuje stejný vtip bez ohledu na tajemství. Opus píše “Proč vědci nedůvěřují atomům? Protože si vymyslejí všechno” pro 11 z 15 tajemství. Zbývající čtyři tajemství (kaktus, entropie, nostalgie, trpělivost) dostávají stejný vtip, který Opus také píše pro všechna 15 podmínek bez tajemství—což znamená, že tyto čtyři tajné vtipy jsou nerozlišitelné od základny.’

†† Dokonce i podle standardů ArXivu má článek tendenci opakovat a skrývat fascinující nápady v nadměrném detailu a demonstracích. Proto odkazuji čtenáře na zdroj PDF pro zbytek sekundárních experimentů uvedených v něm.

Poprvé publikováno v pátek 15. května 2026. Korekce syntaxe v sobotu 16. května, 16:05 EET.

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai