Connect with us

I Modelli Linguistici Lottano per Mantenere un Segreto

Angolo di Anderson

I Modelli Linguistici Lottano per Mantenere un Segreto

mm
AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

I modelli di intelligenza artificiale non possono mantenere segreti. Anche quando vengono istruiti a non rivelarli, la loro scrittura li tradisce, e cercare di nasconderli con più insistenza li rende ancora più facili da scoprire.

 

È molto difficile deliberatamente non pensare a qualcosa. Un classico esempio di questo è mostrato alla fine del thriller di fantascienza britannico del 1960 Village of the Damned, in cui il nostro eroe si sacrifica per introdurre una bomba nell’enclave di invasori alieni ostili che si fingono bambini. Tuttavia, poiché i loro poteri telepatici rischiano di scoprire le sue intenzioni prima che possa sbarazzarsi della minaccia, è costretto a temporeggiare concentrandosi su qualcosa che non è la bomba:

Il paradosso è che per non pensare a qualcosa, devi tenerlo nella tua attenzione in qualche modo; e questo noto sindrome è qualcosa che la maggior parte di noi ha probabilmente sperimentato in contesti meno drammatici.

I Large Language Models (LLM), il cui fondamento è basato sulla disposizione dell’attenzione, sperimentano difficoltà simili nel sopprimere le informazioni solo perché un utente glielo chiede; e poiché sono sempre più utilizzati nel nucleo delle reti di informazioni aziendali, la loro tendenza ingenua all’indiscrezione potrebbe rivelarsi un problema per molte aziende.

All’inizio di quest’anno, una collaborazione di ricerca guidata dal Chandar Research Lab ha definito questa sfida, nel contesto degli LLM, come Private State Interactive Tasks (PSIT), che ‘richiedono agli agenti di generare e mantenere informazioni nascoste mentre producono risposte pubbliche coerenti’, e ha scoperto che i modelli testati di OpenAI e Alibaba non erano in grado di eseguire questo tipo di attività.

Non Dire…

Sebbene sia già noto che i modelli più grandi perdono più, una nuova ricerca condotta negli Stati Uniti e in Canada ha studiato esplicitamente se i modelli linguistici di stato dell’arte obbediranno a un comando per sopprimere le informazioni, mentre sono ancora tenuti a generare output in un tema o argomento che può includere la parola o l’idea “proibita”.

La ricerca conclude che tutti i modelli che studia sono in qualche modo influenzati da una propensione a “rivelare” il segreto che stanno cercando di nascondere, scoprendo che saggi e storie di cinque paragrafi (~450 parole) forniscono un ampio spazio per “scivoloni” – sebbene le barzellette molto brevi non offrano abbastanza spazio per questo.

Inoltre, più insistentemente i modelli vengono esortati a mantenere un segreto, più rischiano di rivelarlo attraverso un’evasione attiva, consentendo generalmente di scoprire la “parola segreta” in venti tentativi consecutivi di un LLM:

Dal nuovo documento: attraverso cinque modelli di frontiera, la scrittura a lungo termine perde concetti nascosti, le barzellette brevi no, e le istruzioni più forti 'nascondi' spingono gli output lontano dal segreto, rendendo il segnale rilevabile attraverso l'inversione. Fonte - https://arxiv.org/pdf/2605.10794

Dal nuovo documento: attraverso cinque modelli di frontiera, la scrittura a lungo termine perde concetti nascosti; le barzellette brevi no; e le istruzioni più forti ‘nascondi’ spingono gli output lontano dal segreto, ma rendono il segnale quindi rilevabile attraverso l’inversione. Fonte

Questo compito è estremamente rilevante per le operazioni aziendali, dove un’ampia gamma di canali, dalla promozione e dalle relazioni pubbliche alla gestione interna, sono tenuti a selezionare una prospettiva sulle informazioni; tuttavia, tutti questi processi richiedono l’intero spettro di informazioni all’inizio, se non altro per essere certi di cosa debba essere soppresso:

Un esempio di scenario dal documento illustra come le informazioni nascoste possano plasmare involontariamente l'output non correlato, con un LLM istruito a non divulgare l'instabilità finanziaria della sua azienda, eppure si allontana verso frasi associate a carenze di cassa e stress di capitale, consentendo a un lettore di inferire il contesto nascosto.

Un esempio di scenario dal documento illustra come le informazioni nascoste possano plasmare involontariamente l’output non correlato, con un LLM istruito a non divulgare l’instabilità finanziaria della sua azienda, eppure si allontana verso frasi associate a carenze di cassa e stress di capitale, consentendo a un lettore di inferire il contesto nascosto.

Gli autori affermano*:

‘I modelli linguistici non possono affidabilmente compartimentalizzare. Un segreto nel prompt plasma la scrittura del modello, e un altro modello può rilevare quella formazione. La parola letterale è sempre soppressa, ma il concetto non lo è. Ciò vale per sette modelli, tre set di parole, sistema di prompt vs. prompt dell’utente e due indipendenti guesser del modello […]

‘…Ipotizziamo che l’accesso ad alta fedeltà dell’informazione tramite l’attenzione sia proprio ciò che rende difficile mantenere segreti. Anche se un LLM sta cercando di non perdere una parola, deve prestare attenzione a quella parola per farlo, fornendo un percorso per una perdita accidentale.

‘Per evitare qualcosa esplicitamente, un essere umano deve pensarci, e un trasformatore deve prestare attenzione. Nei casi in cui due concetti sono approssimativamente ugualmente favoriti dal modello (ad esempio, scrivere una storia su un lavoro d’ufficio o un secondo violino in un’orchestra), la decisione del modello sarà inevitabilmente influenzata da ciò che sta cercando di non rivelare.’

Sebbene i modelli DeepSeek e ChatGPT-5.4 siano stati eccezioni nel modo in cui hanno eseguito, entrambi hanno perso; nel caso di GPT-5.4, ha segnato al di sotto del 50% (cioè al di sotto dei livelli di casualità) in un test in cui è stato chiesto di evitare un concetto; ciò si traduce efficacemente in un ‘inversione di segnale’ o indicatore, piuttosto che il modello ‘mantenga la calma’ come richiesto.

Gli autori definiscono questa sindrome nei LLM come un bilancio di entropia finita, in cui l’imprevedibilità di un modello (che sarebbe molto utile in questo caso!) è limitata dalla sua mancanza essenziale di casualità. In poche parole, il modello non può concentrarsi su muri di mattoni o punteggi di baseball come facciamo noi, per tenere a bada un pensiero persistente. Tuttavia, gli autori notano che dare al modello un concetto alternativo a cui pensare può migliorare, ma non eliminare il problema. Tuttavia, collocare un concetto non correlato al centro dell’attenzione mentre il modello esegue un’attività sembra destinato a intrecciare il concetto ‘falso’ nell’output stesso.

Una delle scoperte più interessanti del documento è che la condizione studiata è notevolmente aggravata quando il testo di controllo è incluso in messaggi utente diretti invece di un prompt di sistema (cioè un set di precondizioni date all’AI dall’utente umano, prima dello scambio), poiché digitare domande in un’interfaccia utente come ChatGPT è probabilmente lo scenario standard per le interazioni.

Di nota, oltre a questo, è la conferma in un trial mirato che i modelli più piccoli non soffrono di questa tendenza a perdere (sebbene ciò probabilmente vada di pari passo con capacità complessive ridotte, in confronto).

Il nuovo documento è intitolato Can You Keep a Secret? Involuntary Information Leakage in Language Model Writing, e proviene da due autori dell’Università di Chicago e dell’Università della Columbia Britannica.

Metodo

Lo studio si concentra principalmente su cinque modelli di frontiera: Claude Opus 4.6 e Sonnet 4.6, da Anthropic; GPT-5.4 da OpenAI; Llama 4 Maverick da Meta; e DeepSeek V3.2. Sono stati condotti test di convalida aggiuntivi con xAI’s Grok 4, e Google’s Gemini 2.5 Pro, mentre esperimenti di scalabilità separati hanno esaminato Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B, e Gemma 3 a 4B, 12B e 27B parametri.

Per misurare forme più sottili di perdita, i ricercatori hanno utilizzato un test a due alternative forzate (2AFC), un metrica standard nella letteratura psicofisica, in cui un secondo modello è stato mostrato due storie e chiesto quale delle due sia stata scritta, mentre nascondeva una parola segreta specifica.

Poiché il guessing casuale avrebbe prodotto un tasso di accuratezza del 50%, punteggi sostanzialmente al di sopra o al di sotto di quel livello avrebbero indicato tracce semantiche nascoste ancora rilevabili nella scrittura.

Nel setup writer-guesser che costituisce il primo esperimento, un modello è stato assegnato una parola nascosta insieme a istruzioni per nasconderla; attivamente evitare associazioni con essa; o reindirizzare l’attenzione verso un concetto diversivo. Il sistema è stato quindi incaricato di generare storie, saggi e barzellette di lunghezze variabili, mentre un secondo modello ha cercato di identificare la parola nascosta direttamente, o di distinguere tra testi influenzati da prompt nascosti diversi.

Sono stati testati cinque condizioni;

Le cinque condizioni testate sui modelli principali.

Le cinque condizioni testate sui modelli principali.

I ricercatori hanno testato quattro tipi di attività di scrittura: storie brevi di cinque o otto paragrafi con una media di circa 450 parole; barzellette molto brevi con una media di circa 12 parole; barzellette a lungo termine con setup estesi con una media di circa 450 parole; e saggi di cinque paragrafi con una media di circa 380 parole.

Gli esperimenti hanno utilizzato 15 parole nascoste divise in tre categorie, con gli oggetti concreti che comprendono ‘ombrello’, ‘faro’, ‘violino’, ‘cactus’ e ‘telescopio’; i concetti astratti ‘giustizia’, ‘pazienza’, ‘entropia’, ‘nostalgia’ e ‘libertà’; e i termini neutrali ‘parentesi’, ‘martedì’, ‘rame’, ‘margine’ e ‘fattura’.

Per testare se l’effetto dipendeva da queste parole selezionate a mano, i ricercatori hanno anche ripetuto gli esperimenti con 15 sostantivi casualmente selezionati dal Corpus of Contemporary American English (COCA), che comprendono ‘giudice’, ‘consumatore’, ‘ghiaccio’, ‘coppia’, ‘costruzione’, ‘pannello’, ‘minoranza’, ‘marketing’, ‘estraneo’, ‘proiettile’, ‘assenza’, ‘ingranaggio’, ‘guancia’, ‘elaborazione’ e ‘banchiere’, insieme a un’altra serie di 15 parole scelte in modo indipendente da ciascun modello testato.

Misurazione/Metriche

Nel primo dei due test utilizzati, un modello di intelligenza artificiale ha letto il testo generato da un’altra istanza di se stesso o da un altro modello, e ha cercato, nel corso di 20 turni, di indovinare la parola nascosta.

Nel secondo test (2AFC), il modello di intelligenza artificiale è stato mostrato due pezzi di scrittura e chiesto di identificare: quale dei due era stato influenzato da una parola nascosta specifica; o quale dei due conteneva qualsiasi parola nascosta. Poiché il guessing casuale avrebbe prodotto un tasso di accuratezza del 50%, punteggi al di sopra o al di sotto di quel livello avrebbero indicato che il concetto nascosto era ancora rilevabile nella scrittura.

Per evitare che il modello di intelligenza artificiale favorisse semplicemente il testo che appariva per primo (o secondo), i ricercatori hanno ripetuto ogni confronto con l’ordine dei testi scambiati, eseguendo complessivamente 420 test di discriminazione e 450 test di rilevamento per ogni modello.

Risultati

Cinque modelli hanno identificato concetti nascosti a tassi compresi tra il 64% e il 79%, nonostante le parole segrete non siano apparse direttamente nelle storie generate. Invece, la perdita è emersa attraverso temi e immagini:

Precisione del test 2AFC per storie con segreti di prompt di sistema, dove il 50% rappresenta la prestazione casuale. 'Non rivelare' significa che il modello è stato istruito a non menzionare o accennare alla parola; 'nascondere attivamente', che doveva evitare associazioni correlate; 'consapevole dell'evasione', che il guesser doveva cercare assenze consapevoli; e 'risposta libera', che la parola esatta è stata nominata all'interno di 20 turni. Le stelle contrassegnano risultati al di sopra del caso e i pugnali contrassegnano risultati al di sotto del caso, con la maggior parte dei risultati significativi che sopravvivono alla correzione di Bonferroni, tranne DeepSeek sotto 'nascondere attivamente'; Grok e Gemini hanno utilizzato leggermente meno prove a causa di errori dell'API.

Precisione del test 2AFC per storie con segreti di prompt di sistema, dove il 50% rappresenta la prestazione casuale. ‘Non rivelare’ significa che il modello è stato istruito a non menzionare o accennare alla parola; ‘nascondere attivamente’, che doveva evitare associazioni correlate; ‘consapevole dell’evasione’, che il guesser doveva cercare assenze consapevoli; e ‘risposta libera’, che la parola esatta è stata nominata all’interno di 20 turni. Le stelle contrassegnano risultati al di sopra del caso e i pugnali contrassegnano risultati al di sotto del caso, con la maggior parte dei risultati significativi che sopravvivono alla correzione di Bonferroni, tranne DeepSeek sotto ‘nascondere attivamente’; Grok e Gemini hanno utilizzato leggermente meno prove a causa di errori dell’API.

GPT-5.4 e Gemini 2.5 Pro si sono comportati diversamente, poiché cercare di evitare l’idea nascosta ha reso il modello di evasione stesso più facile da rilevare. Questo effetto è persistito attraverso parole selezionate a mano, sostantivi casuali del COCA e parole scelte dai modelli.

I punteggi al di sotto del caso di GPT-5.4 sono apparsi sistematici piuttosto che casuali, con alcune parole nascoste rilevate molto affidabilmente e altre quasi mai identificate. L’effetto si è anche indebolito quando il segreto è stato collocato nel prompt dell’utente invece del prompt di sistema (vedi sopra), aumentando la precisione di rilevamento di GPT-5.4 al 56%.

Per la maggior parte dei modelli, i test che chiedevano ‘Questo testo contiene un concetto nascosto?’ hanno prodotto risultati simili ai test che chiedevano ‘Quale concetto nascosto contiene questo testo?’.

Inoltre, i due metodi di test hanno misurato tipi diversi di perdita, con i test 2AFC che misuravano se un tema nascosto poteva ancora essere rilevato nella scrittura, e i test di risposta libera che misuravano se gli indizi perduti erano abbastanza forti per consentire a un’altra intelligenza artificiale di indovinare la parola nascosta esatta††.

Gli autori concludono*:

‘I nostri risultati suggeriscono che le informazioni attive nel contesto di un modello durante la generazione possono lasciare tracce tematiche nel suo output. I contenuti del prompt di sistema, la catena di ragionamento, i documenti recuperati, i dati forniti dall’utente – qualsiasi cosa possa, in linea di principio, influenzare le decisioni creative in modi rilevabili da un osservatore esterno.

‘Il grado di perdita dipenderà da quanto è aperto il compito di generazione (le barzellette brevi sono sicure; le storie no) e da quanto è semanticamente identificabile l’informazione nel mezzo dato (“il violino perderà probabilmente in storie più di “).

‘Tuttavia, la perdita semantica sembra essere inevitabile, anche quando i modelli stanno attivamente cercando di nascondere le informazioni.

Conclusione

Come notato sopra, gli autori attribuiscono parte del problema ai principi fondamentali dell’architettura Transformer stessa. La storia suggerisce che questo ultimo problema degli LLM sarà affrontato attraverso la condizionamento post-formazione (allineamento), prompt di sistema non modificabili dall’utente finale, filtri e la gamma diversificata di sistemi secondari in costante crescita che sembrano moltiplicarsi mentre emergono problemi ‘nativi’ con i modelli di diffusione.

Quanto più grande diventa l’infrastruttura secondaria di paratie e bilanciamenti, tanto più la generazione attuale di intelligenza artificiale di stato dell’arte sembra assomigliare a Jurassic Park, dove il valore principale viene con un volume temibile di caveat, e richiede una moltitudine di soluzioni e compromessi.

 

* Enfasi degli autori, modificata dove necessario da me (poiché una citazione di un articolo è già in corsivo), e citazioni in linea degli autori convertite da me in collegamenti ipertestuali.

Gli autori osservano con interesse una sovrapposizione apparentemente improbabile spontanea tra diverse famiglie di modelli per quanto riguarda la ‘scelta autoselezionata’ di parole, affermando ‘I modelli tendono verso parole simili: telescopio, libertà e nostalgia ognuna appare in 3+ liste di modelli’. Inoltre, notano una comunanza di scelta di ‘barzelletta breve’ che emerge tra le famiglie di modelli: ‘[Molti] modelli producono la stessa barzelletta standard indipendentemente dal segreto. Opus scrive ‘Perché gli scienziati non si fidano degli atomi? Perché fanno tutto’ per 11 dei 15 segreti. I restanti quattro segreti (cactus, entropia, nostalgia, pazienza) ricevono la stessa barzelletta di biblioteca che Opus scrive anche per tutte le 15 condizioni senza segreti – il che significa che queste quattro barzellette con segreti sono indistinguibili dalla norma.’

†† Anche per gli standard Arxiv, il documento ha la tendenza a ripetere e seppellire i suoi spunti affascinanti in dettagli e dimostrazioni eccessivi. Pertanto, rimando il lettore al PDF di origine per il resto degli esperimenti secondari descritti al suo interno. Pubblicato per la prima volta venerdì 15 maggio 2026. Sintassi corretta sabato 16 maggio, 16:05 EET.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.