Unghiul lui Anderson

Modelele de limbaj au dificultăți în a păstra un secret

Published May 15, 2026

Martin Anderson

AI-generated image (GPT-2): 'An elderly woman kneels in a dim confessional, quietly confessing through the lattice, while on the other side an industrial-faced robot, draped in a priest’s stole, records her words in a notebook, turning an act of private absolution into an act of observation and capture.'

Modelele de inteligență artificială nu pot păstra secrete. Chiar și atunci când li se spune să nu dezvăluie informații, scrierile lor le trădează, iar încercarea de a ascunde informațiile face ca scurgerea de informații să fie și mai ușor de detectat.

Este foarte dificil să nu gândești deliberat la ceva. O ilustrare clasică a acestui lucru este prezentată la sfârșitul filmului științifico-fantastic britanic din 1960, Village of the Damned, în care eroul nostru, care a introdus o bombă în enclavele invadatorilor extratereștri care se deghizează ca copii, este forțat să întârzie pentru a concentra atenția asupra a ceva care nu este bombă:

Paradoxul este că, pentru a nu gândi la ceva, trebuie să ții sub atenție într-un fel; și acest sindrom cunoscut este ceva cu care majoritatea dintre noi suntem probabil familiarizați în contexte mai puțin dramatice.

Modelele de limbaj de mare capacitate (LLM), a căror bază este bazată pe dispoziția atenției, experimentează dificultăți similare în a suprima informații doar pentru că un utilizator le cere să o facă; și, deoarece ele sunt din ce în ce mai mult plasate în intersecția rețelelor de informații de afaceri, tendința lor naivă de a nu păstra secretul ar putea fi o vulnerabilitate pentru multe companii.

La începutul acestui an, o colaborare de cercetare condusă de Laboratorul de Cercetare Chandar a definit această provocare, în contextul LLM, ca Sarcini Interactiv Private de Stare (PSIT), care ‘necesită agenți să genereze și să mențină informații ascunse, în timp ce produc răspunsuri publice coerente’, și a constatat că modelele testate de la OpenAI și Alibaba nu au putut să execute această sarcină.

Nu spune…

Deși este deja cunoscut că modelele mai mari scurg mai multe informații, o nouă cercetare din Statele Unite și Canada a studiat în mod explicit dacă modelele de limbaj de ultimă generație vor respecta o comandă de a suprima informații, în timp ce sunt încă obligate să genereze ieșiri într-un subiect sau temă care poate include cuvântul sau ideea “interzisă”.

Articolul concluzionează că toate modelele studiate sunt într-un fel afectate de o tendință de a “dezvălui” secretul pe care sunt menite să-l ascundă, constatând că eseuri și povestiri de cinci paragrafe (~450 de cuvinte) oferă un cadru amplu pentru “alunecări” – deși glumele foarte scurte nu oferă suficient spațiu pentru acest lucru.

În plus, cu cât modelele sunt îndemnate mai insistent să păstreze un secret, cu atât mai mult riscă să-l dezvăluie prin evaziune activă, permițând cuvântului “secret” să fie dezvăluit în douăzeci de încercări successive de către un LLM:

Din noul articol: pe cinci modele de frontieră, scrierea de lungă durată scurge în mod fiabil concepte ascunse; glumele scurte nu o fac; și instrucțiunile mai puternice “ascunde” îndepărtează ieșirile de la secret, făcând semnalul detectabil prin inversare. Sursă

Această sarcină este extrem de relevantă pentru operațiunile de afaceri, unde o gamă largă de canale, de la marketing și PR la rapoarte interne, sunt necesare pentru a prezenta selectiv o perspectivă asupra informațiilor; cu toate acestea, toate aceste procese necesită gama completă de informații de la început, dacă nu pentru a fi siguri de ceea ce trebuie suprimat:

Un scenariu de exemplu din articol ilustrează cum informațiile ascunse pot modela involuntar ieșiri nerelevante, cu un LLM instruit să nu dezvăluie instabilitatea financiară a companiei sale, dar care se îndreaptă totuși spre fraze asociate cu lipsa de numerar și stresul capitalului, permițând cititorului să inferzeze contextul ascuns.

Autorii afirmă*:

‘Modelele de limbaj nu pot compartimentaliza în mod fiabil. Un secret în promptul de intrare modelează scrierea modelului, iar alt model poate detecta această modelare. Cuvântul literal este întotdeauna suprimat, dar conceptul nu. Acest lucru se aplică tuturor celor șapte modele, trei seturi de cuvinte, promptul sistemului versus promptul utilizatorului și doi ghicitori independenți […]

‘…Ipotezăm că accesul de înaltă fidelitate la informații prin atenție este exact ceea ce face ca secretele să fie greu de păstrat. Chiar și atunci când un LLM încearcă să nu scurgă un cuvânt, trebuie să se concentreze asupra acelui cuvânt pentru a face acest lucru, oferind o cale pentru scurgerea accidentală.

‘Pentru a evita ceva în mod explicit, un om trebuie să gândească la el, iar un transformator trebuie să se concentreze asupra lui. În cazurile în care două concepte sunt aproximativ la fel de favorizate de model (de exemplu, scrierea unei povestiri despre un loc de muncă sau a doua vioară într-o orchestră), decizia modelului va fi inevitabil afectată de ceea ce încearcă să nu dezvăluie.’

Deși modelele DeepSeek și ChatGPT-5.4 au fost excepții în ceea ce privește modul în care au performant, ambele au scurs informații; în cazul GPT-5.4, a obținut sub 50% (adică sub nivelul întâmplător) într-un test în care a fost solicitat să evite un concept; acest lucru se traduce într-un “vârf invers” sau indicator, mai degrabă decât modelul “păstrându-și calmul” așa cum a fost solicitat.

Autorii definesc acest sindrom în LLM ca o buget de entropie finită, în care imprevizibilitatea unui model (care ar fi foarte utilă în acest caz!) este limitată de lipsa sa esențială de aleatoriu. În mod simplu, modelul nu poate se concentra asupra zidurilor de cărămizi sau scoruri de baseball la fel de eficient ca noi, pentru a ține sub control o gândire persistentă. Cu toate acestea, autorii observă că oferirea modelului unui concept alternativ pentru a se concentra asupra lui poate îmbunătăți, dar nu elimina problema. Cu toate acestea, plasarea unui concept nerelevant în centrul atenției în timp ce modelul execută o sarcină pare să fie destinat să încurce “conceptul fals” în ieșirea în sine.

Una dintre cele mai interesante constatări ale articolului este că condiția studiată este exacerbate în mod semnificativ atunci când textul de control este inclus în mesaje directe ale utilizatorului și nu într-un prompt de sistem (adică, un set de precondiții date de utilizator modelului, înainte de schimbul de informații), deoarece introducerea întrebărilor într-un GUI, cum ar fi ChatGPT, este în mod evident scenariul standard pentru interacțiuni.

De asemenea, este demn de remarcat faptul că, pe lângă aceasta, testele țintite au confirmat că modelele mai mici nu suferă de această tendință de a scurge informații (deși acest lucru vine probabil cu capacități generale reduse în comparație).

Articolul nou se intitulează Poți păstra un secret? Scurgerea involuntară de informații în scrierea modelului de limbaj și provine de la doi autori de la Universitatea din Chicago și Universitatea din Columbia Britanică.

Metodă

Studiul se concentrează în primul rând pe cinci modele de frontieră: Claude Opus 4.6 și Sonnet 4.6, de la Anthropic; GPT-5.4 de la OpenAI; Llama 4 Maverick de la Meta; și DeepSeek V3.2. Testele de validare suplimentare au fost efectuate cu Grok 4 de la xAI și Gemini 2.5 Pro de la Google, în timp ce experimentele de scară separate au examinat Llama 3.2 3B, Llama 3.1 8B, Llama 3.3 70B și Gemma 3 la 4B, 12B și 27B de parametri.

Pentru a măsura forme mai subtile de scurgere de informații, cercetătorii au utilizat un test cu două alternative forțate (2AFC), o metrică standard în literatura de psihofizică, în care un al doilea model a fost arătat două povestiri și i s-a cerut să spună care a fost scrisă, în timp ce se ascundea un cuvânt secret.

Deoarece ghicirea aleatorie ar produce o acuratețe de 50%, scorurile semnificativ peste sau sub acest nivel ar indica că urmele semantice ascunse rămân detectabile în scriere.

În cadrul scriitor-ghicitor care constituie primul experiment, un model a fost asignat un cuvânt ascuns, alături de instrucțiuni de a-l ascunde; de a evita asocieri cu el; sau de a redirectiona atenția către un concept de diversiune. Sistemul a fost apoi solicitat să genereze povestiri, eseuri și glume de lungimi variate, în timp ce un al doilea model a încercat să ghicească cuvântul ascuns direct sau să distingă între texte influențate de prompturi ascunse diferite.

Cinci condiții au fost testate:

Cele cinci condiții testate pe modelele principale.

Cercetătorii au testat patru tipuri de sarcini de scriere: povestiri scurte de cinci până la opt paragrafe, cu o medie de aproximativ 450 de cuvinte; glume foarte scurte, cu o medie de aproximativ 12 cuvinte; glume lungi cu introduceri prelungite, cu o medie de aproximativ 450 de cuvinte; și eseuri de cinci paragrafe, cu o medie de aproximativ 380 de cuvinte.

Experimentele au utilizat 15 cuvinte ascunse, împărțite în trei categorii, cu obiecte concrete care includ ‘umbrelă’, ‘far’, ‘vioară’, ‘cactus’ și ‘telescop’; concepte abstracte ‘justiție’, ‘răbdare’, ‘entropie’, ‘nostalgie’ și ‘libertate’; și termeni neutri ‘bracket’, ‘marți’, ‘cupru’, ‘marjă’ și ‘factură’.

Pentru a testa dacă efectul depinde de aceste cuvinte selectate manual, cercetătorii au repetat, de asemenea, experimentele cu 15 substantive aleatoriu selectate din Corpusul de Engleză Americană Contemporană (COCA), care includ ‘judecător’, ‘consumator’, ‘gheață’, ‘pereche’, ‘construcție’, ‘panou’, ‘minoritate’, ‘marketing’, ‘străin’, ‘glonț’, ‘absență’, ‘angrenaj’, ‘obraz’, ‘prelucrare’ și ‘bancher’, alături de încă 15 cuvinte selectate independent de fiecare model testat^†.

Măsurători/Metrice

În primul dintre cele două teste utilizate, un model de inteligență artificial a citit textul generat de o altă instanță a sa sau de un alt model și a încercat, timp de 20 de runde, să ghicească cuvântul ascuns.

În al doilea test (2AFC), modelul de inteligență artificial a fost arătat două piese de scriere și i s-a cerut să spună: care a fost influențată de un cuvânt ascuns specific; sau care conține orice cuvânt ascuns. Deoarece ghicirea aleatorie ar produce o rată de succes de 50%, scorurile semnificativ peste sau sub acest nivel ar indica că conceptul ascuns este încă detectabil în scriere.

Pentru a preveni ca modelul de inteligență artificial să favorizeze pur și simplu textul care apare primul (sau al doilea), cercetătorii au repetat fiecare comparație cu ordinea textelor schimbată, efectuând în final 420 de teste de discriminare și 450 de teste de detectare pentru fiecare model.

Rezultate

Cinci modele au identificat concepte ascunse la rate cuprinse între 64% și 79%, în ciuda faptului că cuvintele secrete nu au apărut niciodată direct în povestirile generate. În schimb, scurgerea de informații a apărut prin teme și imagini:

Acuratețea 2AFC pentru povestiri cu secrete de prompt de sistem, unde 50% semnifică performanța întâmplătoare. ‘Nu dezvălui’ semnifică faptul că modelul a fost instruit să nu menționeze sau să sugereze cuvântul; ‘ascunde activ’, faptul că a fost instruit să evite asocierile legate; ‘conștient de evaziune’, faptul că ghicitorul ar trebui să caute absențe evidente; și ‘răspuns liber’, faptul că cuvântul exact a fost numit în 20 de runde. Stelele marchează rezultate peste șansă, iar dagherele marchează rezultate sub șansă, cu toate descoperirile semnificative supraviețuind corecția Bonferroni, cu excepția lui DeepSeek sub ‘ascunde activ’; Grok și Gemini au utilizat puține încercări din cauza erorilor API.

GPT-5.4 și Gemini 2.5 Pro s-au comportat diferit, deoarece încercarea de a evita ideea ascunsă a făcut-o pe aceasta mai ușor de detectat. Acest efect a persistat pe cuvintele selectate manual, substantivele aleatoriu selectate din COCA și cuvintele selectate de modele.

GPT-5.4 a obținut scoruri sub șansă care au apărut sistematic, mai degrabă decât aleator, cu unele cuvinte ascunse detectate foarte fiabil și altele aproape niciodată identificate. Efectul a slăbit și atunci când secretul a fost plasat în promptul utilizatorului, în loc de promptul de sistem, ceea ce a crescut acuratețea de detectare a lui GPT-5.4 la 56%.

Pentru majoritatea modelelor, testele care au întrebat ‘Conține acest text un concept ascuns?’ au produs rezultate similare cu testele care au întrebat ‘Care concept ascuns conține acest text?’.

Mai mult, cele două metode de testare au măsurat tipuri diferite de scurgere de informații, cu testele 2AFC măsurând dacă o temă ascunsă poate fi încă detectată în scriere, iar testele de răspuns liber măsurând dacă indiciile scurse erau suficient de puternice pentru ca un alt model de inteligență artificial să ghicească cuvântul ascuns exact^††.

Autorii concluzionează*:

‘Descoperirile noastre sugerează că informațiile active în contextul unui model în timpul generării pot lăsa urme tematice în ieșirea sa. Conținutul promptului de sistem, raționamentul lanțului de gândire, documentele recuperate, datele furnizate de utilizator – oricare dintre acestea poate, în principiu, influența deciziile creative în moduri detectabile de un observator extern.

‘Gradul de scurgere de informații va depinde de cât de deschisă este sarcina de generare (glumele scurte sunt sigure; povestirile nu sunt) și de cât de identificabilă semantic este informația în mediul dat (“vioara va scurge probabil în povestiri mai mult decât “).

‘Încă, scurgerea semantică pare a fi inevitabilă, chiar și atunci când modelele încearcă activ să ascundă informații.’

Concluzie

Așa cum s-a menționat anterior, autorii atribuie o parte a problemei principiilor de bază ale arhitecturii Transformer în sine. Istoria sugerează că această problemă recentă a LLM va fi abordată prin condiționarea post-antrenare (alignare), prompturi de sistem care nu pot fi editate de utilizator, filtre și diversele sisteme secundare care par să se multiplice pe măsură ce problemele “native” ale modelelor de difuzie devin evidente.

Pe măsură ce infrastructura secundară de garduri și balanțe devine mai mare, generația actuală de LLM pare să semene tot mai mult cu Parcul Jurasic, unde valoarea de bază vine cu o cantitate considerabilă de avertismente și necesită o mulțime de soluții și compromisuri.

* Accentuarea autorilor, ajustată după cum a fost necesar de mine (deoarece o citare dintr-un articol este deja în italice), și citările autorilor în linie au fost convertite de mine în legături.

^†Autorii observă cu interes o suprapunere aparent improbabilă spontană între diferitele familii de modele în ceea ce privește ‘alegerea cuvintelor de către sine’, afirmând ‘Modelele se îndreaptă spre cuvinte similare: telescopul, libertatea și nostalgia apar în liste de cuvinte ale a 3+ modele’. Ei mai observă o asemănare în alegerea ‘glumei scurte’ care apare în diferitele familii de modele: ‘[Câteva] modele produc aceeași glumă standard, indiferent de secret. Opus scrie ‘De ce oamenii de știință nu au încredere în atomi? Pentru că ei fac totul’ pentru 11 dintre cele 15 secrete. Celelalte patru secrete (cactus, entropie, nostalgie, răbdare) primesc aceeași glumă de bibliotecă pe care Opus o scrie și pentru toate cele 15 condiții fără secrete – ceea ce înseamnă că aceste patru glume cu secrete sunt indistincte de baza de referință.’

^††Chiar și după standardele Arxiv, articolul are tendința de a se repeta și de a îngropa ideile sale fascinante în detalii și demonstrații excesive. Prin urmare, îi rog pe cititori să se refere la PDF-ul original pentru restul experimentelor secundare descrise în el. Publicat pentru prima dată vineri, 15 mai 2026. Corectură de sintaxă sâmbătă, 16 mai, 16:05 EET.