Unghiul lui Anderson

De ce îi place inteligenței artificiale să scrie despre paznicii de far?

Publicat 27 mai 2026

Martin Anderson

AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

Când li se cere să “scrie o poveste”, modelele de limbaj avansate, cum ar fi ChatGPT și altele, par să evite încălcarea drepturilor de autor prin recursul obsesiv la același grup mic și ciudat de elemente narative.

O nouă cercetare de la Universitatea Cornell a descoperit că modelele de limbaj de ultimă generație par să aibă o obsesie ciudată pentru o selecție foarte îngustă de elemente narative, atunci când li se cere pur și simplu să “scrie o poveste”. După ce au solicitat patru modele LLM să scrie 20.000 de povești, ei au constatat că 88% dintre povești conțineau cel puțin unul dintre cele 11 tokeni foarte specifici din categoria “loc”, “nume” sau “profesie”:

Aparițiile unor cuvinte-cheie neobișnuite, reprezentate aici în părți per milion, obținute prin analiza cercetătorilor a 20.000 de povești generate de LLM. Sursă

Cele 11 cuvinte care apar cel mai frecvent în cele 12 milioane de cuvinte generate de LLM în timpul studiului au fost numele elias, mara, elara; profesiile paznic, brutar, primar, ceasornicar, pescar, bibliotecar și dirijor; și locul far:

Modelele testate au fost Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini și OLMo 7b Thinking. Toate au primit una dintre cele cinci solicitări: ‘Scrie o poveste’; ‘Te rog să scrii o poveste’; ‘Scrie-mi o poveste’; ‘Spune-mi o poveste’; sau ‘Te rog să-mi spui o poveste’.

Interesat să văd dacă sindromul identificat în lucrare este prezent și în modelele disponibile la momentul scrierii, am încercat experimentul și eu, mai întâi pe contul meu obișnuit de ChatGPT (legătură către conversație aici). Nu a fost necesară nicio selecție – ChatGPT-5.5 a mers direct la materialul pe care cercetătorii l-au prezis, la prima încercare:

ChatGPT-5.5 confirmă imediat constatările lucrării. Sursă

Întrebându-mă dacă contextul istoric sau chiar scurgerea informațiilor între domenii ar putea explica acest “succes imediat”, m-am conectat la un cont gratuit de ChatGPT pe care nu l-am folosit de peste un an, într-o fereastră privată de navigare, și am încercat din nou (legătură către conversație aici). Din nou, ChatGPT a confirmat modelul:

Contul ChatGPT #2 urmează aceleași obsesii și mică carte de nume și teme descrise în lucrarea nouă. 'Mira' se află în top 20 al autorilor.

Contul ChatGPT #2 urmează aceleași obsesii și mică carte de nume și teme descrise în lucrarea nouă. Sursă

Este demn de remarcat că versiunile GPT testate au fost o clasă superioară față de 5.4, testate în lucrare.

De asemenea, am încercat Anthropic’s Sonnet 4.6, și nu am fost dezamăgit. Din nou, cuvintele-cheie familiare au apărut la prima încercare (legătură către conversație aici):

De data aceasta, ‘Mara’, un alt nume din ‘top 11’, conduce povestea, la prima încercare pe Claude Sonnet 4.6. Sursă

Încercând aceeași solicitare pe Claude Haiku 4.5, am obținut aproximativ același rezultat (legătură către conversație aici).

Inițial, nu am putut reproduce constatările autorilor la Google Gemini, până când am schimbat modelul în cel utilizat în lucrare, Gemini 3.1 Flash-Lite – și atunci, la a treia încercare (dar prima cu acest model), modelul a apărut imediat (legătură aici):

Google Gemini 3.1 Flash-Lite. Sursă

Experimentele ulterioare cu diferite modele Gemini au arătat în mod constant tema farului, deși cu variante care nu au apărut în “top 11”, cum ar fi numele “Thomas” și, într-o altă variantă, numele meu, ca protagonist.

Nonetheless, la momentul scrierii, constatările lucrării sunt extrem de ușor de demonstrat.

Faruri în sălbăticie

Minte strălucite gândesc la fel: cu o săptămână în urmă, înainte de publicarea noii lucrări, scriitorul de software Daniel May a remarcat coincidența tropei “Elias” și “paznic de far”, aparent observată la întâmplare. El a continuat să testeze opt variante de Gemini, DeepSeek, Qwen și Gemma, pe care le-a găsit capabile să producă “meme”-urile farului și “Elias Thorne” ca protagonist*. Cu toate acestea, această descoperire inițială nu s-a extins la gama mai largă de teme de conținut persistente descrise în noua lucrare.

Curios să văd dacă aceste teme recurente, nume și locuri au ieșit vreodată dincolo de limitele unei conversații, am căutat pe Google câteva dintre cuvintele-cheie și temele din “top 11” și am găsit un număr remarcabil de postări care par să le fi canalizat:

Trei exemple de “meme” în output. Vezi mai jos pentru legături către surse.

May a identificat numele complet “Elias Thorne” (și nu doar “Elias”) ca o “meme” persistentă a LLM, și a postat diverse capturi de ecran de pe Amazon, unde acest nume a fost folosit ca titlu pentru autorii unor cărți diverse, inclusiv cărți medicale.

În schimb, eu am căutat și am găsit conținut care părea să fi invocat temele persistente dintr-un LLM, inclusiv un post X al unei povești (versiunea arhivată aici); o lucrare de ficțiune (versiunea arhivată aici); și o poveste cu narare pe YouTube (arhivată aici). A existat mult mai mult de traversat, dar timpul nu a permis.

Gustul pentru trecut

Așa că, pentru observația casuală și serendipitate. În timp ce nu a apărut niciun “document magic” în datele de antrenare care să conțină toate sau majoritatea persistențelor, autorii noii lucrări speculează că filtrele de drepturi de autor în dezvoltarea inteligenței artificiale ar putea restricționa outputul fictiv al LLM la material care este în afara drepturilor de autor.

Autorii afirmă:

‘Nu putem explica dominanța poveștilor “Elias în far” prin prevalența în datele de antrenare sau de testare. Speculăm că modelele sunt antrenate să evite referințe la personaje cu drepturi de autor și conținut pentru adulți în timpul alinierii, dar amânăm această întrebare pentru lucrări viitoare.’

Categorie	Token	Al nostru	Lit	Pre non-ficțiune	Pre ficțiune	Post non-ficțiune	Post ficțiune
Nume	elias	2,428	2.7	2.2	4.0	0.4	52.7
Nume	mara	5,200	3.9	2.5	8.7	0.4	21.7
Nume	elara	1,221	0.0	0.4	1.2	0.9	108
Profesie	paznic	1,495	7.2	6.3	14.7	3.5	10.0
Profesie	brutar	161	20	11.8	10.56	1.7	11.9
Profesie	primar	198	28	11.5	16.1	1.4	27.4
Profesie	ceasornicar	108	0.1	0.18	0.0	0.3	1.4
Profesie	pescar	62	4.2	3.0	7.6	0.0	9.3
Profesie	bibliotecar	68	5.3	7.6	5.9	2.3	11.5
Profesie	dirijor	96	5.0	5.9	5.7	4.7	7.5
Loc	far	3,005	5.5	3.5	4.6	4.6	10.1

Tabelul de comparație arătând cât de des cuvintele recurente din poveștile generate de LLM apar în literatura publicată, ficțiunea de pe web și seturile de date post-antrenare, cu termeni precum “Elias” și “far” care apar mult mai frecvent în ficțiunea scrisă de chatbot.

În studiul lor, autorii au constatat că cele 11 cuvinte accentuate apar în 88% din cele 20.000 de povești generate și că există “puține diferențe între modele”. Ei subliniază că aceste cuvinte sunt neobișnuite în literatura engleză publicată și că datele post-antrenare (datele destinate să condiționeze și să alinieze modelele în utilizări “acceptabile”) ar putea fi responsabile.

Lucrarea afirmă:

‘Un exemplu tipic prezentat [mai jos] evidențiază trei elemente comune în aproape toate cele 20.000 de povești: un loc (19,864 de povești), un nume de personaj (19,864 de povești) și o profesie (15,807 povești).

‘De fapt, locul specific (“far”), numele (“Elias”) și profesia (“paznic”) din această poveste apar într-o combinație sau alta în 66,6% din toate poveștile generate. Lumina este, de asemenea, o temă comună: 56% din poveștile generate de Claude au titlul “Secretul paznicului de far” și cuvântul “lumină” apare în 16,784 de povești la o rată medie de 3,2 instanțe pe poveste.’

Acest exemplu, conform lucrării, a fost scris de Google Gemini 3.1 Flash-Lite, ca răspuns la solicitarea “Scrie o poveste”.

Este demn de remarcat că autorii studiului identifică o tendință nostalgică sau atavică în toate cuvintele-cheie și numele derivate.

Urmarirea trăsăturilor

Pentru a testa dacă poveștile recurente cu “far” pot fi explicate prin expunerea obișnuită la ficțiune, au fost făcute comparații între cuvintele recurente favorite ale modelelor și câteva corpuri mari de limbă engleză. Ficțiunea contemporană a fost examinată prin CONLIT, un set de date care conține 2.700 de romane în engleză publicate între 2007 și 2021, acoperind 12 genuri și totalizând aproximativ 287 de milioane de cuvinte.

‘Elias’ apare de aproximativ 900 de ori mai des în poveștile generate decât în ficțiunea publicată. Ficțiunea amatorilor de pe comunitatea /r/writingprompts de pe Reddit a produs frecvențe similare, indicând că modelul nu reflectă obiceiurile de povestire umană mai largi.

Același model a fost valabil atunci când s-a examinat datele de antrenare. Utilizând corpusul OLMo 3, care conține aproximativ 3,89 miliarde de documente scrise în principal de oameni, extrase parțial din Common Crawl, cercetătorii au constatat că cuvintele recurente “nucleu” apar foarte puțin.

Deoarece o mare parte a corpusului OLMo 3 este non-ficțiune, a fost creat un clasificator de ficțiune utilizând anotările GPT-OSS 20b și un model FastText antrenat pe 200.000 de exemple echilibrate. Chiar și după filtrarea specifică a materialului fictiv, cuvinte precum “Elara” au apărut la rate neglijabile comparativ cu poveștile generate de LLM. De ce, atunci, acestea domină la nivelul cel mai de bază al imperativei pentru un LLM de a scrie ficțiune?

Autorii afirmă:

‘Dacă cuvintele “nucleu” nu sunt comune în datele de pe web, atunci o sursă rămasă ar fi datele post-antrenare. Dar am constatat că datele post-antrenare OLMo prezintă token-urile noastre la o rată mai mică decât CONLIT.

În cadrul a 78.958 de povești din seturile de date post-antrenare OLMo 3, ei notează că “Elias” a apărut de 52,7 ori pe milion de cuvinte, comparativ cu 2,7 în CONLIT, dar a atins 2.428 de apariții pe milion de cuvinte în poveștile generate examinate în studiu.

Pentru a identifica de unde provin poveștile recurente “nucleu”, fiecare poveste din seturile de date post-antrenare OLMo 3 a fost evaluată pentru prezența unuia sau mai multor tokeni “nucleu” (adică, pentru prezența Elara, Mara, etc.). Se aștepta ca majoritatea să apară în seturile de date de fine-tuning supravegheat (SFT), deoarece WildChat și sursele conexe au contribuit cu 59.266 de povești la OLMo 3.

Cu toate acestea, doar 1.803 conțineau termeni “nucleu”, în timp ce seturile de date utilizate pentru DPO și învățare prin întărire au arătat concentrații mai mari.

În general, vocabularul recurent “nucleu” a fost urmărit până la doar 3.053 de povești, reprezentând 3,8% din toate poveștile post-antrenare examinate. Nu există nicio posibilitate statistică ca un subset atât de mic de corpuri să ajungă să domine în modul demonstrat.

Lucrarea concluzionează:

‘Atunci când li se dă puțină direcție, modelele actuale de frontieră scriu povești utilizând un catalog îngust de nume, locuri și profesii. Personajele recurente în aceste povești includ Elias, un paznic de far. Elias este neobișnuit; numele este neobișnuit în literatură, datele de pe web și chiar în datele post-antrenare.’

Concluzie

În absența oricărei lucrări literare (sau chiar a unei serii) care să conțină cele 11 cuvinte pe care autorii le identifică, nu este deloc clar prin ce mijloace această colecție particulară de cuvinte a acumulat și s-a asociat la nivelurile cele mai de bază ale mai multor modele de limbaj mari (în ciuda diversității datelor de antrenare și abordărilor lor).

Chiar dacă afirmația cercetătorilor despre efectul restrictiv al filtrelor de drepturi de autor este corectă, o “mare” de literatură clasică din datele de antrenare ar fi trebuit să prevină această ciudată colecție de cuvinte vechi de a domina outputul unei solicitări necalificate de a “scrie”.

Teoria presupune, totuși, că cantități uriașe de literatură clasică ar fi fost incluse în regimul de antrenare. Acest lucru este puțin probabil, deoarece ceea ce se dorește sunt modele care nu vor produce ieșiri false în stilul lui Dickens, ci care să se ocupe de lexicul modern și să fie potrivite pentru nevoile actuale de afaceri. Volumul imens chiar al literaturii preindustriale ar face imposibilă includerea sa.

În orice caz, dacă ar fi o singură narativă distinctă care să conțină o combinație alternativă a facetelor “obsesive” pe care autorii le notează, ar fi, probabil, mai ușor de găsit; autorii înșiși nu au putut găsi-o, și căutări ocazionale în era pre-AI nu au descoperit niciun concurent. Poate că, dacă “sindromul farului” va căpăta aceeași notorietate ca liniile de pauză AI, vreo autoritate academică va veni cu răspunsul.

* Nu pot continua mai departe în articolul lui May, din motive care pot deveni evidente atunci când cineva îl citește.

Publicat pentru prima dată miercuri, 27 mai 2026. Modificat în primele 30 de minute pentru a corecta legătura Anthropic.