Angolo di Anderson

Perché l’IA ama scrivere di guardiani di fari?

Pubblicato il 27 maggio 2026

Martin Anderson

AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

Chiesto di ‘scrivere una storia’, ChatGPT e altri modelli linguistici di punta sembrano evitare la violazione del copyright con un ricorso ossessivo allo stesso piccolo e strano cast di guardiani di fari, pescatori e orologiai.

Uno studio recente dell’Università di Cornell ha scoperto che i modelli linguistici di punta sembrano avere un’ossessione strana per una selezione molto ristretta di elementi narrativi, quando si chiede al modello di semplicemente ‘scrivere una storia’. Dopo aver chiesto a quattro LLM di scrivere 20.000 storie, hanno scoperto che l’88% delle storie prodotte presentavano almeno uno degli 11 token molto specifici nella categoria di ‘luogo’, ‘nome’ o ‘professione’:

Le occorrenze di parole chiave improbabili, rappresentate qui in parti per milione, ottenute dall’analisi dei ricercatori di 20.000 storie generate da LLM. Fonte

I 11 parole più ricorrenti nelle 12+ milioni di parole generate dai LLM per lo studio erano i nomi elias, mara, elara; le professioni guardiano, panettiere, sindaco, orologiaio, pescatore, bibliotecario e direttore d’orchestra; e il luogo farò:

I modelli testati erano Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini e OLMo 7b Thinking. Tutti sono stati promossi con una delle cinque richieste: ‘Scrivi una storia’; ‘Per favore, scrivi una storia’; ‘Scrivi una storia per me’; ‘Raccontami una storia’; o ‘Per favore, raccontami una storia’.

Curioso di vedere se il sindrome che il documento identifica è presente nei modelli disponibili al momento della scrittura, ho provato l’esperimento io stesso, prima con il mio account ChatGPT di fascia media (collegamento alla conversazione qui). Non è stato necessario selezionare – ChatGPT-5.5 è andato dritto per il materiale che i ricercatori avevano previsto, al primo tentativo:

ChatGPT-5.5 sostiene immediatamente le scoperte iniziali del documento. Fonte

Chiedendomi se il contesto storico, o addirittura una possibile fuoriuscita tra domini, potesse stare contando per questo ‘colpo immediato’, mi sono collegato a un account ChatGPT gratuito che non avevo utilizzato per un anno o più, in una finestra di navigazione privata di Firefox, e ho provato di nuovo (collegamento alla conversazione qui). Ancora una volta (supponendo che OpenAI non utilizzi un indirizzo IP comune per popolare diversi account), ChatGPT ha colpito nel segno:

L’account ChatGPT #2 segue le stesse ossessioni e il piccolo copione di nomi e temi delineati nel nuovo documento. ‘Mira’ è tra i primi 20 degli autori. Fonte

È degno di nota che queste versioni di GPT erano un grado superiore a quelle testate per il documento.

Anche se Claude Haiku è stato testato per il documento, ho provato il Sonnet 4.6 predefinito di Anthropic e non sono stato deluso. Ancora una volta, le parole chiave familiari sono arrivate al primo tentativo (collegamento alla conversazione qui):

Questa volta ‘Mara’, un altro pilastro del ‘top 11’, guida la storia, nel primo tentativo su Claude Sonnet 4.6. Fonte

Provando lo stesso prompt su Claude Haiku 4.5 ha portato a più o meno lo stesso risultato.

Non sono riuscito a riprodurre i risultati degli autori su Google Gemini inizialmente, fino a quando non ho cambiato specificamente il modello con quello utilizzato nel documento, Gemini 3.1 Flash-Lite – e poi, al terzo tentativo (ma il primo con quel modello), il modello è emerso immediatamente (collegamento qui):

Google Gemini 3.1 Flash-Lite. Fonte

Ulteriori esperimenti con diversi modelli Gemini hanno invariabilmente portato il tema del faro, sebbene con varianti non presenti nel ‘top 11’, come il nome ‘Thomas’, e, in un’altra variante, il mio nome, come protagonista.

Nonostante ciò, al momento della scrittura, le scoperte del documento sono estremamente facili da dimostrare.

Fari nel selvaggio

Grandi menti pensano allo stesso modo: una settimana fa, prima della pubblicazione del nuovo documento, lo scrittore di software Daniel May ha notato la coincidenza del tropo Elias e guardiano del faro estratto dai ricercatori*, apparentemente avendo notato che a caso. Ha continuato a testare otto varianti di Gemini, DeepSeek, Qwen e Gemma, che ha trovato produrrebbero il meme del farò e ‘Elias Thorne’ come protagonista*. Tuttavia, questa scoperta iniziale non si è estesa alla più ampia gamma di temi di contenuto persistenti delineati nel nuovo documento.

Curioso di vedere se questi temi ricorrenti, nomi e luoghi fossero mai usciti dai confini di una chat, ho cercato alcuni dei principali parole chiave e temi su Google e ho trovato un numero notevole di post che sembravano averli incanalati:

Tre esempi del meme in output. Vedi sotto per i collegamenti alle fonti.

May aveva identificato il più lungo Elias Thorne (piuttosto che solo ‘Elias’) come un meme LLM persistente e aveva pubblicato vari screenshot da Amazon, dove questo nome era stato utilizzato come titolo per gli autori di libri diversi, tra cui libri medici.

Invece, ho cercato e trovato contenuti che sembravano aver invocato i temi persistenti da un LLM, tra cui un post X di una storia (versione archiviata qui); un lavoro di finzione (versione archiviata qui); e una storia con narrazione su YouTube (archiviata qui). C’era molto altro da esplorare, ma il tempo non lo ha permesso.

Un gusto per il passato

Quindi, tanto per l’osservazione casuale e la serendipità. Mentre non c’è un singolo ‘documento magico’ nei dati di training che abbia presentato tutti o la maggior parte delle persistenze, gli autori del nuovo documento (intitolato Elias nel faro, di nuovo? Diagnosi di bassa diversità nelle storie LLM, di due ricercatori dell’Università di Cornell) teorizzano che i filtri di copyright negli sviluppi dell’IA potrebbero limitare l’output narrativo in LLM a materiale che è fuori dal copyright.

Gli autori affermano:

‘Abbiamo scoperto che la dominanza delle storie di “Elias nel faro” non può essere spiegata dalla loro prevalenza nei dati di pre- o post-formazione. Speculiamo che i modelli siano stati addestrati per evitare riferimenti a personaggi con copyright e contenuti per adulti durante l’allineamento, ma rinviiamo questa questione a lavori futuri.’

Categoria	Token	Noi	Lit	Pre non-fiction	Pre fiction	Post non-fiction	Post fiction
Nome	elias	2,428	2.7	2.2	4.0	0.4	52.7
Nome	mara	5,200	3.9	2.5	8.7	0.4	21.7
Nome	elara	1,221	0.0	0.4	1.2	0.9	108
Professione	guardiano	1,495	7.2	6.3	14.7	3.5	10.0
Professione	panettiere	161	20	11.8	10.56	1.7	11.9
Professione	sindaco	198	28	11.5	16.1	1.4	27.4
Professione	orologiaio	108	0.1	0.18	0.0	0.3	1.4
Professione	pescatore	62	4.2	3.0	7.6	0.0	9.3
Professione	bibliotecario	68	5.3	7.6	5.9	2.3	11.5
Professione	direttore d’orchestra	96	5.0	5.9	5.7	4.7	7.5
Luogo	farò	3,005	5.5	3.5	4.6	4.6	10.1

Tabella di confronto che mostra quanto spesso le parole ricorrenti dalle storie generate da LLM appaiono in letteratura pubblicata, fiction web e set di dati post-formazione, con termini come ‘Elias’ e ‘farò’ che appaiono molto più frequentemente nella fiction scritta da chatbot.

Nel documento, gli autori hanno scoperto che le 11 parole enfatizzate appaiono nell’88% delle 20.000 storie generate e che c’è ‘poca differenza tra i modelli’. Essi sottolineano che queste parole sono insolite nella letteratura inglese pubblicata e che i dati post-formazione (dati progettati per condizionare e allineare i modelli in un uso ‘accettabile’) potrebbero essere responsabili.

Il documento afferma:

‘Un esempio tipico mostrato [sotto] evidenzia tre elementi comuni in quasi tutte le 20.000 storie: un luogo (19.864 storie), un nome di carattere (19.864 storie) e una professione (15.807 storie).

‘In effetti, il luogo specifico (“farò”), il nome (“Elias”) e la professione (“guardiano”) in questa storia appaiono in qualche combinazione nel 66,6% di tutte le storie generate. La luce è anch’essa un tema comune: il 56% delle storie generate da Claude sono intitolate “Il segreto del guardiano del faro” e la parola “luce” appare in 16.784 storie a un tasso medio di 3,2 istanze per storia.’

Questo esempio, afferma il documento, è stato scritto da Google Gemini 3.1 Flash-Lite, in risposta al prompt ‘Scrivi una storia’.

È degno di nota che gli autori dello studio identificano una tendenza nostalgica o atavica in tutta la gamma di parole chiave e nomi derivati.

Inseguendo i tratti

Per testare se le storie ripetute del ‘farò’ possano essere spiegate da un’esposizione ordinaria alla fiction, sono stati effettuati confronti tra le parole chiave preferite dei modelli e diverse grandi corpora linguistici in inglese. La fiction contemporanea è stata esaminata attraverso CONLIT, un set di dati che contiene 2.700 romanzi in inglese pubblicati tra il 2007 e il 2021, coprendo 12 generi e totalizzando circa 287 milioni di parole.

‘Elias’ appare intorno a 900 volte più spesso nelle storie generate che nella fiction pubblicata. La fiction amatoriale da Reddit /r/writingprompts ha prodotto frequenze simili, indicando che il modello non riflette abitudini narrative umane più ampie.

Lo stesso modello si è verificato quando sono stati esaminati i dati di pre-formazione. Utilizzando il corpus OLMo 3 apertamente disponibile, che contiene circa 3,89 miliardi di documenti scritti principalmente da esseri umani tratti in parte da Common Crawl, i ricercatori hanno scoperto che le parole chiave ricorrenti apparivano a malapena.

Dal momento che gran parte del corpus OLMo 3 è non-fiction, è stato costruito un classificatore di fiction utilizzando GPT-OSS 20b e un modello FastText addestrato su 200.000 campioni equilibrati. Anche dopo aver filtrato specificamente il materiale fiction, parole come ‘Elara’ apparivano a tassi trascurabili rispetto alle storie generate da LLM. Perché, quindi, dominano al livello più basso dell’imperativo per un LLM di scrivere fiction?

Gli autori affermano:

‘Se le parole chiave non sono comuni nei dati web, allora una fonte rimanente sarebbe i dati post-formazione. Ma scopriamo che i dati post-formazione di OLMo esibiscono i nostri token a un tasso inferiore rispetto a CONLIT.

All’interno di 78.958 storie dai set di dati post-formazione di OLMo 3, notano, ‘Elias’ appare 52,7 volte per milione di parole, rispetto a 2,7 in CONLIT, ma raggiunge 2.428 occorrenze per milione di parole nelle storie generate esaminate nel documento.

Per identificare da dove provenivano le storie ricorrenti del ‘Core’, ogni storia nei dati post-formazione di OLMo 3 è stata valutata per la presenza di uno o più token del Core (ad esempio, per la presenza di Elara, Mara, ecc.). La maggior parte era prevista che apparisse in set di dati di fine-tuning supervisionato (SFT), poiché WildChat e fonti correlate hanno contribuito 59.266 storie a OLMo 3.

Tuttavia, solo 1.803 contenevano token del Core, mentre i set di dati utilizzati per DPO e apprendimento per rinforzo hanno mostrato concentrazioni più elevate.

Nel complesso, il lessico ricorrente del Core è stato rintracciato a solo 3.053 storie, rappresentando il 3,8% di tutte le storie post-formazione esaminate. Non c’è possibilità statistica che un piccolo subset di corpora possa finire per dominare in questo modo.

Il documento conclude:

‘Quando si dà poca direzione, i modelli attuali di frontiera scrivono storie utilizzando un catalogo ristretto di nomi, luoghi e professioni. I personaggi ricorrenti in queste storie includono Elias, un guardiano del faro. Elias è insolito; il nome è raro nella letteratura, nei dati web e anche nei dati post-formazione.’

Conclusione

In assenza di un singolo lavoro letterario (o anche di una serie) che presenti le 11 parole in cima che gli autori identificano, non è affatto chiaro per quali mezzi questa particolare raccolta di parole si è accumulata e autoassociata ai livelli più bassi di più grandi modelli linguistici (nonostante la loro diversità di dati di training e approcci).

Anche se la tesi dei ricercatori sull’effetto limitante dei filtri di copyright è corretta, un vero e proprio oceano di letteratura classica nei dati di training dovrebbe aver impedito a questa strana raccolta di parole vecchio stile di dominare l’output di un prompt di scrittura non qualificato.

Quella teoria presume, tuttavia, che grandi quantità di letteratura classica siano state incluse nel regime di training in primo luogo. È improbabile, poiché ciò che si desidera sono modelli che non produrranno uscite false di Dickens, ma piuttosto che trattino il lessico moderno e siano adatti alle esigenze aziendali attuali. La semplice quantità, anche di letteratura pre-industriale, escluderebbe la sua inclusione.

In ogni caso, se ci fosse un singolo racconto che presentasse una combinazione di alcuni dei tratti ‘ossessivi’ che gli autori notano, sarebbe presumibilmente più facile da trovare; gli autori stessi non sono riusciti a trovarlo e ricerche casuali sull’era pre-AI non hanno prodotto alcun contendente. Forse, se il ‘sindrome del faro’ guadagna la stessa notorietà degli em dash dell’IA, qualche autorità accademica verrà avanti con la risposta.

* Non posso andare oltre nell’articolo di May, per motivi che potrebbero diventare ovvi quando si legge.

Pubblicato per la prima volta mercoledì 27 maggio 2026. Modificato nei primi 30 minuti per correggere il collegamento a Anthropic.