Andersons vinkel
Hvorfor elsker AI at skrive om fyrtårnsførere?

Når de bedes om at ‘skrive en historie’, ser det ud til, at ChatGPT og andre førende sprogmodeller undgår ophavsretsskrænkelse ved at bruge det samme lille og underlige udvalg af fortællingselementer, når man beder modellen om at skrive en historie.
En ny studie fra Cornell University har fundet, at førende sprogmodeller synes at have en underlig besættelse af et meget snævert udvalg af narrative elementer, når man beder modellen om at skrive en historie. Efter at have bedt fire LLM’er om at skrive 20.000 historier, fandt de, at 88% af de producerede historier indeholdt mindst ét af 11 meget specifikke tokens i kategorien ‘lokation’, ‘navn’ eller ‘profession’:

Forekomsten af usandsynlige nøgleord, repræsenteret her i millioner, erhvervet ved forskernes analyse af 20.000 LLM-genererede historier. Kilde
De 11 mest gentagne ord i de 12+ millioner ord, der blev genereret af LLM’er til studiet, var navnene elias, mara, elara; professionerne fører, bager, borgmester, urmaker, fisker, bibliotekar og konduktør; og lokationen fyrtårn:
De testede modeller var Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini og OLMo 7b Thinking. Alle blev bedt om at skrive en historie med en af fem forskellige anmodninger: ‘Skriv en historie’; ‘Venligst skriv en historie’; ‘Skriv mig en historie’; ‘Fortæl mig en historie’; eller ‘Venligst fortæl en historie’.
Interessant nok var disse GPT-versioner en klasse bedre end den 5.4, der blev testet i papiret.
Da Claude Haiku blev testet i papiret, prøvede jeg Anthropics standard Sonnet 4.6 og blev ikke skuffet. Endnu engang kom de velkendte nøgleord frem ved første forsøg (link til samtale her):

Denne gang var ‘Mara’ en anden fast bestanddel af ‘top 11’, der førte historien i første forsøg på Claude Sonnet 4.6. Kilde
Jeg var ikke i stand til at genskabe forfatternes resultater på Google Gemini først, indtil jeg specifikt ændrede modellen til den, der blev brugt i papiret, Gemini 3.1 Flash-Lite – og derefter, på tredje forsøg (men første gang med denne model), opstod mønsteret straks (link her):

Google Gemini 3.1 Flash-Lite . Kilde
Før studiet havde software-forfatteren Daniel May peget på sammenfaldet af Elias og fyrtårnsfører-tropen, der blev udtrukket af forskerne*, efter at have bemærket det tilfældigt. Han gik videre med at teste otte varianter af Gemini, DeepSeek, Qwen og Gemma, som han fandt ville producere fyrtårn-meme’er og ‘Elias Thorne’ som protagonist*. Men denne første opdagelse udvidede sig ikke til det bredere udvalg af bestandige indholdstemaer, der blev fremhævet i det nye papir.
Interessant nok var, at forfatterne af papiret identificerede en nostalgisk eller atavistisk tendens på tværs af alle de afledte nøgleord og navne.
Fyrtårne i det vilde
Store tanker tænker ens: en uge før offentliggørelsen af det nye papir, pegede software-forfatteren Daniel May på sammenfaldet af Elias og fyrtårnsfører-tropen, der blev udtrukket af forskerne*, efter at have bemærket det tilfældigt. Han gik videre med at teste otte varianter af Gemini, DeepSeek, Qwen og Gemma, som han fandt ville producere fyrtårn-meme’er og ‘Elias Thorne’ som protagonist*. Men denne første opdagelse udvidede sig ikke til det bredere udvalg af bestandige indholdstemaer, der blev fremhævet i det nye papir.
Interessant nok var, at forfatterne af papiret identificerede en nostalgisk eller atavistisk tendens på tværs af alle de afledte nøgleord og navne.
En smag for fortiden
Så meget for tilfældig observation og serendipitet. Mens der ikke er fundet nogen enkelt ‘magisk dokument’ i træningsdata, der indeholder alle eller de fleste af de bestandige elementer, teoriserer forfatterne af det nye papir (med titlen Elias i fyrtårnet, igen? Diagnose af lav diversitet i LLM-historier, af to forskere fra Cornell University), at ophavsretssfilter i AI-udvikling kan begrænse fiktivt output i LLM’er til materiale, der er uden ophavsret.
Forfatterne fastslår:
‘Vi finder, at dominansen af “Elias i fyrtårnet”-historier ikke kan forklares af forekomsten i træningsdata før eller efter. Vi spekulerer på, at modellerne er trænet til at undgå henvisninger til ophavsretligt beskyttede karakterer og voksenindhold under alignment, men vi overlader dette spørgsmål til fremtidig arbejde.’
| Kategori | Token | Vores | Litteratur | Før non-fiktion | Før fiktion | Efter non-fiktion | Efter fiktion |
|---|---|---|---|---|---|---|---|
| Navn | elias | 2,428 | 2.7 | 2.2 | 4.0 | 0.4 | 52.7 |
| Navn | mara | 5,200 | 3.9 | 2.5 | 8.7 | 0.4 | 21.7 |
| Navn | elara | 1,221 | 0.0 | 0.4 | 1.2 | 0.9 | 108 |
| Profession | fører | 1,495 | 7.2 | 6.3 | 14.7 | 3.5 | 10.0 |
| Profession | bager | 161 | 20 | 11.8 | 10.56 | 1.7 | 11.9 |
| Profession | borgmester | 198 | 28 | 11.5 | 16.1 | 1.4 | 27.4 |
| Profession | urmaker | 108 | 0.1 | 0.18 | 0.0 | 0.3 | 1.4 |
| Profession | fisker | 62 | 4.2 | 3.0 | 7.6 | 0.0 | 9.3 |
| Profession | bibliotekar | 68 | 5.3 | 7.6 | 5.9 | 2.3 | 11.5 |
| Profession | konduktør | 96 | 5.0 | 5.9 | 5.7 | 4.7 | 7.5 |
| Lokation | fyrtårn | 3,005 | 5.5 | 3.5 | 4.6 | 4.6 | 10.1 |
Sammenligningstabel, der viser, hvor ofte gentagne ord fra AI-genererede historier optræder i litteratur, webfiktion og post-træningsdata, med termer som ‘Elias’ og ‘fyrtårn’, der optræder langt hyppigere i chatbot-genereret fiktion.
I studiet fandt forfatterne, at de understregede 11 ord optræder i 88% af de 20.000 genererede historier, og at der er ‘meget lidt forskel på modellerne’. De understreger, at disse ord er usædvanlige i publiceret engelsk litteratur, og at post-træningsdata (data designet til at konditionere og alignere modeller til ‘acceptabel’ brug) kan være årsag til dette.
Papiret fastslår:
‘Et typisk eksempel viser tre elementer, der er fælles for næsten alle 20.000 historier: en lokation (19.864 historier), et navn (19.864 historier) og en profession (15.807 historier). ‘
‘Faktisk optræder den specifikke lokation (“fyrtårn”), navn (“Elias”) og profession (“fører”) i denne historie i en eller anden kombination i 66,6% af alle genererede historier. Lys er ligeledes et almindeligt tema: 56% af historierne genereret af Claude er titlen “Fyrtårnsførerens hemmelighed” og ordet “lys” optræder i 16.784 historier med en gennemsnitlig rate på 3,2 eksemplarer per historie.’

Dette eksempel, som papiret fastslår, blev skrevet af Google Gemini 3.1 Flash-Lite som svar på prompten ‘Skriv en historie’.
Jagt på egenskaberne
For at teste, om de gentagne ‘fyrtårn’-historier kan forklares af almindelig eksponering for fiktion, blev sammenligninger lavet mellem modellernes foretrukne gentagne ord og flere store engelske korpus. Kontemporær fiktion blev undersøgt gennem CONLIT, en dataset, der indeholder 2.700 engelske romaner publiceret mellem 2007 og 2021, der dækker 12 genrer og tæller omkring 287 millioner ord.
‘Elias’ optrådte omkring 900 gange oftere i de genererede historier end i publiceret fiktion. Amatørfiktion fra Reddits /r/writingprompts-fællesskab producerede lignende hyppigheder, hvilket indikerer, at mønsteret ikke reflekterer bredere menneskelige fortællevaner.
Det samme mønster optrådte, da for-træningsdata blev undersøgt. Ved hjælp af det åbent tilgængelige OLMo 3-korpus, der indeholder omkring 3,89 milliarder primært menneskeskrevne dokumenter, delvist fra Common Crawl, fandt forskerne, at de gentagne ‘Core’-ord kun optrådte meget lidt.
For at identificere, hvor de gentagne ‘Core’-historier kom fra, blev hver historie i OLMo 3’s post-træningsdata vurderet for tilstedeværelsen af en eller flere Core-tokens (dvs. for tilstedeværelsen af Elara, Mara osv.). De fleste af disse historier var forventet at optræde i supervised fine-tuning (SFT)-data, fordi WildChat og relaterede kilder bidrog med 59.266 historier til OLMo 3.
Men kun 1.803 indeholdt Core-termer, mens data, der blev brugt til DPO og reinforcement learning, viste højere koncentrationer.
I alt blev den gentagne Core-vokabular tilbageført til kun 3.053 historier, der repræsenterer 3,8% af alle post-træningshistorier, der blev undersøgt. Der er ingen statistisk mulighed for, at sådant et lille undermængde af korpus kan ende med at dominere det på den måde, der er demonstreret.
Papiret konkluderer:
‘Når de får lidt retning, skriver nuværende frontmodeller historier ved hjælp af et snævert katalog af navne, steder og erhverv. Gentagne karakterer i disse historier inkluderer Elias, en fyrtårnsfører. Elias er usædvanlig; navnet er sjældent i litteratur, webdata og endda post-træningsdata.’
Konklusion
I mangelen på en enkelt litterær værk (eller selv en serie), der indeholder de øverste 11 ord, som forfatterne identificerer, er det ikke klart, hvormed denne bestemte samling af ord har akkumuleret og selv-associeret sig til de laveste niveauer af multiple store sprogmodeller (trods deres diversitet af træningsdata og tilgange).
Even hvis forfatternes påstand om den begrænsende effekt af ophavsretssfilter er korrekt, burde en virkelig ocean af klassisk litteratur i træningsregimet have forhindret denne underlige samling af gammeldags ord i at dominere outputtet af en ikke-kvalificeret ‘skriv’-prompt.
Det antager dog, at store mængder af klassisk litteratur ville være inkluderet i træningsregimet overhovedet. Det er usandsynligt, da det, der ønskes, er ikke modeller, der kan producere faux Dickens-udgaver, men snarere modeller, der kan håndtere det moderne leksikon og er egnede til nuværende erhvervsbehov. Den enorme mængde af før-industriell litteratur ville udelukke dens inklusion.
I ethvert tilfælde, hvis der var en enkelt fortælling, der indeholdt en eller anden kombination af de ‘besættende’ aspekter, som forfatterne bemærker, ville det være lettere at finde; forfatterne selv kunne ikke finde det, og tilfældige søgninger i den før-AI-æra afslører ingen sådan kandidat. Måske, hvis ‘fyrtårnsyndrom’ får den samme berømmelse som AI-em-dashes, vil en akademisk autoritet komme frem med svaret.
* Jeg kan ikke gå længere ind i Mays artikel, af grunde, der kan blive åbenlyse, når man læser den.
Først publiceret onsdag, 27. maj 2026. Ændret i de første 30 minutter for at korrigere Anthropic-linket.












