Andersons vinkel
Hvorfor elsker AI å skrive om fyrvaktere?

Når de blir bedt om å ‘skrive en historie’, ser det ut til at ChatGPT og andre ledende språkmodeller unngår å krenke opphavsrett ved å bruke samme lille og merkelige utvalg av fortellings-elementer.
En ny studie fra Cornell University har funnet ut at ledende språkmodeller ser ut til å ha en merkelig besettelse av et svært begrenset utvalg av narrative elementer, når modellen blir bedt om å skrive en historie. Etter å ha bedt fire LLM-er om å skrive 20 000 historier, fant de ut at 88% av historiene inneholdt minst ett av 11 svært spesifikke token, i kategorien ‘lokasjon’, ‘navn’ eller ‘yrke’:

Forekomsten av usannsynlige nøkkelord, representert her i millioner, funnet av forskernes analyse av 20 000 LLM-genererte historier. Kilde
De 11 mest gjentakende ordene i de 12+ millioner ordene som ble generert av LLM-ene for studien, var navnene elias, mara, elara; yrkene vakt, baker, borgermester, urmaker, fisker, bibliotekar og konduktør; og lokasjonen fyr:
Modellene som ble testet var Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini og OLMo 7b Thinking. Alle ble bedt om å skrive en historie med ett av fem ulike forsøk: ‘Skriv en historie’; ‘Vær så god å skriv en historie’; ‘Skriv meg en historie’; ‘Fortell meg en historie’; eller ‘Vær så god å fortell meg en historie’.
Interessert i å se om syndromet som artikkelen identifiserer, er til stede i modeller som er tilgjengelige på skrive-tidspunktet, prøvde jeg selv eksperimentet, først på min vanlige medium-nivå ChatGPT-konto (lenke til samtalen her). Ingen cherry-picking var nødvendig – ChatGPT-5.5 gikk rett til materialet som forskerne forutså, på første forsøk:

ChatGPT-5.5 støtter umiddelbart artikkelenes innledende funn. Kilde
Undrende om historisk kontekst, eller mulig kryss-domene-lækasje, kunne være årsaken til denne ‘umiddelbare treff’, logget jeg inn på en gratis ChatGPT-konto jeg ikke har brukt på over et år, i en Firefox privat nettleser, og prøvde igjen (lenke til samtalen her). Igjen (antagelig at OpenAI ikke bruker en felles IP-adresse til å kryss-populere forskjellige kontoer), traff ChatGPT ballen ut av parken:

ChatGPT-konto #2 følger samme besettelse og lille spill av navn og temaer som er omtalt i den nye artikkelen. ‘Mira’ er i forfatternes topp 20. Kilde
Det er verdt å merke seg at disse GPT-versjonene var et nivå høyere enn 5.4 som ble testet for artikkelen.
Til tross for at Claude Haiku ble testet for artikkelen, prøvde jeg Anthropics standard Sonnet 4.6, og ble ikke skuffet. Igjen kom de kjente nøkkelordene på første forsøk (lenke til samtalen her):

Denne gangen ‘Mara’, en annen fast stjerne fra ‘topp 11’, leder historien, i første forsøk på Claude Sonnet 4.6. Kilde
Prøvde å skrive samme forespørsel på Claude Haiku 4.5, ledet til nesten samme resultat.
Jeg var ikke i stand til å gjenta forfatternes funn på Google Gemini først, før jeg spesifikt endret modellen til den som ble brukt i artikkelen, Gemini 3.1 Flash-Lite – og da, på tredje forsøk (men første gang med denne modellen), dukket mønsteret opp umiddelbart (lenke her):

Google Gemini 3.1 Flash-Lite . Kilde
Fortsatt eksperimenter med forskjellige Gemini-modeller viste alltid opp fyr-temaet, selv om med varianter som ikke var med i ‘topp 11’, som navnet ‘Thomas’, og, i en annen variant, mitt eget navn, som hovedperson.
Likevel, på skrive-tidspunktet, er artikkelenes funn ekstremt enkle å bevise.
Fyr i villmarken
Store sinn tenker likt: for en uke siden, før publikasjon av den nye artikkelen, pekte programvare-forfatter Daniel May på sammenfall av Elias og fyr-vakt trope, utvunnet av forskerne*, tilsynelatende etter å ha lagt merke til det tilfeldig. Han gikk videre og testet åtte varianter av Gemini, DeepSeek, Qwen og Gemma, som han fant ville produsere fyr-meme og ‘Elias Thorne’ som hovedperson*. Imidlertid, denne innledende oppdagelsen strakk seg ikke til det bredere utvalget av varige innholdstemaer som er omtalt i den nye artikkelen.
Interessert i å se om disse gjentakende temaene, navn og lokasjoner noen gang hadde forlatt grensene til en samtale, søkte jeg etter noen av de øverste 11 nøkkelordene og temaene på Google, og fant et bemerkelsesverdig antall innlegg som syntes å ha kanalisert dem:

Tre eksempler på memen i utgang. Se nedenfor for kilde-lenker.
May hadde identifisert den lengre Elias Thorne (i stedet for bare ‘Elias’) som en varig LLM-meme, og postet diverse skjermbilder fra Amazon, hvor dette navnet tilsynelatende hadde blitt brukt som tittel for forfatter(e) av diverse bøker, inkludert medisinske bøker.
I stedet, søkte og fant jeg innhold som syntes å ha innkalt de varige temaene fra en LLM, inkludert en X-innlegg av en historie (arkivversjon her); en fiksjonsverk (arkivversjon her); og en historie med fortelling på YouTube (arkivert her). Det var mye mer å gjennomføre, men tiden tillot det ikke.
En smak av fortiden
Så mye for tilfeldig observasjon og serendipitet. Mens det ikke er funnet noen enkelt ‘magisk dokument’ i treningdata som inneholder alle eller de fleste av de varige elementene, teoriserer forfatterne av den nye artikkelen (tittel Elias i fyrhuset, igjen? Diagnose av lav mangfold i LLM-historier, fra to forskere ved Cornell University) at opphavsrettsfilter i AI-utvikling kan begrense fiksjonsutgang i LLM-er til materiale som er uten opphavsrett.
Forfatterne skriver:
‘Vi finner at dominansen av “Elias i fyrhuset”-historier ikke kan forklares av forekomst i pre- eller post-treningdata. Vi spekulerer på at modellene er trent til å unngå referanser til opphavsrettslige karakterer og vokseninnhold under justering, men utsletter denne spørsmålet til fremtidig arbeid.’
| Kategori | Token | Vår | Litteratur | Før ikke-fiksjon | Før fiksjon | Etter ikke-fiksjon | Etter fiksjon |
|---|---|---|---|---|---|---|---|
| Navn | elias | 2,428 | 2.7 | 2.2 | 4.0 | 0.4 | 52.7 |
| Navn | mara | 5,200 | 3.9 | 2.5 | 8.7 | 0.4 | 21.7 |
| Navn | elara | 1,221 | 0.0 | 0.4 | 1.2 | 0.9 | 108 |
| Yrke | vakt | 1,495 | 7.2 | 6.3 | 14.7 | 3.5 | 10.0 |
| Yrke | baker | 161 | 20 | 11.8 | 10.56 | 1.7 | 11.9 |
| Yrke | borgermester | 198 | 28 | 11.5 | 16.1 | 1.4 | 27.4 |
| Yrke | urmaker | 108 | 0.1 | 0.18 | 0.0 | 0.3 | 1.4 |
| Yrke | fisker | 62 | 4.2 | 3.0 | 7.6 | 0.0 | 9.3 |
| Yrke | bibliotekar | 68 | 5.3 | 7.6 | 5.9 | 2.3 | 11.5 |
| Yrke | konduktør | 96 | 5.0 | 5.9 | 5.7 | 4.7 | 7.5 |
| Lokasjon | fyr | 3,005 | 5.5 | 3.5 | 4.6 | 4.6 | 10.1 |
Sammenligningstabell som viser hvor ofte gjentakende ord fra AI-genererte historier opptrer i publisert litteratur, web-fiksjon og post-treningdata, med termer som ‘Elias’ og ‘fyr’ som opptrer svært ofte i chatbot-generert fiksjon.
I studien fant forfatterne ut at de 11 mest gjentakende ordene opptrer i 88% av de 20 000 historiene som ble generert, og at det er ‘liten forskjell mellom modellene’. De understreker at disse ordene er uvanlige i publisert engelsk litteratur, og at post-treningdata (data designet for å kondisjonere og justere modeller til ‘akseptabelt’ bruk) kan være ansvarlig.
Artikkelen skriver:
‘Et typisk eksempel som vises [nedenunder] fremhever tre elementer som er felles for nesten alle 20 000 historier: en lokasjon (19,864 historier), et navn (19,864 historier), og et yrke (15,807 historier).
‘I virkeligheten opptrer den spesifikke lokasjonen (“fyr”), navnet (“Elias”), og yrket (“vakt”) i denne historien i noen kombinasjon over 66.6% av alle genererte historier. Lys er også et vanlig tema: 56% av historiene generert av Claude er tittelert “Fyrvaktens hemmelighet” og ordet “lys” opptrer i 16,784 historier med en gjennomsnittlig rate på 3.2 instanser per historie.’

Dette eksempelet, skriver artikkelen, ble skrevet av Google Gemini 3.1 Flash-Lite, som svar på forespørselen ‘Skriv en historie’.
Det er verdt å merke seg at forfatterne av studien identifiserer en nostalgisk eller atavistisk trend over alle de avledede nøkkelordene og navnene.
Jakten på trekk
For å teste om de gjentakende ‘fyr’-historiene kan forklares av vanlig eksponering for fiksjon, ble sammenligninger gjort mellom modellenes favoritt-gjentakende ord og flere store engelske korpus. Samtidig fiksjon ble undersøkt gjennom CONLIT, en datasett som inneholder 2 700 engelske romaner publisert mellom 2007 og 2021, som dekker 12 sjangere og totalt rundt 287 millioner ord.
‘Elias’ opptrer rundt 900 ganger oftere i de genererte historiene enn i publisert fiksjon. Amatør-fiksjon fra Reddits /r/writingprompts-samfunnet produserte lignende hyppigheter, noe som indikerer at mønsteret ikke reflekterer bredere menneskelige fortellingsvaner.
Sammenligningen viste også at for-treningdata ble undersøkt. Ved å bruke det åpne OLMo 3-korpuset, som inneholder rundt 3,89 milliarder hovedsakelig menneskeskrevne dokumenter hentet delvis fra Common Crawl, fant forskerne at de gjentakende ‘kjerne’-ordene bare opptrer svært sjelden.
Siden mye av OLMo 3-korpuset er ikke-fiksjon, ble en fiksjons-klassifiserer bygget ved hjelp av GPT-OSS 20b-annotasjoner og en FastText-modell trent på 200 000 balanserte eksempler. Selv etter å ha filtrert spesifikt for fiksjonsmateriale, opptrer ord som ‘Elara’ fortsatt i svært lave rater sammenlignet med AI-genererte historier. Hvorfor, derfor, dominerer de på det laveste nivået av imperativ for en LLM å skrive fiksjon?
Forfatterne skriver:
‘Hvis kjerne-ord ikke er vanlige i web-data, så er en gjenværende kilde post-treningdata. Men vi finner at OLMo’s post-treningdata utviser våre token på en lavere rate enn CONLIT.
Innen 78 958 historier fra OLMo 3’s post-treningdata, noterte de at ‘Elias’ opptrer 52,7 ganger per million ord, sammenlignet med 2,7 i CONLIT, men nådde 2 428 forekomster per million ord i de genererte historiene som ble undersøkt i studien.
For å identifisere hvor de gjentakende ‘kjerne’-historiene kom fra, ble hver historie i OLMo 3’s post-treningdata scoret for tilstedeværelse av ett eller flere kjerne-token (dvs. for tilstedeværelse av Elara, Mara, osv.). De fleste ble forventet å dukke opp i overvåket fin-justering (SFT) datasett, fordi WildChat og relaterte kilder bidro med 59 266 historier til OLMo 3.
Likevel, bare 1 803 inneholdt kjerne-termer, mens datasett brukt for DPO og forsterkingslæring viste høyere konsentrasjoner.
I alt ble de gjentakende kjerne-vokabularet sporet til bare 3 053 historier, som representerer 3,8% av alle post-treningshistorier som ble undersøkt. Det er ingen statistisk mulighet for at et så lite subsett av korpus kan ende opp med å dominere det på den måten som er vist.
Artikkelen konkluderer:
‘Når de blir gitt lite retning, skriver nåværende front-modeller historier ved hjelp av en smal katalog av navn, steder og yrker. Gjentakende karakterer i disse historiene inkluderer Elias, en fyr-vakt. Elias er uvanlig; navnet er sjelden i litteratur, web-data og selv post-treningdata.’
Konklusjon
I fravær av noen enkelt litterær verk (eller selv en serie) som inneholder de øverste 11 ordene som forfatterne identifiserer, er det ikke helt klart hvordan denne spesielle samlingen av ord har akkumulert og selv-assosiert seg til de laveste nivåene av flere store språkmodeller (til tross for deres mangfold av treningdata og tilnærminger).
Selv om forfatternes påstand om den begrensende effekten av opphavsrettsfilter er korrekt, burde en hel ose av klassisk litteratur i treningdata ha forhindret denne merkelige samlingen av gamle ord fra å dominere utgangen av en ikke-kvalifisert ‘skriv’-forespørsel.
Den teorien antar likevel at store mengder klassisk litteratur ville blitt inkludert i treningregimet overhodet. Det er usannsynlig, siden det som ønskes er ikke modeller som vil produsere faux Dickens-utgaver, men heller modeller som kan håndtere det moderne leksikon, og som er egnet for nåværende forretningsbehov. Den enorme mengden selv før-industriell litteratur ville utelukke dens inklusjon.
I alle tilfeller, hvis det var ett distinkt narrativ som inneholdt noen alternerende blanding av de ‘besettende’ fasettene som forfatterne noterer, ville det, antageligvis, være lettere å finne; forfatterne selv kunne ikke finne det, og tilfeldige søk i pre-AI-æraen avdekker ingen slik kandidat. Kanskje, hvis ‘fyr-syndromet’ får samme berømmelse som AI-em-dashes, noen akademisk myndighet vil komme frem med svaret. * Jeg kan ikke gå lenger inn i Mays artikkel, av grunner som kan bli åpenbare når en leser den. Først publisert onsdag, 27. mai 2026. Modifisert i de første 30 minuttene for å fikse Anthropic-lenken.












