Andersonin kulma

Miksi tekoäly rakastaa kirjoittaa majakkavahtien tarinoita?

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

Kun pyydetään “kirjoittamaan tarina”, ChatGPT ja muut johtavat kielen mallit näyttävät välttävän tekijänoikeusloukkauksia omaksumalla saman pieni ja outo valikoiman kerronnallisia elementtejä. Tämä ilmenee, kun mallille annetaan yksinkertainen pyyntö kirjoittaa tarina.

 

Cornellin yliopiston uusi tutkimus on osoittanut, että johtavat kielen mallit näyttävät omaksuman outoja ja suppeita kerronnallisia elementtejä, kun niille annetaan yksinkertainen pyyntö “kirjoittaa tarina”. Tutkimuksessa neljä LLM-mallia pyydettiin kirjoittamaan 20 000 tarinaa, ja tuloksissa havaittiin, että 88 % tarinoista sisälsi vähintään yhden 11:stä erittäin tarkasti määritellystä tokenista, jotka liittyivät luokkiin ‘sijainti’, ‘nimi’ tai ‘ammatti’.

Epätodennäköisten avainsanojen esiintymiset miljoonassa sanassa, jotka saatiin tutkijoiden analyysistä 20 000 LLM:n generoimasta tarinasta. Lähde - https://arxiv.org/pdf/2605.26492

Epätodennäköisten avainsanojen esiintymiset miljoonassa sanassa, jotka saatiin tutkijoiden analyysistä 20 000 LLM:n generoimasta tarinasta. Lähde

Tutkimuksessa havaittiin, että 11 yleisintä sanaa, jotka toistuivat LLM-mallien generoimissa tarinoissa, olivat nimet elias, mara, elara; ammatit vahti, leipuri, pormestari, kellojenkorjaaja, kalastaja, kirjastonhoitaja ja johtaja; sekä sijainti majakka.

Tutkimuksessa käytettiin seuraavia malleja: Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini ja OLMo 7b Thinking. Kaikki mallit pyydettiin kirjoittamaan tarina yhdellä viidestä pyynnöstä: ‘Kirjoita tarina’; ‘Olkaa hyvä ja kirjoita tarina’; ‘Kirjoita minulle tarina’; ‘Kerro minulle tarina’ tai ‘Olkaa hyvä ja kerro tarina’.

Olin utelias nähdäkseni, onko tutkimuksessa havaittu ilmiö läsnä myös malleissa, jotka ovat saatavilla kirjoitusajankohtana. Kokeilin kokea itse, ensin käyttämällä ChatGPT-tiliäni (linkki keskusteluun täällä). Ei ollut tarpeen valikoida – ChatGPT-5.5 meni suoraan materiaaliin, jota tutkijat ennustivat, jo ensimmäisellä yrityksellä:

ChatGPT-5.5 vahvistaa tutkimuksen alkuhavainnot. Lähde - https://chatgpt.com/share/6a16b1f0-eb40-83eb-8380-1d5cdf0ea955

ChatGPT-5.5 vahvistaa tutkimuksen alkuhavainnot. Lähde

Tutkimuksessa havaittiin, että mallit toistavat tiettyjä teemoja ja sanoja, kuten “majakka” ja “Elias”, joita ei tavata usein kirjallisuudessa tai verkkoaineistoissa.

Majakat villiympäristössä

Suuret mietteet ovat samanlaisia: viikko sitten, ennen uuden tutkimuksen julkaisemista, ohjelmistosuunnittelija Daniel May huomautti sattumasta, jossa Elias ja majakanvartija -teema esiintyvät tutkijoiden havaitsemassa muodossa*, ilmeisesti huomatessaan sen sattumalta. Hän kokeili kahdeksaa Gemini-, DeepSeek-, Qwen- ja Gemma-mallin varianttia, joista hän havaitsi, että ne tuottavat majakka-meemit ja “Elias Thorne” -päähenkilön*.

Minua kiinnosti nähdä, ovatko nämä toistuvat teemat, nimet ja sijainnit koskaan päässeet chatin ulkopuolelle, ja etsin joitain yleisimpiä avainsanoja ja teemoja Googlesta, ja löysin hämmästyttävän määrän viestejä, jotka näyttävät kanavoivan niitä:

Kolme esimerkkiä meemistä tulosteessa. Katso alla olevat lähdelinkit.

Kolme esimerkkiä meemistä tulosteessa. Katso alla olevat lähdelinkit.

May tunnisti Elias Thornen (eikä vain “Elias”) pysyvänä LLM-meeminä ja julkaisi useita Amazonin ruutukaappeja, joissa tämä nimi on ilmeisesti käytetty useiden kirjojen tekijän/nimienä, mukaan lukien lääketieteelliset kirjat.

Maku menneisyydestä

Joten paljonkaan ei ole satunnaisesta havainnosta ja sattumasta. Vaikka yksittäistä “taikadokumenttia” koulutusaineistossa ei ole vielä löydetty, joka sisältää kaikki tai useimmat näistä jatkuvuuksista, tutkimuksen tekijät spekuloi, että tekijänoikeusfiltterit tekoälykehityksessä voivat rajoittaa kaunokirjallista tuotantoa LLM-malleissa aineistoon, joka on tekijänoikeuksien ulottumattomissa.

Tutkimuksessa havaittiin, että 11 yleisintä sanaa, jotka toistuvat LLM-mallien generoimissa tarinoissa, ovat nimet elias, mara, elara; ammatit vahti, leipuri, pormestari, kellojenkorjaaja, kalastaja, kirjastonhoitaja ja johtaja; sekä sijainti majakka.

Seuraamalla piirteitä

Tutkimuksessa vertailtiin mallejen suosikkitoistuvia sanoja useiden suurten englanninkielisten aineistojen kanssa. Tässä tutkimuksessa tarkasteltiin nykykirjallisuutta CONLIT-aineistossa, joka sisältää 2 700 englanninkielistä romaania, jotka on julkaistu vuosina 2007-2021, ja jotka edustavat 12 eri genren ja yhteensä noin 287 miljoonaa sanaa.

‘Elias’ esiintyy noin 900 kertaa useammin generoiduissa tarinoissa kuin julkaistussa kirjallisuudessa. Amatöörikirjallisuus Redditin /r/writingprompts-yhteisöstä tuotti samanlaisia esiintymistiheyksiä, mikä osoittaa, että tämä kaava ei heijasta laajempia ihmisten kerrontatapoja.

Tutkimuksessa havaittiin, että toistuvat “ydinsanat” esiintyvät vain hyvin vähän koulutusaineistoissa ja postikoulutusaineistoissa.

Johtopäätös

Tutkimuksessa havaittiin, että LLM-mallit generoivat tarinoita, jotka sisältävät suppean valikoiman nimiä, sijainteja ja ammatteja. Toistuvat hahmot näissä tarinoissa ovat Elias, majakanvartija.

Tutkimuksessa ei löydetty yhtä yksittäistä teosta, joka sisältäisi kaikki 11 yleisintä sanaa, jotka tutkijat tunnistivat. Tutkijat eivät myöskään löytäneet mitään selkeää selitystä sille, miksi nämä sanat ja teemat ovat niin yleisiä LLM-mallien generoimissa tarinoissa.

* En voi mennä Mayn artikkelin yksityiskohtiin, joista tulee ilmi, miksi.

Julkaistu keskiviikkona 27. toukokuuta 2026. Muutettu 30 minuutin kuluessa Anthropic-linkin korjaamiseksi.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]