Andersonin kulma
AI:n ongelma historiallisen kielen jäljittelyssä

Yhdysvalloissa ja Kanadassa tehdyssä tutkimuksessa on havaittu, että suuret kielen mallit (LLM), kuten ChatGPT, kärsivät vaikeuksista historiallisten idiomeiden jäljittelyssä ilman laajaa esikoulutusta – prosessi, joka on kallis ja työläs, ja joka ylittää useimpien akateemisten tai viihteen aloitteiden resurssit, tekee hankkeista, kuten Charles Dickensin viimeisen, keskeneräisen romaanin täydentäminen AI:n avulla, käytännössä epätodennäköiseksi.
Tutkijat tutkivat useita menetelmiä tekstien luomiseksi, jotka kuulostavat historiallisesti oikein, aloittaen yksinkertaisella ohjauksella 1900-luvun alun proosalla ja siirtymällä kaupallisen mallin hienosäätöön pienen kirjaston kokoelmalla kyseiseltä ajalta.
He myös vertasivat tuloksia erilliseen malliin, joka oli koulutettu kokonaan kirjoissa, jotka oli julkaistu vuosina 1880-1914.
Ensimmäisessä testissä ChatGPT-4o:n ohjaaminen jäljittelemään fin-de-siècle-kieltä tuotti erilaisia tuloksia verrattuna pienempään GPT2-pohjaiseen malliin, joka oli hienosäätöön kirjallisuudesta kyseiseltä ajalta:

Pyydettiin täydentämään aito historiallinen teksti (keskellä), jopa hyvin ohjattu ChatGPT-4o (alhaalla vasemmalla) ei voi estää palaamasta ‘blogi’-tilaan, epäonnistuen edustamaan pyydettyä idiomeja. Vastaavasti hienosäätöön GPT2-malli (alhaalla oikealla) sieppaa kielen tyylisuunnan hyvin, mutta ei ole yhtä tarkin muissa suhteissa. Lähde: https://arxiv.org/pdf/2505.00030
Vaikka hienosäätö lähentää tulostetta alkuperäisestä tyylisuunnasta, ihmislukijat pystyivät usein havaitsemaan modernin kielen tai ideoiden jälkiä, viitatessa siihen, että jopa huolellisesti säätöön mallit jatkavat heijastamasta nykyisen koulutusaineiston vaikutusta.
Tutkijat päätyvät turhauttavaan johtopäätökseen, ettei ole taloudellisia lyhytnäköisiä ratkaisuja koneella tuotetun historiallisesti oikein idioomisen tekstin tai dialogin luomiseksi. He myös olettavat, että haaste itsessään saattaa olla väärin asetettu:
‘Meidän pitäisi myös ottaa huomioon mahdollisuus, että anakronismi saattaa olla jossain mielessä väistämätön. Riippumatta siitä, edustammeko menneisyyttä ohjaamalla historiallisia malleja, jotta ne voivat pitää keskustelua, tai opettamalla nykyisiä malleja puhumaan vanhemman aikakauden äänellä, jokin kompromissi saattaa olla välttämätön autenttisuuden ja keskustelun sujuvuuden tavoitteiden välillä.
‘Onhan esimerkiksi olemassa “autenttisia” esimerkkejä keskustelusta 21. vuosisadan kysyjän ja 1914-vuoden vastaajan välillä. Tutkijoiden, jotka yrittävät luoda tällaisen keskustelun, on pohdittava [oletusta], että tulkinta aina vaatii neuvottelun nykyisen ja [menneisyyden] välillä.’
Uusi tutkimus on nimeltään Voivatko kielimallit edustaa menneisyyttä ilman anakronismia?, ja se tulee kolmelta tutkijalta Illinoisin yliopistosta, Brittiläisen Kolumbian yliopistosta ja Cornellin yliopistosta.
Täydellinen katastrofi
Aluksi, kolmiosaisessa tutkimuslähestymistavassa, kirjoittajat testasivat, voivatko modernit kielimallit ohjata historiallisen kielen jäljittelyä yksinkertaisen ohjauksen avulla. Käyttäen aitoja katkelmia kirjoista, jotka oli julkaistu vuosina 1905-1914, he pyysivät ChatGPT:ää jatkamaan näitä katkelmia samassa idioomissa.
Alkuperäinen aikakauden teksti oli:
‘Tässä viimeisessä tapauksessa noin viisi tai kuusi dollaria säästyy minuutissa, koska yli kaksikymmentä jaardia elokuvaa on kiertyttävä, jotta voidaan projisoida yhden minuutin ajan henkilön lepoasennossa tai maisemassa. Näin saadaan käytännöllinen yhdistelmä kiinteistä ja liikkuvista kuvista, joka tuottaa erittäin taiteellisia vaikutuksia.
‘Se myös mahdollistaa meidän työskennellä kahdella elokuvakoneella, jotka projisoivat vuorotellen, jotta voidaan välttää scintillaatio, tai projisoimalla samanaikaisesti punaisia ja vihreitä kuvia ja toistamalla luonnollisia värejä, jolloin ihmisen silmä, joka on tottunut vastaanottamaan perusvärit samanaikaisesti, vapautuu fysiologisesta uupumuksesta. Sana nyt soveltamisesta kylmää valoa välittömään valokuvaamiseen.’
Arvioidakseen, vastaavatko luodut tekstit aikakauden tyyliä, ja tietoisina siitä, että ihmiset eivät ole erityisen taitavia arvioimaan, milloin teksti on kirjoitettu, tutkijat hienosäätöivät RoBERTa-mallin arvioimaan julkaisupäivämääriä, käyttäen osaa Historiallisen Amerikan englannin korpuksista, joka kattaa aineistoa vuosilta 1810-2009.
RoBERTa-luokittelija käytettiin arvioimaan jatkoja, jotka ChatGPT-4o oli tuottanut, joka oli ohjattu aidoilla kappaleilla kirjoista, jotka oli julkaistu vuosina 1905-1914.
Järjestelmän ohjaus (eli kontekstuaaliset ohjeet ChatGPT:lle, miten lähestyä tehtävää) oli:
‘Tehtävänne on täydentää kappaleita varhaisen 1900-luvun kirjoista. Teille annetaan kappale kirjasta, joka on julkaistu vuonna 1913. Jatka tätä kappaletta samassa tyylissä, vähintään 200 sanaa. Älä anna muuta kuin tämä jatko; älä tee kehyksellisiä huomautuksia, kuten “tässä on jatko:”.
Vaikka sekä yksittäinen ja 20-kertaisella ohjauksella, ChatGPT-4o:n tulostus suuntautui jatkuvasti 2000-luvun tyylin mukaiseen rekisteriin.
Esimerkki, joka on esitetty paperissa, on yksi ChatGPT-4o:n blogimaisista yrityksistä jatkaa aitoa aikakauden tekstiä valokuvauksesta:
‘Kylmän valon käyttö välittömässä valokuvaamisessa on vallankumouksellinen lähestymistapa kuvien ottamiseen erilaisissa valoaaltojen olosuhteissa. Perinteisesti valokuvaajat kamppailivat luonnonvalon karkeuden ja muuttuvuuden tai salamavalokuvauksen häiritsevän luonteen kanssa, joka voisi häiritä kohtauksen ilmapiiriä tai luonnonmukaisen käyttäytymisen, erityisesti villieläinten ja ihmisten valokuvauksessa.
‘Kylmä valo, jolla on pehmeämpi ja hajautuneempi luonne… mahdollistaa luonnollisemman värien ja tekstuurien edustamisen, joka usein häviää karkean keinotekoisen valon alla.’
Kuten voimme helposti nähdä, tämä yleinen, Wiki-tyylinen teksti ei vastaa alkuperäisen aikakauden tekstin pitkäveteistä ja koristeltua tyyliä. Lisäksi se ei jatka siitä, mihin alkuperäinen sisältö jää, vaan siirtyy sivuun, abstraktiin mietintään yhdestä alateemasta.
Tutkijat testasivat myös GPT-1914:n, joka on pienempi GPT-2-luokan malli, joka on koulutettu alusta alkaen 26,5 miljardilla tokenilla kirjallisuudesta, joka on julkaistu vuosina 1880-1914.
Vaikka sen tulostus oli vähemmän yhtenäinen kuin ChatGPT-4o:n, se oli yhdenmukaisempi aikakauden tyylisuunnan kanssa. Ainoa esimerkki, joka on esitetty paperissa, on jälleen aitoa aikakauden tekstin jatko valokuvauksesta:
‘Sen toimintaperiaatteesta on jo selitetty (s. 4). Tässä mainitaan vain, että sitä voidaan soveltaa hyödyllisesti, kun halutaan ottaa erittäin nopeita valokuvia paperille, joka on pinnoitettu kollodionilla, sekä niistä, jotka on otettu geeliatiinilevyillä.
‘Tällaisissa tapauksissa altistusaika ei saa ylittää yhtä sekuntia; mutta jos kuvaa halutaan kehittää vähemmässä ajassa – esimerkiksi puolessa sekunnissa – lämpötilan ei saa laskea alle 20 °C, muuten kuva tulee liian tummaksi kehityksen jälkeen; lisäksi levy menettää herkkyytensä näissä olosuhteissa.
‘Tavallisissa tapauksissa kuitenkin riittää, että herkkä pinta altistetaan matalalle lämpötilalle ilman erityisiä varotoimia, paitsi että levyn on säilyttävä…’ [sic]
Koska sekä aito että alkuperäinen materiaali on outoa ja hyvin vaikeatajuista, on vaikea ymmärtää, kuinka paljon GPT-1914 on onnistunut sieppaamaan alkuperäisestä; mutta tulostus kuulostaa selvästi aikakauden oikealta.
Kuitenkin tutkijat tulivat siihen johtopäätökseen, että yksinkertainen ohjaus ei juuri auta voittamaan suuren esikoulutetun mallin, kuten ChatGPT-4o:n, nykyiset harhat.
Juoni tiivistyy
Tutkijat mitasivat, kuinka läheisesti mallin tulostus muistutti aitoa historiallista kirjoitusta, käyttäen tilastollista luokittelijaa arvioimaan kunkin tekstikappaleen todennäköisen julkaisupäivämäärän. He visualisoivat tulokset ydin tiheys -kuviolla, joka näyttää, mihin malli uskoo kunkin kappaleen kuuluvan historiallisella aikajanalta.

Arvioidut julkaisupäivämäärät aidoille ja luoduille teksteille, perustuen luokittelijaan, joka on koulutettu tunnistamaan historiallinen tyyli (1905-1914 lähdetekstejä verrattuna GPT-4o:n jatkoilla yksittäisellä ja 20-kertaisella ohjauksella ja GPT-1914:llä, joka on koulutettu vain kirjallisuudesta vuosilta 1880-1914).
Hienosäätöön RoBERTa-malli, jota tutkijat käyttivät tässä tehtävässä, ei ole virheetön, mutta se pystyi kuitenkin korostamaan yleisiä tyylin suuntauksia. Kappaleet, jotka oli kirjoitettu GPT-1914:llä, mallilla, joka oli koulutettu ainoastaan aikakauden kirjallisuudesta, ryhmittyivät 1900-luvun alkuun – samoin kuin alkuperäinen lähdeaineisto.
Sen sijaan ChatGPT-4o:n tulostus, jopa useiden historiallisten esimerkkien ohjauksella, muistutti enemmän 2000-luvun kirjoitusta, heijastaen alkuperäistä koulutusaineistoa.
Tutkijat kvantifioiden tämän epäsymmetrian Jensen-Shannon-divergenssillä, mittauksella, joka kertoo, kuinka erilaisia kaksi todennäköisyysjakaumaa ovat. GPT-1914 sai lähellä 0,006 verrattuna aitoon historialliseen tekstiin, kun taas ChatGPT-4o:n yksittäinen ja 20-kertaisen ohjauksen tulokset näyttivät paljon laajempia aukkoja, 0,310 ja 0,350 vastaavasti.
Tutkijat väittävät, että nämä tulokset osoittavat, että ohjaus yksin, jopa useiden esimerkkien kanssa, ei ole luotettava tapa tuottaa tekstiä, joka vakuuttavasti simuloisi historiallisen tyylisuunnan.
Täydentäminen
Paperi tutkii sitten, voivatko hienosäätöön johtaa parempiin tuloksiin, koska tämä prosessi vaikuttaa suoraan mallin käytettävissä oleviin painoihin “jatkamalla” sen koulutusta käyttäjän määrittelemällä aineistolla – prosessi, joka voi vaikuttaa alkuperäiseen ydintoiminnallisuuteen, mutta parantaa sen suorituskykyä alueella, jota se “työnnetään” tai korostetaan hienosäätöön.
Ensimmäisessä hienosäätöön kokeessa tiimi koulutti GPT-4o-mini:a noin kahdella tuhannella kappaleen täydentämispairilla, jotka oli poimittu kirjoista, jotka oli julkaistu vuosina 1905-1914, tavoitteena nähdä, voisi kohtuullisen mittakaavan hienosäätö siirtää mallin tulostuksen lähemmäs historiallisesti oikein tyyliä.
Käyttäen samaa RoBERTa-pohjaista luokittelijaa, joka toimi tuomarina aiemmissa kokeissa, tutkijat havaitsivat, että hienosäätöön malli tuotti tekstiä, joka oli lähellä alkuperäistä.
Sen tyylinen divergenssi alkuperäisistä teksteistä, mitattuna Jensen-Shannon-divergenssillä, laski 0,002:een, yleensä GPT-1914:n kanssa:

Arvioidut julkaisupäivämäärät aidoille ja luoduille teksteille, näyttäen, kuinka lähellä GPT-1914 ja hienosäätöön GPT-4o-mini ovat 1900-luvun alun kirjoitustyylissä (perustuen kirjoissa, jotka on julkaistu vuosina 1905-1914).
Kuitenkin tutkijat varoittavat, että tämä mittari saattaa vain siepata pintapuolisia piirteitä historiallisesta tyylisuunnasta, eikä välttämättä syvempiä käsitteellisiä tai faktuaalisia anakronismeja.
Inhimillinen kosketus
Lopulta tutkijat suorittivat inhimillisen arvioinnin 250:sta käsin valitusta kappaleesta kirjoista, jotka oli julkaistu vuosina 1905-1914, ja he huomauttavat, että monet näistä teksteistä tulkittaisiin luultavasti eri tavoin tänään kuin ne kirjoitettiin:
‘Listamme sisälsi esimerkiksi tietosanakirja-artikkelin Elsassin (joka oli silloin osa Saksaa) ja yhden beri-beristä (jota selitettiin silloin usein sienitautina eikä ravitsemuksellisena puutteena). Vaikka nämä ovat tosiasiallisia eroja, valitsimme myös kappaleita, jotka näyttäisivät hienompia eroja asenteissa, retoriikassa tai mielikuvituksessa.
‘Esimerkiksi, kuvaus ei-eurooppalaisista paikoista 1900-luvun alussa liukuu usein rotuun perustuvaan yleistämiseen. Kuvaus auringon noususta kuussa vuonna 1913 kuvittelee rikkaan kromaattisen ilmiön, koska kukaan ei ollut vielä nähnyt valokuvia maailmasta ilman ilmakehää.’
Tutkijat loivat lyhyitä kysymyksiä, joita kunkin historiallisen kappaleen voisi järkevästi vastata, sitten hienosäätöivät GPT-4o-miniä näillä kysymys-vastaus-pareilla. Vahvistaakseen arvioinnin, he kouluttivat viisi erillistä mallin versiota, pidättäen kunkin kerran eri osan aineistoa testaamista varten.
He sitten tuottivat vastauksia sekä oletusarvoisilla GPT-4o- ja GPT-4o-mini-malleilla että hienosäätöön versioilla, arvioimalla kunkin niiden osalla, jota se ei ollut nähnyt koulutuksen aikana.
Hävikki aikajanan pyörteissä
Tutkijat arvioivat, kuinka vakuuttavasti mallit voivat jäljitellä historiallista kieltä, pyytäen kolmea asiantuntija-annotaattoria tarkastamaan 120 AI:n tuottamaa täydentämistä ja arvioimaan, näyttääkö kunkin niistä uskottavalta kirjoittajalle vuonna 1914.
Tämä suora arviointitapa osoittautui haasteellisemmaksi kuin odotettiin: vaikka annotaattorit olivat samaa mieltä arvioissaan lähes 80 prosenttissa tapauksista, heidän arvioidensa epätasapuolisuus (jossa “uskottava” valittiin kaksi kertaa useammin kuin “epäuskottava”) tarkoitti, että heidän todellinen sopimisluokkansa oli vain kohtalainen, mitattuna Cohenin kappa-arvolla 0,554.
Arvioijat itse kuvasivat tehtävän vaikeaksi, usein vaativan lisätutkimusta arvioidakseen, vastaako lause aikakauden tietämystä ja uskomuksia.
Jotkut kappaleet herättivät hankalia kysymyksiä sävystä ja näkökulmasta – esimerkiksi, oliko vastaus oikein rajoitettu maailmankuvaan, joka oli tyypillinen vuonna 1914. Tämäntyyppinen arviointi usein riippui etnosentrismistä (eli taipumuksesta tarkastella muita kulttuureja oman kulttuurin oletusten ja harhauksien kautta).
Tässä kontekstissa haasteena oli päättää, osoittaaanko kappaleessa riittävästi kulttuurista harhaa tulla uskottavaksi historiallisesti, ilman että se kuulostaa liian modernilta tai liian ilmiselvältä nykyisten standardien mukaan.
Tutkijat huomauttavat, että jopa tutkijoille, jotka ovat tuttuja aikakaudesta, oli vaikea piirtää selkeä raja historiallisesti oikean kielen ja nykyisten ideoiden välillä.
Kuitenkin tulokset osoittivat selvän mallien järjestyksen, jossa hienosäätöön GPT-4o-mini arvioitiin kaikkein uskottavimmaksi:

Annotaattorien arviot siitä, kuinka uskottavalta kunkin mallin tulostus näytti
On epäselvää, onko tämä tasoinen suoritus, joka on arvioitu uskottavaksi 80 prosentissa tapauksista, riittävän luotettavaa historialliselle tutkimukselle – erityisesti, koska tutkimus ei sisältänyt vertailukohtaa siitä, kuinka usein aitoja aikakauden tekstejä voisi väärin luokitella.
Viidakon hälytys
Seuraavaksi tuli “intruder-testi”, jossa asiantuntija-annotaattorit näyttivät neljä nimettömiä kappaletta, jotka vastasivat samaa historiallista kysymystä. Kolme vastauksista tuli kielimalleista, kun taas yksi oli aito ja aikakaudelle tyypillinen katkelma alkuperäisestä lähteestä.
Tehtävänä oli tunnistaa, kumpi kappale oli alkuperäinen, aidosti kirjoitettu aikakaudella.
Tämä lähestymistapa ei pyytänyt annotaattoreita arvioimaan suoraan uskottavuutta, vaan mitatti, kuinka usein aito kappale erottui AI:n tuottamista vastauksista, testaten mallien kykyä hämätä lukijoita uskomaan, että heidän tulostuksensa oli aitoa.
Mallien järjestys vastasi aikaisemman arvioinnin tuloksia: hienosäätöön GPT-4o-mini oli vakuuttavin malli, mutta se ei kuitenkaan yltänyt aitoon asiaan:

Tiheys, jolla kunkin lähteen tunnistettiin aidoksi historialliseksi kappaleeksi.
Tämä testi toimi myös hyvänä vertailukohtana, koska aito kappale tunnistettiin yli puolella osalla, jolloin aukko aidon ja synteettisen proosan välillä säilyi havaittavissa lukijoille.
Tilastollinen analyysi, McNemarin testi, vahvisti, että mallien väliset erot olivat merkittäviä, lukuun ottamatta kahta hienosäätöön mallia (GPT-4o ja GPT-4o-mini), jotka suorittivat samalla tasolla.
Tulevaisuuden muisti
Tutkijat totesivat, että modernien kielimallien ohjaaminen historiallisen äänen jäljittelyyn ei johtanut luotettaviin tuloksiin: vähemmän kuin kaksi kolmasosaa tulostuksista arvioitiin uskottaviksi ihmislukijoille, ja jopa tämä luku liioittelee suorituskykyä.
Monissa tapauksissa vastauksissa oli selvästi nykyisyyden näkökulmasta kirjoitettuja viittauksia – lauseet, kuten ‘vuonna 1914 ei vielä tiedetä, että…’ tai ‘vuonna 1914 en ole tuttu…’ olivat tarpeeksi yleisiä olla läsnä jopa viidennessä osassa täydentämisiä. Tällaiset varoitukset tekevät selväksi, että malli simuloi historiaa ulkoa, eikä kirjoita sieltä.










