Tekoäly
Miksi historiallinen kieli on haaste tekoälylle
Yksi keskeisimmistä haasteista Natural Language Processing (NLP) -järjestelmissä on johtaa olennaisia oivalluksia laajasta kirjoitettujen materiaalien kirjosta. Uuden NLP-algoritmin koulutusdatan lähteenä voivat olla yhtä lingvistisesti moninaiset kuin Twitter, sanomalehdet ja tieteelliset lehdet, joilla on kaikki omat erikoiset piirteensä.
Useimmissa tapauksissa tämä on vain englannin kielelle; ja vain nykyisille tai äskettäin kirjoitetuille lähteille. Kun NLP-algoritmi joutuu tarkastelemaan materiaalia, joka tulee useista aikakausista, se yleensä kamppailee eri aikakausien ja kansallisten ja alueellisten yhteisöjen välisen erilaisen puhumisen ja kirjoittamisen tavan sovittamisessa.
Kuitenkin tekstidatan (kuten historiallisten tutkielmien ja arvostettujen tieteellisten teosten) käyttäminen, joka ulottuu useille aikakausille, on potentiaalisesti hyödyllinen tapa saada historiallinen yleiskatsaus aiheesta ja muodostaa tilastollisia aikajanan rekonstruktioita, jotka edeltävät mittareiden omaksumista ja ylläpitämistä tietyssä alueessa.
Esimerkiksi säätilan tiedot, jotka osallistuvat ilmastonmuutoksen ennustamiseen, eivät olleet riittävästi kirjattu maailmanlaajuisesti vuoteen 1880 saakka, kun taas klassisten tekstien kaivaminen tarjoaa vanhempia tietoja suurista meteorologisista tapahtumista, jotka voivat olla hyödyllisiä pre-Victorian säätilan tietojen tarjoamisessa.
Aikajärjestyksen virhe
Uusi tutkimus Washingtonin yliopistosta ja Allen Institute for AI:sta on osoittanut, että jopa viiden vuoden aikajakso voi aiheuttaa aikajärjestyksen virheen, joka voi pilata koulutetun NLP-mallin hyödyllisyyden.

Kaikissa tapauksissa korkeammat arvosanat ovat parempia. Tässä nähdään lämpökartta aikajärjestyksen heikkenemisestä neljän tekstin materiaalin yli viiden vuoden aikana. Tällaiset epäsovinnaisuudet koulutus- ja arviointidatan välillä voivat aiheuttaa ‘massiivisen suorituskyvyn laskun’, kuten tutkimuksen tekijät toteavat. Lähde: https://arxiv.org/pdf/2111.07408.pdf












