Tekoäly
Kohti automaattista tieteellistä kirjoittamista

Tänä aamuna, kun kävin läpi Arxivin tietotekniikan osioita, kuten teen useimmiten, törmäsin äskettäin julkaistuun artikkeliin Brasilian Federal University of Cearasta, joka tarjoaa uuden luonnollisen kielen prosessoinnin kehyksen tieteellisten artikkeleiden tiivistämiseen ja olennaisen tiedon poistamiseen.
Koska tämä on enemmän tai vähemmän sitä, mitä teen joka päivä, artikkeli toi mieleeni kommentin Redditin kirjailijoiden ketjussa aiemmin tässä vuossa – ennusteen, jonka mukaan tieteellinen kirjoittaminen on yksi ensimmäisistä journalistisista tehtävistä, jotka otetaan käyttöön koneoppimisella.
Anna minun olla selvä – uskon ehdottomasti, että automaattinen tieteellinen kirjoittaja on tulossa, ja että kaikki haasteet, joita esitän tässä artikkelissa, ovat joko ratkaistavissa nyt tai lopulta. Missä mahdollista, annan esimerkkejä tästä. Lisäksi en käsittele sitä, voivatko nykyiset tai lähitulevaisuuden tieteelliset kirjoittajat kirjoittaa johdonmukaisesti; perustuen nykyiseen kiinnostukseen tässä NLP:n osa-alueessa, oletan, että tämä haaste ratkeaa lopulta.
Sen sijaan kysyn, pystyykö tieteellinen kirjoittaja -AI tunnistamaan relevantit tieteelliset tarinat yhteen sopivien julkaisijoiden toivottujen tuloksien mukaisesti.
En usko, että se on lähipäivillä; perustuen siihen, että käyn läpi noin 2000 uuden tieteellisen artikkelin otsikoita ja/tai kopiota koneoppimisesta joka viikko, minulla on paljon kyynisempi näkemys siitä, kuinka akateemiset julkaisut voidaan algoritmien avulla purkaa, joko akateemisen indeksoinnin tai tieteellisen journalistiikan tarkoituksiin. Kuten yleensä, se ovat ne “ihmiset”, jotka tulevat tielle.
Automaattisen tieteellisen kirjoittajan vaatimukset
Tarkastellaan haastetta tieteellisen raportoinnin automatisoinnissa viimeisimmän akateemisen tutkimuksen osalta. Pitäkäämme reiluna, rajoitamme sen pääosin Arxivin CS-luokkiin, jotka ovat suositun non-paywalled Arxiv-alueen osa Cornellin yliopistosta, jolla on ainakin joukko systemaattisia, mallipohjaisia ominaisuuksia, jotka voidaan liittää data-eristysputkiin.
Oletetaan myös, että tehtävänä on, kuten uudessa artikkelissa Brasiliasta, käydä läpi otsikkoja, tiivistelmiä, metatietoja ja (jos perusteltua) runko-sisältöä uusista tieteellisistä artikkeleista etsimässä vakioita, luotettavia parametreja, tokeneja ja toimintakykyisiä, vähennettävissä olevia alueen tietoja.
Tämä on nimittäin periaate, jolla erittäin onnistuneet uudet kehykset voivat vallita alueilla, kuten maanjäristysraportointi, urheilukirjoittaminen, talousjournalismi ja terveydenhuollon kattavuus, ja se on kohtuullinen lähtökohta AI-virtaukselle tieteelliselle journalistille.
… (Translation continues as per the original text, maintaining the same structure and formatting)












