Kunstig intelligens
Mod automatiseret videnskabsformidling

I morges, da jeg gennemgik computer science-afsnittene på Arxiv, som jeg gør de fleste morgener, faldt jeg over en ny artikel fra det føderale universitet i Ceará i Brasilien, som tilbyder en ny ramme for naturlig sprogbehandling til automatisering af sammenfattelse og udtrækning af kerndata fra videnskabelige artikler.
Da dette er mere eller mindre, hvad jeg gør hver dag, fik artiklen mig til at tænke på en kommentar på en Reddit-forfattertråd tidligere på året – en profeti om, at videnskabsformidling vil være blandt de første journalistiske job, der overtages af maskinlæring.
Lad mig være tydelig – jeg absolut tro på, at den automatiserede videnskabsforfatter er på vej, og at alle de udfordringer, jeg fremhæver i denne artikel, enten kan løses nu eller vil kunne løses. Hvor det er muligt, giver jeg eksempler på dette. Desuden behandler jeg ikke, om nuværende eller nærmeste videnskabsformidlings-AI kan skrive sammenhængende; baseret på nuværende interesse i dette område af naturlig sprogbehandling, antager jeg, at denne udfordring vil blive løst.
I stedet spørger jeg, om en videnskabsforfatter-AI kan identificere relevante videnskabsartikler i overensstemmelse med (højst varierende) ønskede resultater for udgivere.
Jeg tror ikke, det er forestående; baseret på at gennemgå overskrifterne og/eller kopien af omkring 2000 nye videnskabelige artikler om maskinlæring hver uge, har jeg en mere cynisk opfattelse af, i hvilken udstrækning akademiske indsendelser kan brydes ned algoritmiske, enten for akademisk indeksering eller for videnskabelig journalistik. Som sædvanligt er det mennesker, der kommer i vejen.
Krav til den automatiserede videnskabsforfatter
Lad os overveje udfordringen ved at automatisere videnskabsformidling af den seneste akademiske forskning. For at gøre det retfærdigt, vil vi primært begrænse os til CS-kategorierne på det meget populære non-paywalled Arxiv-domæne fra Cornell University, som i hvert fald har en række systematiske, skabeloner, der kan indsættes i en data-udtrækningspipeline.
Lad os antage, at opgaven, som med den nye artikel fra Brasilien, er at iterere gennem titler, sammenfattelser, metadata og (hvis berettiget) indhold af nye videnskabelige artikler for at finde konstanter, pålidelige parametre, token og handlingsbare, reducerbare domæneoplysninger.
Dette er, efter alt, principperne for, hvorpå højst succesfulde nye rammer er på vej i områderne jordskælvrapportering, sportsjournalistik, finansjournalistik og sundhedsdækning, og en rimelig udgangspunkt for den AI-drevne videnskabsjournalist.
…
… (rest of the translation remains the same, following the exact same structure and formatting as the original text)












