Artificiell intelligens

Mot automatiserad vetenskapsjournalistik

Published October 10, 2021

Updated April 5, 2026

Martin Anderson

Denna morgon, när jag som vanligt gick igenom datavetenskapsavdelningarna på Arxiv, stötte jag på en nylig artikel från Federal University of Ceara i Brasilien, som presenterar ett nytt ramverk för naturlig språkbehandling för att automatisera sammanfattning och extrahering av kärndata från vetenskapliga artiklar.

Eftersom detta är vad jag gör varje dag, fick artikeln mig att tänka på en kommentar i en Reddit-tråd för författare tidigare i år – en förutsägelse om att vetenskapsjournalistik kommer att vara en av de tidigaste journalistiska jobben som tas över av maskinlärning.

Låt mig vara tydlig – jag tror absolut att den automatiserade vetenskapsförfattaren är på väg, och att alla utmaningar jag beskriver i den här artikeln antingen kan lösas nu eller kommer att lösas så småningom. Där det är möjligt ger jag exempel på detta. Dessutom diskuterar jag inte om nuvarande eller nära framtida vetenskapsjournalistiska AI-system kan skriva begripligt; baserat på nuvarande intresse för detta område inom NLP, antar jag att denna utmaning kommer att lösas så småningom.

I stället frågar jag om en vetenskapsförfattar-AI kommer att kunna identifiera relevanta vetenskapsberättelser i enlighet med de (högst varierande) önskade resultaten från förlag.

Jag tror inte att det är nära förestående; baserat på att jag har gått igenom rubriker och/eller text från cirka 2000 nya vetenskapliga artiklar om maskinlärning varje vecka, har jag en mer cynisk syn på den utsträckning till vilken akademiska inlämnanden kan brytas ned algoritmiskt, antingen för akademisk indexering eller för vetenskapsjournalistik. Som vanligt är det människor som står i vägen.

Krav för den automatiserade vetenskapsförfattaren

Låt oss överväga utmaningen att automatisera vetenskapsrapportering om den senaste akademiska forskningen. För att hålla det rättvist, kommer vi mestadels att begränsa det till CS-kategorierna i den mycket populära och icke-betald Arxiv-domänen från Cornell University, som åtminstone har ett antal systematiska och mallbaserade funktioner som kan kopplas till en dataextraktionspipeline.

Låt oss anta att uppgiften, liksom den nya artikeln från Brasilien, är att iterera genom titlar, sammanfattningar, metadata och (om motiverat) den faktiska innehållet i nya vetenskapliga artiklar för att söka efter konstanter, tillförlitliga parametrar, token och handlingsbara, reducerbara domäninformationer.

Detta är, efter allt, principen som de mycket framgångsrika nya ramverken som vinner mark inom områden som jordbävningrapportering, sportjournalistik, finansjournalistik och hälsojournalistik, och en rimlig utgångspunkt för den AI-drivna vetenskapsjournalisten.

Arbetflödet för det nya brasilianska erbjudandet. PDF-vetenskapsartikeln konverteras till UTF-8 ren text (även om detta kommer att ta bort kursiv betoning som kan ha semantisk betydelse), och artikelsektioner märks och extraheras innan de skickas vidare för textfiltering. Dekonstruerad text bryts ned i meningar som data-ramar, och data-ramarna slås samman innan token-identifiering och generering av två doc-token-matriser Källa: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Komplikationer i mallen

En uppmuntrande nivå av enhetlighet och regelbundenhet är att Arxiv tillämpar en ganska välgenomförd mall för inlämnanden, och tillhandahåller detaljerade riktlinjer för inlämnande författare. Därför följer artiklarna vanligtvis de delar av protokollet som gäller för det arbete som beskrivs.

Således kan AI-förbehandlingsystemet för den påstådda automatiserade vetenskapsförfattaren vanligtvis behandla sådana sektioner som underdomäner: sammanfattning, introduktion, relaterad/tidigare arbete, metodik/data, resultat/fynd, ablationsstudier, diskussion, slutsats.

Men i praktiken kan några av dessa sektioner saknas, ha bytt namn eller innehålla innehåll som, strikt talat, hör hemma i en annan sektion. Dessutom kan författarna naturligtvis inkludera rubriker och under-rubriker som inte följer mallen. Därför kommer det att bero på NLP/NLU att identifiera relevant sektionsrelaterat innehåll från sammanhanget.
… (resten av texten)