Kunstig intelligens

En NLP-tilgang til overdrivelsesdetektion i videnskabsjournalistik

Opdateret on 9. December, 2022

Forskere fra Danmark har udviklet et 'overdrivelsesdetektion'-system designet til at afbøde virkningerne af, at journalister overangiver implikationerne af nye videnskabelige forskningsartikler, når de opsummerer og rapporterer dem. Arbejdet er foranlediget af, i hvilket omfang ny publiceret forskning om COVID-19 er blevet forvrænget i rapporteringskanalerne, selvom forfatterne indrømmer, at den er anvendelig på tværs af en bred tranche af den generelle videnskabsrapporteringssektor.

papir, berettiget Semi-Supervised Overdrivelse Detection of Health Science Pressemeddelelser, kommer fra Københavns Universitet og bemærker, at problemet forværres af publikationers tendens til ikke at inkludere kildelinks til den originale forskning – en stadig mere almindelig journalistisk praksis, der forsøger at erstatte det originale papir og erstatte det genrapporterede resumé som 'kildeviden' – også hvor papiret er offentligt tilgængeligt.

Fra papiret, en typisk manifestation af overdrivelse af videnskabelige artikler. Kilde: https://arxiv.org/pdf/2108.13493.pdf

Problemet er ikke begrænset til ekstern journalistisk reaktion på nye artikler, men kan strække sig til andre former for resuméer, herunder intern PR-indsats på universiteter og forskningsinstitutioner; salgsfremmende materiale, der har til formål at tiltrække nyhedsmediers opmærksomhed; og de nyttige henvisningslinks (og potentiel ammunition til finansieringsrunder), der medfører, når journalister 'bider'.

Værket udnytter Natural Language Processing (NLP) mod et nyt datasæt af parrede pressemeddelelser og abstracts, hvor forskerne hævder at have udviklet "[en] ny, mere realistisk opgaveformulering" til påvisning af videnskabelige overdrivelser. Forfatterne har lovet at offentliggøre koden og data for værket hos GitHub snart.

Bekæmpelse af sensationalisme

En række undersøgelser har behandlet problemet med videnskabelig sensationslyst i løbet af de sidste tredive år og henledt opmærksomheden på den misinformation, som dette kan føre til. Den afdøde amerikanske videnskabelige sociolog Dorothy Nelkin behandlede problemet især i 1987 bog At sælge videnskab: Sådan dækker pressen videnskab og teknologi; Embo-rapporten fra 2006 Dårlig videnskab i overskrifterne fremhævede behovet for flere videnskabeligt uddannede journalister, ligesom internettet bragte et kritisk budgetpres på de traditionelle medier.

Derudover bragte British Medical Journal i 2014 problemet i fokus i en indberette; og en undersøgelse fra 2019 fra Wellcome Open Research påviste endda, at overdrivelse af videnskabelige artikler giver ingen fordel (med hensyn til rækkevidde eller trafik) til nyhedsmedier og andre rapporteringssystemer, der udøver denne praksis.

Imidlertid har fremkomsten af pandemien bragt de negative virkninger af denne hyperbole i kritisk fokus med en række informationsplatforme, herunder Googles søgemaskineresultatside og Cornell Universitys arXiv indeks over videnskabelige artikler, der nu automatisk tilføjer ansvarsfraskrivelser til alt indhold, der ser ud til at omhandle COVID.

Ændrede grænseflader til søgninger og indhold relateret til COVID, fra Googles søgeresultatside og fra Cornell Universitys indflydelsesrige Arxiv videnskabelige papirlager.

Tidligere projekter har forsøgt at skabe overdrivelsesdetektionssystemer til videnskabelige artikler ved at udnytte NLP, herunder en 2019 samarbejde mellem forskere fra Hong Kong og Kina, og en anden (urelateret) dansk papir i 2017.

Forskerne i det nye papir bemærker, at disse tidligere bestræbelser udviklede datasæt af påstande fra abstracts og resuméer fra PubMed og EurekAlert, mærket for 'styrke', og brugte dem til at træne maskinlæringsmodeller til at forudsige hævde styrke i usete data.

MT-PET

Den nye forskning kombinerer i stedet en pressemeddelelse og abstrakt som en kombineret dataentitet og udnytter det resulterende datasæt i MT-PET, en multi-task-kompatibel version af Pattern Exploiting Training-forskningen først. forelagt i 2020 som Udnyttelse af Cloze-spørgsmål til få skudte tekstklassificeringer og naturlig sproglig slutning, en samlet forskningsindsats fra to tyske forskningsinstitutioner.

Intet eksisterende datasæt blev fundet at være egnet til opgaven, og teamet kurerede derfor et nyt datasæt af parrede sætninger fra abstracts og relaterede pressemeddelelser, vurderet af 'eksperter' i forhold til deres tendens til at overdrive.

Forskerne brugte den få-skudte tekstklassificeringsramme KRONBLAD som en del af en pipeline til automatisk at generere mønster-verbalizer-par, der efterfølgende gentages gennem dataene, indtil der blev fundet nogenlunde ækvivalente tupletter for to kvaliteter: overdrivelsesdetektering og kravstyrke.

'Guld'-dataene til test blev genbrugt fra de førnævnte tidligere forskningsprojekter, bestående af 823 par abstracts og pressemeddelelser. Forskerne afviste den mulige brug af 2014 BMJ-dataene, da de er parafraseret.

Denne proces opnåede et datasæt med 663 abstrakte/frigivelsespar mærket for overdrivelse og kravstyrke. Forskerne udtog tilfældigt 100 af dem som få-skuds læring træningsdata, med 553 eksempler afsat til test. Derudover blev der lavet et lille træningssæt bestående af 1,138 sætninger, klassificeret med hensyn til, om de repræsenterer hovedkonklusionen i resuméet eller pressemeddelelsen. Disse blev brugt til at identificere 'konklusionssætninger' i umærkede par.

Test

Forskerne testede tilgangen i tre konfigurationer: en fuldt overvåget indstilling med udelukkende mærkede data; et enkelt-opgave PET-scenarie; og på den nye MT-PET, der tilføjer en sekundær formuleringstråd som en hjælpeopgave (da projektets formål er at undersøge to separate kvaliteter fra et datasæt med parrede datakonstruktioner).

Forskerne fandt ud af, at MT-PET blev forbedret på basis af PET-resultaterne på tværs af testmiljøer, og fandt ud af, at identifikationen af påstandens styrke hjalp med at producere blødt mærkede træningsdata til overdrivelsesdetektering. Papiret bemærker dog, at i visse konfigurationer blandt en kompleks række af tests, især relateret til kravstyrke, kan tilstedeværelsen af professionelt mærkede data være en faktor i forbedrede resultater (sammenlignet med tidligere forskningsprojekter, der adresserer dette problem). Dette kan have betydning for, i hvilket omfang pipelinen kan automatiseres, afhængigt af opgavens datavægt.

Ikke desto mindre konkluderer forskerne, at MT-PET "hjælper i de mere vanskelige tilfælde med at identificere og differentiere direkte årsagspåstande fra svagere påstande, og at den mest effektive tilgang involverer klassificering og sammenligning af den individuelle påstandsstyrke af udsagn fra kilde- og måldokumenterne".

Afslutningsvis spekulerer arbejdet i, at MT-PET ikke kun kunne anvendes på en bredere vifte af videnskabelige artikler (uden for sundhedssektoren), men også kunne danne grundlag for nye værktøjer til at hjælpe journalister med at skabe bedre overblik over videnskabelige artikler (skønt dette, måske naivt, forudsætter, at journalister overdriver krav om styrke gennem uvidenhed), ligesom det hjælper forskersamfundet med at formulere en klarere brug af sproget til at forklare komplekse ideer. Desuden bemærker avisen:

"[det] skal bemærkes, at de prædiktive resultater rapporteret i dette papir er for pressemeddelelser skrevet af videnskabsjournalister - man kunne forvente dårligere resultater for pressemeddelelser, som i højere grad forenkler videnskabelige artikler."