Kunstig intelligens
En NLP-tilnærming til å oppdage overdrivelser i vitenskapsjournalistikk

Forskere fra Danmark har utviklet et system for «overdrivelsesdeteksjon» som er designet for å mildne effektene av at journalister overdriver implikasjonene av nye vitenskapslige forskningsartikler når de summerer og rapporterer om dem. Arbeidet har blitt utløst av omfanget av ny publisert forskning om COVID-19 som har blitt forvrengt i rapporteringskanalene, selv om forfatterne innrømmer at det er anvendelig på et bredt område av den generelle vitenskapsjournalistikksektoren.
Paperet, med tittelen Semi-Supervised Exaggeration Detection of Health Science Press Releases, kommer fra Københavns Universitet, og påpeker at problemet forverres av tendensen hos publikasjoner til ikke å inkludere kilde-lenker til den opprinnelige forskningen – en stadig mer vanlig journalistisk praksis som forsøker å erstatte den opprinnelige artikkelen og bytte ut den gjenrapporterte sammenfatningen som «kildekunnskap» – selv der artikkelen er offentlig tilgjengelig.

Fra paperet, en typisk manifestasjon av overdrivelse av vitenskapsartikler. Kilde: https://arxiv.org/pdf/2108.13493.pdf
Problemene er ikke begrenset til eksterne journalistiske reaksjoner på nye artikler, men kan også utvides til andre typer sammenfatninger, inkludert interne PR-innsats fra universiteter og forskningsinstitusjoner; promasjonemateriell rettet mot å tiltrekke seg oppmerksomheten til nyhetskanalene; og de nyttige henvisningslenkene (og potensiell ammunisjon for finansieringsrunder) som følger når journalister «biter».
Arbeidet utnytter Natural Language Processing (NLP) mot en nytt datasett av parrede pressemeldinger og abstracts, med forskerne som hevder å ha utviklet ‘[en] ny, mer realistisk oppgaveformulering’ for deteksjon av vitenskapelige overdrivelser. Forfatterne har lovet å publisere koden og dataene for arbeidet på GitHub snart.
Å takle sensasjonalisme
En rekke studier har behandlet problemet med vitenskapelig sensasjonalisme over de siste tretti årene, og har trukket oppmerksomheten til den desinformasjonen som dette kan føre til. Den avdøde amerikanske vitenskapssosiologen Dorothy Nelkin behandlet spørsmålet på en merkbær måte i boken Selling Science: How the Press Covers Science and Technology fra 1987; Embo-rapporten Bad science in the headlines fra 2006 understreket behovet for mer vitenskapelig trente journalister, likevel som internettet var med på å bringe kritiske budsjettpress på de tradisjonelle mediene.
I tillegg, i 2014, førte det britiske medisinske tidsskriftet problemet inn i fokus i en rapport; og en studie fra Wellcome Open Research fra 2019 etablerte at overdrivelse av vitenskapsartikler gir ingen fordel (i termer av rekkevidde eller trafikk) til nyhetskanalene og andre rapporteringsystemer som driver denne praksisen.
Men, utbruddet av pandemien har ført de negative effektene av denne hyperbolen inn i kritisk fokus, med en rekke informasjonsplattformer, inkludert Google-søkeresultatsiden og Cornell Universitys Arxiv-indeks av vitenskapsartikler, nå automatisk legger til advarsler til alle innhold som ser ut til å behandle COVID.

Endrede grensesnitt for søk og innhold relatert til COVID, fra Google-søkeresultatsiden og fra Cornell Universitys innflytelsesrike Arxiv-vitenskapsartikkel-repository.
Tidligere prosjekter har forsøkt å lage systemer for overdrivelsesdeteksjon for vitenskapsartikler ved å utnytte NLP, inkludert et samarbeid mellom forskere fra Hongkong og Kina, og en annen (uavhengig) dansk artikkel fra 2017.
Forskerne bak det nye paperet påpeker at disse tidligere forsøkene utviklet datasett av påstander fra abstracts og sammenfatninger fra PubMed og EurekAlert, merket for ‘styrke’, og brukte dem til å trene maskinlæringsmodeller til å forutsi påstandsstyrke i usette data.
MT-PET
Det nye forskningsarbeidet kombinerer en pressemelding og en abstract som en kombineret dataenhet, og utnytter det resulterende datasett i MT-PET, en multi-oppgave-kapabel versjon av Pattern Exploiting Training-forskningen som først ble presentert i 2020 som Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference, et kombinert forskningsarbeid fra to tyske forskningsinstitusjoner.
Ingen eksisterende datasett ble funnet å være egnet for oppgaven, og teamet curerte derfor et nytt datasett av parrede setninger fra abstracts og relaterte pressemeldinger, vurderer av ‘eksperter’ i termer av deres tendens til å overdrive.
Forskerne brukte few-shot tekstklassifiseringsrammen PETAL som en del av en pipeline til å automatisk generere mønster-verbaliser-par, og deretter re-itererte gjennom dataene til omtrent likeverdige tupler ble funnet for to kvaliteter: overdrivelsesdeteksjon og påstandsstyrke.
‘Den gylne’ dataen for testing ble gjenbrukt fra de ovennevnte tidligere forskningsprosjektene, bestående av 823 par av abstracts og pressemeldinger. Forskerne avviste muligheten for å bruke BMJ-dataene fra 2014, siden de er parafrasert.
Denne prosessen resulterte i et datasett på 663 abstract/pressemelding-par merket for overdrivelse og påstandsstyrke. Forskerne valgte tilfeldig 100 av dem som few-shot-læringstreningdata, med 553 eksempler satt av til testing. I tillegg ble et lite treningssett opprettet bestående av 1 138 setninger, klassifisert etter om de representerer hovedkonklusjonen av sammenfatningen eller pressemeldingen. Disse ble brukt til å identifisere ‘konklusjonssentenser’ i umerkede par.
Testing
Forskerne testet tilnærmingen i tre konfigurasjoner: et fullt overvåket sett med eksklusivt merket data; en enkelt-oppgave-PET-scenario; og på det nye MT-PET, som legger til en sekundær formuleringstråd som en hjelpeoppgave (siden målet med prosjektet er å undersøke to separate kvaliteter fra et datasett med parrede datakonstruksjoner).
Forskerne fant at MT-PET forbedret resultatene sammenlignet med basis-PET-resultatene over testingmiljøene, og fant at å identifisere påstandsstyrken hjalp til å produsere soft-merket treningdata for overdrivelsesdeteksjon. Men, paperet påpeker at i visse konfigurasjoner blant et komplekst sett av tester, spesielt relatert til påstandsstyrke, tilstedeværelsen av profesjonelt merket data kan være en faktor i forbedrede resultater (i sammenligning med tidligere forskningsprosjekter som behandler dette problemet). Dette kan ha implikasjoner for omfanget av hvilken grad pipeline kan automatiseres, avhengig av dataemfasen i oppgaven.
Likevel, forskerne konkluderer med at MT-PET ‘hjelper i de mer vanskelige tilfellene av å identifisere og differensiere direkte årsaks-påstander fra svakere påstander, og at den mest performante tilnærmingen innebærer å klassifisere og sammenligne den enkelte påstandsstyrken av uttalelser fra kilde- og måldokumentene’.
I slutten, arbeidet spekulerer i at MT-PET ikke bare kan bli anvendt på et bredere område av vitenskapsartikler (utenfor helse-sektoren), men også kan danne grunnlaget for nye verktøy til å hjelpe journalister med å produsere bedre oversikter av vitenskapsartikler (selv om dette, kanskje naivt, antar at journalister overdriver påstandsstyrken gjennom uvitenhet), samt å hjelpe forskningsmiljøet med å formulere en tydeligere bruk av språk til å forklare komplekse ideer. Videre, paperet observerer:
‘[det] bør bemerkes at de prediktive resultatene rapportert i denne artikkelen er for pressemeldinger skrevet av vitenskapsjournalister – en kunne forvente dårligere resultater for pressemeldinger som forenkler vitenskapsartikler mer sterkt.’












