Connect with us

Een NLP-benadering voor het detecteren van overdrijving in wetenschapsjournalistiek

Kunstmatige intelligentie

Een NLP-benadering voor het detecteren van overdrijving in wetenschapsjournalistiek

mm

Onderzoekers uit Denemarken hebben een ‘overdrijvingsdetectiesysteem’ ontwikkeld dat is ontworpen om de effecten van journalisten die de implicaties van nieuwe wetenschappelijke onderzoeksartikelen overdrijven te mitigeren wanneer ze deze samenvatten en rapporteren. Het werk is aangemoedigd door de mate waarin nieuw gepubliceerd onderzoek naar COVID-19 in de rapportagekanalen is vertekend, hoewel de auteurs toegeven dat het toepasbaar is op een breed spectrum van de algemene wetenschapsrapportagesector.

Het artikel, getiteld Semi-Supervised Exaggeration Detection of Health Science Press Releases, komt van de Universiteit van Kopenhagen en merkt op dat het probleem wordt verergerd door de neiging van publicaties om geen bronlinks naar het originele onderzoek op te nemen – een steeds vaker voorkomende journalistieke praktijk die probeert het originele artikel te vervangen en de opnieuw gerapporteerde samenvatting als ‘bronkennis’ te substitueren – zelfs als het artikel openbaar beschikbaar is.

Uit het artikel, een typische manifestatie van overdrijving van wetenschappelijke artikelen. Source: https://arxiv.org/pdf/2108.13493.pdf

Uit het artikel, een typische manifestatie van overdrijving van wetenschappelijke artikelen. Source: https://arxiv.org/pdf/2108.13493.pdf

Het probleem is niet beperkt tot externe journalistieke reacties op nieuwe artikelen, maar kan zich ook uitstrekken tot andere soorten samenvattingen, waaronder interne PR-inspanningen van universiteiten en onderzoeksinstellingen; promotionele materialen gericht op het trekken van de aandacht van nieuwsuitzendingen; en de nuttige verwijzingslinks (en potentieel munitie voor financieringsrondes) die ontstaan wanneer journalisten ‘happen’.

Het werk maakt gebruik van Natural Language Processing (NLP) tegen een novum dataset van gepaarde persberichten en abstracts, waarbij de onderzoekers claimen een ‘[nieuwe, meer realistische taakformulering]’ voor het detecteren van wetenschappelijke overdrijving te hebben ontwikkeld. De auteurs hebben beloofd de code en gegevens voor het werk op GitHub te publiceren.

Het aanpakken van sensatiezucht

Een aantal studies hebben het probleem van wetenschappelijke sensatiezucht de afgelopen dertig jaar aangepakt en hebben gewezen op de misinformatie die dit kan leiden. De late Amerikaanse wetenschappelijke socioloog Dorothy Nelkin heeft het onderwerp opvallend aangepakt in het boek Selling Science: How the Press Covers Science and Technology uit 1987; het Embo-rapport Bad science in the headlines uit 2006 benadrukte de noodzaak van meer wetenschappelijk geschoolde journalisten, net zoals het internet kritische budgettaire druk op de traditionele media bracht.

Bovendien bracht het Britse Medische Tijdschrift het probleem in 2014 in beeld in een rapport; en een studie uit 2019 van Wellcome Open Research stelde zelfs vast dat overdrijving van wetenschappelijke artikelen geen voordeel oplevert (in termen van bereik of verkeer) voor de nieuwsuitzendingen en andere rapportagesystemen die deze praktijk in stand houden.

Het werk combineert een persbericht en een abstract als een gecombineerde gegevensentiteit en exploiteert het resulterende dataset in MT-PET, een multi-task-capabele versie van de Pattern Exploiting Training, eerst gepresenteerd in 2020 als Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference, een gecombineerde onderzoeksinspanning van twee Duitse onderzoeksinstellingen.

Geen bestaande dataset werd geschikt bevonden voor de taak, en het team curateerde daarom een novum dataset van gepaarde zinnen uit abstracts en gerelateerde persberichten, beoordeeld door ‘experts’ in termen van hun neiging tot overdrijving.

De onderzoekers gebruikten het few-shot text classification framework PETAL als onderdeel van een pipeline om automatisch patroon-verbalizer paren te genereren, en herhaalden vervolgens door de gegevens totdat ongeveer equivalente tuplets werden gevonden voor twee kwaliteiten: overdrijvingsdetectie en claimsterkte.

Het ‘goud’ gegevens voor testen werd hergebruikt van de eerder genoemde eerdere onderzoeksprojecten, bestaande uit 823 paren van abstracts en persberichten. De onderzoekers weigerden de mogelijke gebruik van de BMJ-gegevens uit 2014, omdat het geparafraseerd is.

Dit proces leverde een dataset op van 663 abstract/release paren gelabeld voor overdrijving en claimsterkte. De onderzoekers selecteerden willekeurig 100 van hen als few-shot learning trainingsgegevens, met 553 voorbeelden die waren opzij gezet voor testen. Bovendien werd een kleine trainingsset gemaakt bestaande uit 1.138 zinnen, geclassificeerd als of ze de hoofdconclusie van de samenvatting of het persbericht vertegenwoordigen. Deze werden gebruikt om ‘conclusiezinnen’ in ongelabelde paren te identificeren.

Testen

De onderzoekers testten de aanpak in drie configuraties: een volledig begeleide instelling met uitsluitend gelabelde gegevens; een enkele taak PET-scenario; en op de nieuwe MT-PET, die een tweede formulering draad als een hulpfunctie toevoegt (aangezien het doel van het project is om twee afzonderlijke kwaliteiten van een dataset met gepaarde gegevensconstructies te onderzoeken).

De onderzoekers vonden dat MT-PET de basis-PET-resultaten verbeterde in testomgevingen, en vonden dat het identificeren van de claimsterkte hielp om soft-gelabelde trainingsgegevens voor overdrijvingsdetectie te produceren. Het artikel merkt echter op dat in bepaalde configuraties onder een complexe reeks tests, met name gerelateerd aan claimsterkte, de aanwezigheid van professioneel gelabelde gegevens een factor kan zijn in verbeterde resultaten (in vergelijking met eerdere onderzoeksprojecten die dit probleem aanpakken). Dit kan implicaties hebben voor de mate waarin de pipeline geautomatiseerd kan worden, afhankelijk van de gegevensbenadering van de taak.

Desondanks concluderen de onderzoekers dat MT-PET ‘helpt bij de moeilijkere gevallen van het identificeren en onderscheiden van directe causale claims van zwakkere claims, en dat de meest performante aanpak het classificeren en vergelijken van de individuele claimsterkte van statements uit de bron- en doeldocumenten betreft’.

Ten slotte speculeert het werk dat MT-PET niet alleen kan worden toegepast op een bredere reeks wetenschappelijke artikelen (buiten de gezondheidssector), maar ook de basis kan vormen voor nieuwe tools om journalisten te helpen betere overzichten van wetenschappelijke artikelen te produceren (hoewel dit, misschien naïef, ervan uitgaat dat journalisten claimsterkte overdrijven door onwetendheid), evenals het ondersteunen van de onderzoekscommunity bij het formuleren van een duidelijker gebruik van taal om complexe ideeën uit te leggen. Verder merkt het artikel op:

‘[het] moet worden opgemerkt dat de voorspellende prestatieresultaten die in dit artikel worden gerapporteerd, voor persberichten geschreven door wetenschapsjournalisten zijn – men kan slechtere resultaten verwachten voor persberichten die wetenschappelijke artikelen sterker vereenvoudigen.’

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.