Connect with us

O abordare NLP pentru detectarea exagerării în jurnalismul științific

Inteligență artificială

O abordare NLP pentru detectarea exagerării în jurnalismul științific

mm

Cercetători din Danemarca au dezvoltat un sistem de “detectare a exagerării” destinat să atenueze efectele jurnaliștilor care exagerează implicațiile noilor cercetări științifice atunci când le rezumă și le raportează. Lucrarea a fost determinată de amploarea în care noile cercetări publicate despre COVID-19 au fost distorsionate în canalele de raportare, deși autorii recunosc că este aplicabilă într-o gamă largă de sectoare de raportare științifică.

Articolul, intitulat Detectarea semi-supervizată a exagerării comunicatelor de presă din domeniul științelor sănătății, provine de la Universitatea din Copenhaga și notează că problema este exacerbată de tendința publicațiilor de a nu include legături către cercetarea originală – o practică jurnalistică din ce în ce mai frecventă care încearcă să înlocuiască articolul original și să substituie rezumatul rearanjat ca “cunoștințe sursă” – chiar și atunci când articolul este disponibil public.

Din articol, o manifestare tipică a exagerării articolelor științifice. Sursă: https://arxiv.org/pdf/2108.13493.pdf

Din articol, o manifestare tipică a exagerării articolelor științifice. Sursă: https://arxiv.org/pdf/2108.13493.pdf

Problema nu se limitează la reacția jurnalistică externă la noile articole, ci poate extinde și în alte tipuri de rezumat, inclusiv eforturile interne de PR ale universităților și instituțiilor de cercetare; materialele promoționale destinate să atragă atenția canalelor de știri; și link-urile utile (și potențialul material pentru rundele de finanțare) care decurg atunci când jurnaliștii “mușcă”.

Lucrarea utilizează Procesarea Limbajului Natural (NLP) împotriva unui set de date nou de comunicate de presă și rezumate, cercetătorii afirmând că au dezvoltat “[o] nouă, mai realistă formulare a sarcinii” pentru detectarea exagerării științifice. Autorii au promis să publice codul și datele pentru lucrare pe GitHub în curând.

Abordarea sensaționalismului

O serie de studii au abordat problema sensaționalismului științific în ultimii treizeci de ani și au atras atenția asupra informațiilor greșite pe care le poate genera. Sociologul științific american Dorothy Nelkin a abordat această problemă în mod remarcabil în cartea din 1987 Vânzarea științei: Cum acoperă presa știința și tehnologia; raportul Embo din 2006 Proastă știință în titluri a subliniat nevoia de jurnaliști mai bine pregătiți în științe, exact în momentul în care internetul aducea presiuni bugetare critice asupra mass-mediei tradiționale.

În plus, în 2014, British Medical Journal a adus problema în prim-plan într-un raport; și un studiu din 2019 de la Wellcome Open Research a stabilit că exagerarea articolelor științifice nu conferă niciun beneficiu (în ceea ce privește accesarea sau traficul) canalelor de știri și altor sisteme de raportare care perpetuează această practică.

Cu toate acestea, apariția pandemiei a adus efectele negative ale acestui hiperbolism într-un focus critic, cu o serie de platforme de informare, inclusiv pagina de rezultate a motorului de căutare Google și indexul de articole științifice Arxiv al Universității Cornell, care adaugă acum automat avertizări pentru orice conținut care pare să se ocupe de COVID.

Interfețe modificate pentru căutări și conținut legate de COVID, de pe pagina de rezultate a motorului de căutare Google și de pe repository-ul științific Arxiv al Universității Cornell.

Interfețe modificate pentru căutări și conținut legate de COVID, de pe pagina de rezultate a motorului de căutare Google și de pe repository-ul științific Arxiv al Universității Cornell.

Proiecte anterioare au încercat să creeze sisteme de detectare a exagerării pentru articole științifice prin utilizarea NLP, inclusiv o colaborare din 2019 între cercetători din Hong Kong și China, și un alt proiect (nepănățit) din Danemarca din 2017.

Cercetătorii noului articol notează că aceste eforturi anterioare au dezvoltat seturi de date de afirmații din rezumate și abstracte din PubMed și EurekAlert, etichetate pentru “putere”, și le-au utilizat pentru a antrena modele de învățare automată pentru a prezice puterea afirmației în date nevizionate.

MT-PET

Noua cercetare combină în schimb o comunicare de presă și un rezumat ca o entitate de date combinată și exploatează setul de date rezultat în MT-PET, o versiune capabilă de multitask a cercetării Pattern Exploiting Training prezentate pentru prima dată în 2020 ca Exploatând întrebările Cloze pentru clasificarea textului și inferența limbajului natural, un efort de cercetare combinat din două instituții de cercetare germane.

Nu a fost găsit niciun set de date existent care să fie potrivit pentru sarcină, și echipa a curatoriat astfel un set de date nou de propoziții pereche din abstracte și comunicate de presă asociate, evaluate de “experți” în ceea ce privește tendința lor de a exagera.

Cercetătorii au utilizat cadrul de clasificare a textului cu puține exemple PETAL ca parte a unui pipeline pentru a genera automat perechi de modele-verbalizator, reiterând ulterior prin date până când s-au găsit tuplete aproximativ echivalente pentru două calități: detectarea exagerării și puterea afirmației.

Datele “de aur” pentru testare au fost reutilizate din proiectele de cercetare anterioare menționate, constând în 823 de perechi de abstracte și comunicate de presă. Cercetătorii au respins posibilitatea de a utiliza datele BMJ din 2014, deoarece sunt parafrazate.

Acest proces a obținut un set de date de 663 de perechi de abstracte și comunicate de presă etichetate pentru exagerare și puterea afirmației. Cercetătorii au selectat aleatoriu 100 dintre ele ca date de antrenare cu puține exemple, cu 553 de exemple puse deoparte pentru testare. În plus, a fost creat un set de antrenare mic, constând în 1.138 de propoziții, clasificate în funcție de faptul dacă reprezintă sau nu concluzia principală a rezumatului sau a comunicatului de presă. Acestea au fost utilizate pentru a identifica “propoziții de concluzie” în perechi neetichetate.

Testarea

Cercetătorii au testat abordarea în trei configurații: un mediu supravegheat complet cu date etichetate exclusiv; un scenariu PET cu o singură sarcină; și pe noul MT-PET, care adaugă un fir de sarcină secundară ca o sarcină auxiliară (deoarece scopul proiectului este de a examina două calități separate dintr-un set de date cu constructe de date pereche).

Cercetătorii au constatat că MT-PET a îmbunătățit rezultatele de bază PET în toate mediile de testare și au găsit că identificarea puterii afirmației a ajutat la producerea de date de antrenare etichetate moale pentru detectarea exagerării. Cu toate acestea, articolul notează că, în anumite configurații printre o serie complexă de teste, în special legate de puterea afirmației, prezența datelor etichetate profesional poate fi un factor în rezultatele îmbunătățite (comparativ cu proiectele de cercetare anterioare care abordează această problemă). Acest lucru poate avea implicații pentru gradul în care pipeline-ul poate fi automatizat, în funcție de accentul de date al sarcinii.

Cu toate acestea, cercetătorii concluzionează că MT-PET “ajută în cazurile mai dificile de identificare și diferențiere a afirmațiilor cauzale directe de la afirmațiile mai slabe și că abordarea cea mai performantă implică clasificarea și compararea puterii afirmației individuale a afirmațiilor din documentele sursă și țintă”.

În închidere, lucrarea speculează că MT-PET nu numai că poate fi aplicat unei game mai largi de articole științifice (în afara sectorului sănătății), dar poate forma și baza unor noi instrumente pentru a ajuta jurnaliștii să producă revizuiri mai bune ale articolelor științifice (deși acest lucru, poate naiv, presupune că jurnaliștii exagerează puterea afirmației prin ignoranță), precum și pentru a ajuta comunitatea de cercetare să formuleze o utilizare mai clară a limbajului pentru a explica idei complexe. Mai mult, articolul observă:

“[trebuie remarcat că rezultatele performanței predictive raportate în acest articol sunt pentru comunicate de presă scrise de jurnaliști științifici – s-ar putea aștepta rezultate mai slabe pentru comunicate de presă care simplifică mai puternic articolele științifice.”

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.