Kąt Andersona

Polski podejście NLP do wykrywania przesady w dziennikarstwie naukowym

mm

Badacze z Danii opracowali system “wykrywania przesady” zaprojektowany w celu złagodzenia skutków przeszacowania przez dziennikarzy implikacji nowych prac badawczych podczas ich podsumowywania i raportowania. Praca ta została zainspirowana zakresem, w jakim nowe opublikowane badania na temat COVID-19 zostały zniekształcone w kanałach informacyjnych, chociaż autorzy przyznają, że jest to stosowalne w szerokim zakresie ogólnego sektora raportowania naukowego.

Artykuł artykuł, zatytułowany Półnadzorowane wykrywanie przesady w prasie naukowej, pochodzi z Uniwersytetu w Kopenhadze i stwierdza, że problem jest zaostrzony przez tendencję publikacji do nieuwzględniania linków do oryginalnych badań – coraz częstszą praktykę dziennikarską, która próbuje zastąpić oryginalną pracę i podstawiając ponownie raportowaną streszczenie jako “wiedzę źródłową” – nawet w przypadku, gdy praca jest publicznie dostępna.

Z artykułu, typowy przejaw przesady w pracach naukowych. Źródło: https://arxiv.org/pdf/2108.13493.pdf

Z artykułu, typowy przejaw przesady w pracach naukowych. Źródło: https://arxiv.org/pdf/2108.13493.pdf

Problem nie jest ograniczony do zewnętrznej reakcji dziennikarskiej na nowe prace, ale może sięgać także innych rodzajów podsumowań, w tym wewnętrznych wysiłków PR uniwersytetów i instytucji badawczych; materiałów promocyjnych ukierunkowanych na przyciągnięcie uwagi środków przekazu; oraz przydatnych linków odniesienia (i potencjalnej amunicji do rund finansowania), które wynikają, gdy dziennikarze “gryzą”.

Praca wykorzystuje Przetwarzanie Języka Naturalnego (NLP) wobec nowego zestawu danych parzystych komunikatów prasowych i abstraktów, z badaczami twierdzącymi, że opracowali “[nowe, bardziej realistyczne sformułowanie zadania]” do wykrywania naukowej przesady. Autorzy obiecali opublikować kod i dane do pracy na GitHubie wkrótce.

Rozprawianie się z sensacjonalizmem

Kilka badań zajmowało się problemem sensacjonalizmu naukowego w ciągu ostatnich trzydziestu lat i zwróciło uwagę na dezinformację, do której może to prowadzić. Późny amerykański socjolog naukowy Dorothy Nelkin zajmował się tym problemem szczególnie w 1987 roku książce Sprzedaż nauki: Jak prasa relacjonuje naukę i technologię; raport Embo z 2006 roku Zła nauka w nagłówkach podkreślił potrzebę większej liczby dziennikarzy przeszkolonych naukowo, podobnie jak internet wywierał krytyczne presje budżetowe na tradycyjne media.

Dodatkowo, w 2014 roku Brytyjski Magazyn Medyczny przykuł uwagę do problemu w raporcie; i badanie z 2019 roku z Wellcome Open Research ustaliło, że przesada w pracach naukowych nie daje żadnych korzyści (pod względem zasięgu lub ruchu) środkom przekazu i innym systemom raportowania, które utrwalają tę praktykę.

Jednakże, pojawienie się pandemii spowodowało, że negatywne skutki tej hiperboli zostały postawione w krytycznym świetle, z zakresem platform informacyjnych, w tym strony wyników wyszukiwania Google i repozytorium naukowych prac Cornell University Arxiv automatycznie dodając ostrzeżenia do wszelkich treści, które wydają się zajmować COVID.

Zmodyfikowane interfejsy dla wyszukiwań i treści związanych z COVID, ze strony wyników wyszukiwania Google i repozytorium naukowych prac Cornell University Arxiv.

Zmodyfikowane interfejsy dla wyszukiwań i treści związanych z COVID, ze strony wyników wyszukiwania Google i repozytorium naukowych prac Cornell University Arxiv.

Poprzednie projekty próbowały stworzyć systemy wykrywania przesady dla prac naukowych, wykorzystując NLP, w tym współpracę z 2019 roku między badaczami z Hongkongu i Chin oraz inny (niespokrewniony) duński artykuł z 2017 roku.

Badacze nowego artykułu zauważają, że te wcześniejsze próby opracowały zestawy danych twierdzeń z abstraktów i podsumowań z PubMed i EurekAlert, oznaczonych jako “siła”, i wykorzystały je do trenowania modeli machine learning do przewidywania siły twierdzenia w nieznanym danych.

MT-PET

Nowe badanie łączy komunikat prasowy i abstrakt jako połączoną jednostkę danych i wykorzystuje wynikający z tego zestaw danych w MT-PET, wersji o wielu zadaniach Pattern Exploiting Training, który został po raz pierwszy przedstawiony w 2020 roku jako Wykorzystanie pytań Cloze do klasyfikacji tekstu i inferencji języka naturalnego, połączone badanie dwóch niemieckich instytucji badawczych.

Żaden istniejący zestaw danych nie został uznany za odpowiedni do tego zadania, a zespół opracował nowy zestaw danych parzystych zdań z abstraktów i powiązanych komunikatów prasowych, ocenianych przez “ekspertów” pod względem ich skłonności do przesady.

Badacze wykorzystali ramę klasyfikacji tekstu PETAL jako część potoku do automatycznego generowania par wzorców-słownika, następnie iterując przez dane, aż znajdą się przybliżone tuplety dla dwóch jakości: wykrywania przesady i siły twierdzenia.

“Złote” dane testowe zostały ponownie wykorzystane z wcześniejszych badań, składających się z 823 par abstraktów i komunikatów prasowych. Badacze odrzucili możliwe wykorzystanie danych z 2014 roku BMJ, ponieważ są one przetłumaczone.

Ten proces dał zestaw danych 663 par abstraktów i komunikatów prasowych oznaczonych jako przesada i siła twierdzenia. Badacze losowo wybrali 100 z nich jako dane szkoleniowe few-shot, z 553 przykładami odłożonymi do testowania. Dodatkowo utworzono mały zestaw szkoleniowy składający się z 1 138 zdań, sklasyfikowanych jako zdania reprezentujące główny wniosek podsumowania lub komunikatu prasowego. Te zdania zostały wykorzystane do identyfikacji “zdań wniosków” w nieoznaczonych parach.

Testowanie

Badacze przetestowali podejście w trzech konfiguracjach: w pełni nadzorowanym środowisku z wyłącznie oznaczonymi danymi; w scenariuszu PET jednego zadania; i w nowym MT-PET, który dodaje wątek zadania pomocniczego (ponieważ celem projektu jest zbadanie dwóch odrębnych jakości z zestawu danych o parzystych konstrukcjach).

Badacze stwierdzili, że MT-PET poprawił wyniki bazowego PET we wszystkich środowiskach testowych i stwierdzili, że identyfikacja siły twierdzenia pomogła wytwarzać miękkie dane szkoleniowe do wykrywania przesady. Jednakże, artykuł zauważa, że w pewnych konfiguracjach wśród złożonego zestawu testów, szczególnie tych związanych z siłą twierdzenia, obecność profesjonalnie oznaczonych danych może być czynnikiem poprawy wyników (w porównaniu z wcześniejszymi projektami badawczymi, które zajmują się tym problemem). To może mieć implikacje dla stopnia, w jakim potok może być zautomatyzowany, w zależności od nacisku danych zadania.

Niemniej, badacze stwierdzają, że MT-PET “pomaga w trudniejszych przypadkach identyfikacji i różnicowania bezpośrednich twierdzeń przyczynowych od słabszych twierdzeń, i że najbardziej efektywne podejście obejmuje klasyfikację i porównywanie indywidualnej siły twierdzeń w dokumentach źródłowych i docelowych”.

Na zakończenie, praca spekuluje, że MT-PET nie tylko może być stosowany w szerszym zakresie prac naukowych (poza sektorem zdrowia), ale także może stanowić podstawę nowych narzędzi, które pomogą dziennikarzom tworzyć lepsze podsumowania prac naukowych (chociaż to, być może naiwnie, zakłada, że dziennikarze przeszacowują siłę twierdzenia z ignorancji), a także pomaga społeczności badawczej w sformułowaniu jasniejszego użycia języka do wyjaśnienia złożonych pomysłów. Co więcej, artykuł zauważa:

‘[należy zauważyć, że wyniki wydajności predykcyjnej przedstawione w tym artykule dotyczą komunikatów prasowych napisanych przez dziennikarzy naukowych – można oczekiwać gorszych wyników dla komunikatów prasowych, które silniej upraszczają artykuły naukowe.’

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.