Sztuczna inteligencja
NLP Approach to Exaggeration Detection in Science Journalism

Badacze z Danii opracowali system wykrywania “przesady”, zaprojektowany w celu złagodzenia skutków przesadnego przedstawiania przez dziennikarzy implikacji nowych badań naukowych przy ich podsumowywaniu i raportowaniu. Praca ta została zainspirowana zakresem, w jakim nowe opublikowane badania na temat COVID-19 zostały zniekształcone w kanałach informacyjnych, chociaż autorzy przyznają, że jest to stosowalne w szerokim zakresie ogólnych raportów naukowych.
Praca paper, zatytułowana Semi-Supervised Exaggeration Detection of Health Science Press Releases, pochodzi z Uniwersytetu Kopenhaskiego i zauważa, że problem jest zaostrzony przez tendencję publikacji do nieuwzględniania linków do oryginalnych badań – coraz częstszą praktyką dziennikarską, która próbuje zastąpić oryginalny artykuł i podstawiony ponownie zestawienie jako “wiedzę źródłową” – nawet wtedy, gdy artykuł jest publicznie dostępny.

Z pracy, typowe przejawy przesady w odniesieniu do prac naukowych. Źródło: https://arxiv.org/pdf/2108.13493.pdf
Problem nie ogranicza się do zewnętrznej reakcji dziennikarskiej na nowe prace, ale może sięgać również innych rodzajów podsumowań, w tym wewnętrznych wysiłków PR uniwersytetów i instytucji badawczych; materiałów promocyjnych ukierunkowanych na przyciągnięcie uwagi mediów; oraz przydatnych linków referencyjnych (i potencjalnej amunicji do rund finansowania), które wynikają, gdy dziennikarze “kąsią”.
Praca wykorzystuje Natural Language Processing (NLP) wobec nowego zestawu danych parzystych komunikatów prasowych i streszczeń, przy czym badacze twierdzą, że opracowali “[nowe, bardziej realistyczne sformułowanie zadania]” do wykrywania naukowej przesady. Autorzy obiecali opublikować kod i dane pracy na GitHub wkrótce.
Walka z sensacjonalizmem
Kilka badań zajmowało się problemem sensacjonalizmu naukowego w ciągu ostatnich trzydziestu lub więcej lat i zwróciło uwagę na dezinformację, do której może to prowadzić. Późny amerykański socjolog naukowy Dorothy Nelkin zajmował się tym problemem, szczególnie w książce z 1987 roku Selling Science: How the Press Covers Science and Technology; raport Embo z 2006 roku Bad science in the headlines podkreślił potrzebę większej liczby dziennikarzy przeszkolonych naukowo, podobnie jak internet wprowadzał krytyczne presje budżetowe na tradycyjne media.
Ponadto w 2014 roku Brytyjski Magazyn Medyczny (British Medical Journal) przywołał problem w raporcie; a badanie z 2019 roku opublikowane w Wellcome Open Research ustaliło, że przesada w pracach naukowych nie daje żadnych korzyści (pod względem zasięgu lub ruchu) mediom i innym systemom raportowania, które stosują tę praktykę.
Jednakże pandemia spowodowała, że negatywne skutki tej hiperboli zostały postawione w krytycznym świetle, z szeregiem platform informacyjnych, w tym wyników strony wyszukiwania Google i repozytorium naukowych prac Cornell University Arxiv, które teraz automatycznie dodają ostrzeżenia do wszelkich treści, które wydają się dotyczyć COVID.

Zmodyfikowane interfejsy dla wyszukiwań i treści związanych z COVID, ze strony wyników wyszukiwania Google i z wpływowego repozytorium naukowych prac Cornell University Arxiv.
Poprzednie projekty próbowały stworzyć systemy wykrywania przesady dla prac naukowych, wykorzystując NLP, w tym współpracę z 2019 roku między badaczami z Hongkongu i Chin oraz inny (niezwiązany) duński artykuł z 2017 roku.
Badacze nowej pracy zauważają, że te wcześniejsze próby opracowały zestawy danych twierdzeń z abstraktów i podsumowań z PubMed i EurekAlert, oznaczonych jako “siła”, i wykorzystały je do szkolenia modeli machine learning do przewidywania siły twierdzenia w nieznanym danych.
MT-PET
Nowe badanie łączy komunikat prasowy i abstrakt jako połączoną jednostkę danych i wykorzystuje wynikający z tego zestaw danych w MT-PET, wersji wielozadaniowej Pattern Exploiting Training, która została po raz pierwszy przedstawiona w 2020 roku jako Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference, wspólny wysiłek dwóch niemieckich instytucji badawczych.
Nie znaleziono żadnego istniejącego zestawu danych, który byłby odpowiedni dla tego zadania, więc zespół opracował nowy zestaw danych parzystych zdań z abstraktów i powiązanych komunikatów prasowych, ocenionych przez “ekspertów” pod względem ich tendencji do przesady.
Badacze wykorzystali ramę few-shot text classification PETAL jako część potoku do automatycznego generowania par wzorców-słownika, a następnie wielokrotnie przechodzili przez dane, aż znaleziono odpowiednie tuplety dla dwóch jakości: wykrywania przesady i siły twierdzenia.
“Dane złote” do testowania zostały ponownie wykorzystane z wcześniejszych projektów badawczych, składających się z 823 par abstraktów i komunikatów prasowych. Badacze odrzucili możliwe wykorzystanie danych z 2014 roku BMJ, ponieważ są one przetłumaczone.
Ten proces dał zestaw danych 663 par abstraktów/komunikatów prasowych oznaczonych jako przesada i siła twierdzenia. Badacze losowo wybrali 100 z nich jako dane szkoleniowe few-shot, a 553 przykładów odłożono do testowania. Ponadto utworzono mały zestaw danych szkoleniowych składający się z 1138 zdań, sklasyfikowanych jako zdania reprezentujące główny wniosek podsumowania lub komunikatu prasowego. Te zdania zostały wykorzystane do identyfikacji “zdań wniosków” w nieoznaczonych parach.
Testowanie
Badacze przetestowali podejście w trzech konfiguracjach: w pełni nadzorowanym ustawieniu z wyłącznie oznaczonymi danymi; w scenariuszu PET jednego zadania; oraz w nowym MT-PET, który dodaje wątek pomocniczy jako zadanie pomocnicze (ponieważ celem projektu jest zbadanie dwóch odrębnych jakości z zestawu danych z połączonymi konstrukcjami danych).
Badacze stwierdzili, że MT-PET poprawił wyniki bazowych PET we wszystkich środowiskach testowych i stwierdzili, że identyfikacja siły twierdzenia pomaga wytwarzać miękkie dane szkoleniowe do wykrywania przesady. Jednakże praca zauważa, że w pewnych konfiguracjach wśród złożonego zestawu testów, szczególnie w odniesieniu do siły twierdzenia, obecność profesjonalnie oznaczonych danych może być czynnikiem poprawy wyników (w porównaniu z wcześniejszymi projektami badawczymi, które zajmują się tym problemem). To może mieć wpływ na stopień, w jakim potok może być zautomatyzowany, w zależności od nacisku danych zadania.
Pomimo tego badacze kończą, że MT-PET “pomaga w trudniejszych przypadkach identyfikacji i różnicowania bezpośrednich twierdzeń przyczynowych od słabszych twierdzeń, i że najbardziej efektywne podejście obejmuje klasyfikację i porównywanie indywidualnej siły twierdzeń wypowiedzi ze źródłowych i docelowych dokumentów”.
Na zakończenie praca spekuluje, że MT-PET nie tylko może być stosowany w szerszym zakresie prac naukowych (poza sektorem zdrowia), ale może również stanowić podstawę nowych narzędzi, które pomogą dziennikarzom tworzyć lepsze podsumowania prac naukowych (chociaż to, być może naiwnie, zakłada, że dziennikarze przesadnie przedstawiają siłę twierdzenia z powodu ignorancji), a także pomogą społeczności badawczej w sformułowaniu bardziej klarownego języka do wyjaśniania złożonych pomysłów. Co więcej, praca zauważa:
‘[należy zauważyć, że wyniki predykcyjne przedstawione w tej pracy dotyczą komunikatów prasowych napisanych przez dziennikarzy naukowych – można oczekiwać gorszych wyników dla komunikatów prasowych, które silniej upraszczają artykuły naukowe.’












