Artificial Intelligence

Generowanie i identyfikowanie propagandy za pomocą uczenia maszynowego

Zaktualizowano on 9 grudnia 2022 r.

Nowe badania przeprowadzone w Stanach Zjednoczonych i Katarze oferują nowatorską metodę identyfikowania fałszywych wiadomości, które zostały napisane w sposób ludzki właściwie napisz fałszywe wiadomości – poprzez osadzanie nieścisłych stwierdzeń w kontekście w dużej mierze zgodnym z prawdą oraz poprzez stosowanie popularnych technik propagandowych, takich jak odwołuje się do władzy i załadowany język.

W wyniku projektu stworzono nowy zestaw danych szkoleniowych w zakresie wykrywania fałszywych wiadomości o nazwie Wiadomości Propa, który obejmuje te techniki. Autorzy badania odkryli, że detektory wytrenowane na nowym zbiorze danych są o 7.3–12% dokładniejsze w wykrywaniu dezinformacji pisanej przez ludzi w porównaniu z poprzednimi, najnowocześniejszymi podejściami.

Z nowego artykułu przykłady „odwoływania się do władzy” i „naładowanego języka”. Źródło: https://arxiv.org/pdf/2203.05386.pdf

Autorzy twierdzą, że według ich najlepszej wiedzy projekt jako pierwszy wykorzystuje techniki propagandowe (a nie zwykłe nieścisłości w faktach) w generowanych maszynowo przykładach tekstowych, które mają pomóc w wykrywaniu fałszywych wiadomości.

Twierdzą, że najnowsze prace w tej dziedzinie badały stronniczość lub przeformułowały dane „propagandowe” w kontekście stronniczości (prawdopodobnie dlatego, że stronniczość stała się wysoce finansowanym sektorem uczenia maszynowego w epoce po wprowadzeniu Analytica).

Autorzy stwierdzają:

„Z kolei nasza praca generuje fałszywe wiadomości, wykorzystując techniki propagandowe i zachowując większość prawidłowych informacji. Dlatego nasze podejście jest bardziej odpowiednie do badania obrony przed fałszywymi wiadomościami pisanymi przez ludzi”.

Stanowią one ponadto ilustrację rosnącej pilności bardziej wyrafinowanych technik wykrywania propagandy*:

„Dezinformacja [pisana przez ludzi], często wykorzystywana do manipulowania niektórymi populacjami, miała katastrofalny wpływ na wiele wydarzeń, takich jak Wybory prezydenckie w USA 2016, BrexitThe Pandemia COVID-19oraz niedawny atak Rosji na Ukrainę. Dlatego pilnie potrzebujemy mechanizmu obronnego przed dezinformacją pisaną przez ludzi”.

Połączenia papier jest zatytułowany Fałszywe fałszywe wiadomości w celu wykrywania prawdziwych fałszywych wiadomości: generowanie danych szkoleniowych obciążonych propagandąi pochodzi od pięciu badaczy z Uniwersytetu Illinois Urbana-Champaign, Uniwersytetu Columbia, Uniwersytetu Hamad Bin Khalifa w Katarze, Uniwersytetu Waszyngtońskiego i Instytutu Allena ds. Sztucznej Inteligencji.

Definicja nieprawdy

Wyzwanie, jakim jest ilościowe określenie propagandy, ma w dużej mierze charakter logistyczny: zatrudnienie ludzi do rozpoznawania i opisywania materiałów ze świata rzeczywistego o cechach przypominających propagandę w celu umieszczenia ich w zbiorze danych szkoleniowych jest bardzo kosztowne, a wyodrębnienie i wykorzystanie funkcji wysokiego poziomu jest potencjalnie znacznie tańsze. które prawdopodobnie będą działać na „niewidocznych” przyszłych danych.

Aby znaleźć bardziej skalowalne rozwiązanie, badacze początkowo gromadzili stworzone przez ludzi artykuły dezinformacyjne ze źródeł uznawanych za mało zgodne z faktami, za pośrednictwem witryny Media Bias Fact Check.

Ustalili, że w 33% zbadanych artykułów wykorzystano nieszczere techniki propagandowe, w tym: określenia wywołujące emocje, logiczne błędy, zwrócić się do władz. Dodatkowe 55% artykułów zawierało informacje niedokładne wymieszane z informacjami dokładnymi.

Generowanie odwołań do władzy

Połączenia odwołać się do władzy podejście to ma dwa przypadki użycia: cytowanie niedokładnych stwierdzeń i cytowanie całkowicie fikcyjnych stwierdzeń. Badania skupiają się na drugim przypadku użycia.

W ramach nowego projektu platforma wnioskowania o języku naturalnym RoBERTa identyfikuje dwa kolejne przykłady odwoływania się do autorytetów i obciążonego języka.

Aby stworzyć generowaną maszynowo propagandę dla nowego zbioru danych, badacze wykorzystali wstępnie wyszkoloną architekturę seq2seq BART zidentyfikować najistotniejsze zdania, które można później przekształcić w propagandę. Ponieważ nie było publicznie dostępnego zbioru danych związanych z tym zadaniem, autorzy zastosowali ekstrakcyjny model podsumowujący zaproponowany w 2019 roku oszacować istotność zdania.

W przypadku jednego artykułu z każdego badanego serwisu informacyjnego badacze zastąpili te „zaznaczone” zdania fałszywymi argumentami „autorytetów” pochodzących zarówno z usługi Wikidata Query Service, jak i od autorytetów wymienionych w artykułach (tj. osób i/lub organizacji).

Generowanie załadowanego języka

Załadowany język obejmuje słowa, często wywołujące sensację przysłówki i przymiotniki (jak w zilustrowanym powyżej przykładzie), które zawierają ukryte sądy wartościujące uwikłane w kontekst przedstawienia faktu.

Aby uzyskać dane dotyczące załadowanego języka, autorzy wykorzystali zbiór danych z pliku a Badanie 2019 zawierające 2,547 załadowany język instancje. Ponieważ nie wszystkie przykłady w danych za 2019 r. zawierały przysłówki lub przymiotniki wywołujące emocje, badacze wykorzystali SpaCy do przeprowadzania analizy zależności i tagowania części mowy (PoS), zachowując tylko odpowiednie przykłady do włączenia do struktury.

W wyniku filtrowania otrzymano 1,017 ważnych próbek załadowany język. Innego przykładu BART użyto do maskowania i zastępowania najistotniejszych zdań w dokumentach źródłowych załadowanym językiem.

Zbiór danych PropaNews

Po średnio zaawansowanym szkoleniu modelowym przeprowadzonym w 2015 r Zbiór danych CNN/DM z Google Deep Mind i Uniwersytetu Oksfordzkiego badacze wygenerowali zbiór danych PropaNews, konwertując nietrywialne artykuły z „wiarygodnych” źródeł, takich jak The New York Times i The Guardian na „poprawione” wersje zawierające spreparowaną propagandę algorytmiczną.

Eksperyment wzorowany był na Badanie 2013 z Hanoweru, który automatycznie wygenerował na osi czasu podsumowania wiadomości z 17 wydarzeń informacyjnych, łącznie 4,535 artykułów.

Wygenerowaną dezinformację przekazano 400 unikalnym pracownikom Amazon Mechanical Turk (AMT) w ramach 2000 zadań wywiadu ludzkiego (HIT). Pod uwagę brane są wyłącznie artykuły nacechowane propagandą dokładny przez pracowników zostały uwzględnione w ostatecznej wersji PropaNews. Rozstrzyganie sporów punktowano na podstawie Porozumienia Pracowniczego Z Kruszywami (WAWA) metoda.

Ostateczna wersja PropaNews zawiera 2,256 artykułów, zrównoważonych między fałszywymi i prawdziwymi wynikami, z czego 30% to efekt dźwigni odwołać się do władzy, a kolejne 30% korzysta załadowany język. Pozostała część zawiera po prostu niedokładne informacje, które w dużej mierze dotyczyły wcześniejszych zbiorów danych w tej dziedzinie badań.

Dane podzielono w proporcji 1,256:500:500 na rozkłady szkoleniowe, testowe i walidacyjne.

Zbiór danych HumanNews

Aby ocenić skuteczność wyszkolonych procedur wykrywania propagandy, badacze zebrali 200 artykułów prasowych napisanych przez ludzi, w tym artykuły zdemaskowane przez Politifact i opublikowane w latach 2015–2020.

Dane te zostały uzupełnione o dodatkowe zdemaskowane artykuły z niewiarygodnych mediów informacyjnych, a całość została sprawdzona przez absolwenta informatyki.

Ostateczny zbiór danych, zatytułowany HumanNews, zawiera również 100 artykułów z Los Angeles Times.

Testy

Proces wykrywania porównano z wcześniejszymi rozwiązaniami w dwóch postaciach: PN-Srebro, który pomija weryfikację adnotatora AMT, oraz PN-Złoto, co obejmuje walidację jako kryterium.

Konkurencyjne platformy obejmowały ofertę na rok 2019 Grover-GEN, 2020 Fakt-GEN, Fałszywe wydarzenie, przy czym artykuły z PN-Silver zastępowane są dokumentami generowanymi tymi starszymi metodami.

Warianty Grovera i RoBERTa okazały się najskuteczniejsze po przeszkoleniu na nowym zbiorze danych PropaNews, a naukowcy doszli do wniosku, że „detektory przeszkolone w oparciu o PROPANEWS skuteczniej identyfikują dezinformację pisaną przez ludzi w porównaniu z detektorami wyszkolonymi w oparciu o inne zbiory danych”.

Naukowcy zauważają również, że nawet częściowo uszkodzony zbiór danych dotyczących ablacji PN-Silver przewyższa starsze metody w przypadku innych zbiorów danych.

Przeterminowany?

Autorzy podkreślają brak dotychczasowych badań dotyczących automatycznego generowania i identyfikacji propagandowych fałszywych wiadomości i ostrzegają, że wykorzystanie modeli wyszkolonych na danych przed krytycznymi wydarzeniami (takimi jak COVID lub prawdopodobnie obecna sytuacja we wschodnich krajach Europa) nie będzie działać optymalnie:

„Około 48% błędnie sklasyfikowanych dezinformacji pisanych przez ludzi wynika z niemożności zdobycia dynamicznej wiedzy z nowych źródeł wiadomości. Na przykład artykuły związane z COVID są zwykle publikowane po 2020 r., podczas gdy ROBERTA została wstępnie przeszkolona w zakresie artykułów prasowych opublikowanych przed 2019 r. Wykrycie dezinformacji na takie tematy jest dla ROBERTY bardzo trudne, chyba że detektor jest wyposażony w możliwości zdobywania dynamicznej wiedzy z artykułów prasowych.

Autorzy zauważają ponadto, że RoBERTa osiąga dokładność na poziomie 69.0% w wykrywaniu fałszywych artykułów prasowych, jeśli materiały zostały opublikowane przed 2019 rokiem, ale spada do 51.9% w przypadku zastosowania do artykułów opublikowanych po tej dacie.

Paletowanie i kontekst

Chociaż badanie nie odnosi się do tego bezpośrednio, możliwe, że tego rodzaju głębokie zanurzenie się w afekt semantyczny mogłoby ostatecznie zająć się bardziej subtelnym uzbrojeniem języka, takim jak drżący – egoistyczne i selektywne używanie prawdziwych oświadczeń w celu uzyskania pożądanego rezultatu, który może być sprzeczny z postrzeganym duchem i intencją wykorzystanych dowodów potwierdzających.

Pokrewną i nieco bardziej rozwiniętą linią badań w zakresie NLP, wizji komputerowej i badań multimodalnych jest badanie kontekstu jako dodatek do znaczenia, gdzie selektywne i egoistyczne uporządkowanie lub ponowne kontekstualizowanie prawdziwych faktów staje się równoznaczne z próbą wywołania innej reakcji, niż mogłyby zwykle wywołać fakty, gdyby zostały przedstawione w jaśniejszy i bardziej liniowy sposób.

* Moja konwersja cytatów autorów w tekście na bezpośrednie hiperłącza.

Opublikowano po raz pierwszy 11 marca 2022 r.

W przyszłym

Nowa analiza ryzyka ostrzega przed zagrożeniami związanymi ze sztuczną inteligencją w rolnictwie

Nie przegap

Udawanie „lepszych” ciał za pomocą sztucznej inteligencji

Martin Anderson

Pisarz na temat uczenia maszynowego, sztucznej inteligencji i dużych zbiorów danych.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai