Kontakt z nami

Oparty na sztucznej inteligencji moduł sprawdzający stronniczość artykułów prasowych, dostępny w języku Python

Artificial Intelligence

Oparty na sztucznej inteligencji moduł sprawdzający stronniczość artykułów prasowych, dostępny w języku Python

mm

Naukowcy z Kanady, Indii, Chin i Australii połączyli siły, aby stworzyć darmowy pakiet Pythona, który może być skutecznie używany do wykrywania i zastępowania „nieuczciwego języka” w tekstach informacyjnych.

System pt Dbias, wykorzystuje różne technologie uczenia maszynowego i bazy danych, aby opracować trzyetapowy, cykliczny przepływ pracy, który można udoskonalić stronniczy tekst dopóki nie zwróci wersji bezstronnej lub przynajmniej bardziej neutralnej.

Załadowany język we fragmencie wiadomości zidentyfikowany jako „stronniczy” zostaje przekształcony przez Dbias w mniej prowokacyjną wersję. Źródło: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Wulgarny język w fragmencie wiadomości, który został uznany za „stronniczy”, zostaje przekształcony w mniej prowokacyjną wersję przez Dbias. Źródło: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

System stanowi samodzielny potok wielokrotnego użytku, który może być zainstalowany przez Pip od Hugging Face i zintegrowane z istniejącymi projektami jako dodatkowy etap, dodatek lub wtyczka.

W kwietniu podobna funkcjonalność została wdrożona w Dokumentach Google spotkała się z krytyką, zwłaszcza ze względu na brak możliwości edycji. Z drugiej strony Dbias może być szkolony w bardziej selektywny sposób na podstawie dowolnego zbioru wiadomości, jakiego sobie życzy użytkownik końcowy, zachowując możliwość opracowywania dostosowanych do indywidualnych potrzeb wytycznych dotyczących uczciwości.

Kluczowa różnica polega na tym, że potok Dbias ma automatycznie przekształcać „język naładowany” (słowa, które dodają krytyczną warstwę do komunikacji opartej na faktach) w język neutralny lub prozaiczny, a nie na bieżąco szkolić użytkownika. Zasadniczo użytkownik końcowy definiuje filtry etyczne i odpowiednio szkoli system; w podejściu Google Docs system – można argumentować – szkoli użytkownika w sposób jednostronny.

Architektura koncepcyjna przepływu pracy Dbias.

Architektura koncepcyjna przepływu pracy Dbias.

Według naukowców Dbias to pierwszy naprawdę konfigurowalny pakiet do wykrywania błędów systematycznych, w przeciwieństwie do gotowych projektów asemblerowych, które do tej pory charakteryzowały ten podsektor przetwarzania języka naturalnego (NLP).

nowy papier jest zatytułowany Podejście do zapewnienia uczciwości w artykułach prasowychi pochodzi od autorów z Uniwersytetu w Toronto, Toronto Metropolitan University, Environmental Resources Management w Bangalore, DeepBlue Academy of Sciences w Chinach i Uniwersytetu w Sydney.

Metoda wykonania

Pierwszym modułem w Dbias jest Wykrywanie stronniczości, który wykorzystuje DestylowaćBERT pakiet – wysoce zoptymalizowana wersja pakietu Google, który wymaga dużej ilości zasobów maszynowych BERTI. Na potrzeby projektu DistilBERT został udoskonalony w oparciu o adnotację dotyczącą stronniczości mediów (MBIC) zbiór danych.

MBIC składa się z artykułów prasowych z różnych źródeł medialnych, w tym z Huffington Post, USA Today i MSNBC. Naukowcy wykorzystali rozszerzoną wersję zbioru danych.

Chociaż oryginalne dane zostały opatrzone adnotacjami przez pracowników korzystających z crowdsourcingu (metoda, która dostał się pod ogień pod koniec 2021 r.) badacze pracujący nad nowym artykułem byli w stanie zidentyfikować dodatkowe, nieoznakowane przypadki stronniczości w zbiorze danych i dołączyli je ręcznie. Zidentyfikowane przypadki uprzedzeń związanych z rasą, wykształceniem, pochodzeniem etnicznym, językiem, religią i płcią.

Kolejny moduł, Rozpoznanie uprzedzeń, używa Rozpoznawanie nazwanych jednostek (NER), aby wyodrębnić stronnicze słowa z tekstu wejściowego. W artykule stwierdza się:

„Na przykład wiadomość „Nie wierzcie pseudonaukowemu szumowi wokół tornad i zmian klimatycznych” została sklasyfikowana jako stronnicza przez poprzedni moduł wykrywania stronniczości, a moduł rozpoznawania stronniczości może teraz identyfikować termin „pseudonaukowy szum” jako słowo stronnicze”.

NER nie jest specjalnie zaprojektowany do tego zadania, ale został wykorzystany zanim w celu identyfikacji stronniczości, w szczególności dla a Projekt 2021 z Uniwersytetu w Durham w Wielkiej Brytanii.

Na tym etapie naukowcy wykorzystali Roberta w połączeniu z rurociągiem SpaCy English Transformer NER.

Następny etap, Maskowanie stronniczości, obejmuje nową wielokrotną maskę zidentyfikowanych słów stronniczości, która działa sekwencyjnie w przypadku wielu zidentyfikowanych słów stronniczości.

W trzecim etapie Dbias język załadowany zostaje zastąpiony językiem pragmatycznym. Należy pamiętać, że „wypowiadanie ustami” i „używanie” są równoznaczne z tym samym działaniem, chociaż to pierwsze jest uważane za szydercze.

W trzecim etapie Dbias język nacechowany zostaje zastąpiony językiem pragmatycznym. Należy zauważyć, że „wygłaszanie” i „używanie” oznaczają to samo działanie, choć to pierwsze jest uważane za szydercze.

W razie potrzeby informacje zwrotne z tego etapu zostaną przesłane z powrotem na początek rurociągu w celu dalszej oceny, aż do wygenerowania szeregu odpowiednich alternatywnych wyrażeń lub słów. Na tym etapie wykorzystuje się modelowanie języka maskowanego (MLM) wzdłuż linii ustalonych przez a 2021 współpraca prowadzone przez Facebook Research.

Zwykle zadanie MLM losowo maskuje 15% słów, ale przepływ pracy Dbias zamiast tego mówi procesowi, aby przyjął zidentyfikowane stronnicze słowa jako dane wejściowe.

Architekturę zaimplementowano i przeszkolono w Google Colab Pro na platformie NVIDIA P100 z 24 GB pamięci VRAM w partii o wielkości 16 sztuk, przy użyciu zaledwie dwóch etykiet (stronniczy oraz bezinteresowny).

Testy

Naukowcy przetestowali Dbias w oparciu o pięć porównywalnych podejść: LG-TFIDF z Regresja logistyczna oraz TfidfVectorizer (TFIDF) osadzanie słów; LG-ELMO; MLP-ELMO (sztuczna sieć neuronowa ze sprzężeniem zwrotnym zawierająca osadzanie ELMO); BERT; i ROBERTA.

Do testów wykorzystano następujące metryki: dokładność (ACC), precyzja (PREC), czułość (Rec) oraz wynik F1. Ponieważ badacze nie znali żadnego istniejącego systemu, który mógłby zrealizować wszystkie trzy zadania w ramach jednego procesu, zrezygnowano z udziału w testach konkurencyjnych frameworków, oceniając jedynie główne zadania Dbias – wykrywanie i rozpoznawanie błędów.

Wyniki badań Dbias.

Wyniki badań Dbias.

Dbiasowi udało się przewyższyć wyniki wszystkich konkurencyjnych platform, w tym tych wymagających większego przetwarzania

Artykuł stwierdza:

„Wynik pokazuje również, że ogólnie rzecz biorąc, głębokie osadzenie neuronowe może przewyższać tradycyjne metody osadzania (np. TFIDF) w zadaniu klasyfikacji uprzedzeń. Świadczy o tym lepsza wydajność osadzania głębokich sieci neuronowych (tj. ELMO) w porównaniu z wektoryzacją TFIDF stosowaną z LG.

„Dzieje się tak prawdopodobnie dlatego, że głębokie osadzanie neuronów pozwala lepiej uchwycić kontekst słów w tekście w różnych kontekstach. Głębokie osadzanie neuronów i metody głębokiego neuronowania (MLP, BERT, RoBERTa) działają również lepiej niż tradycyjna metoda uczenia maszynowego (LG).”

Naukowcy zauważają również, że metody oparte na transformatorach przewyższają konkurencyjne metody w wykrywaniu odchyleń.

Dodatkowy test obejmował porównanie Dbias z różnymi wersjami SpaCy Core Web, w tym core-sm (mały), core-md (średni) i core-lg (duży). Dbias był w stanie poprowadzić zarząd także w tych próbach:

Na zakończenie badacze obserwują, że zadania rozpoznawania odchyleń zazwyczaj wykazują większą dokładność w większych i droższych modelach ze względu – spekulują – na zwiększoną liczbę parametrów i punktów danych. Zauważają również, że skuteczność przyszłych prac w tej dziedzinie będzie zależała od większych wysiłków na rzecz opisywania wysokiej jakości zbiorów danych.

Las i drzewa

Miejmy nadzieję, że tego typu szczegółowy projekt rozpoznawania uprzedzeń zostanie ostatecznie włączony do ram badających uprzedzenia, które będą w stanie przyjąć mniej krótkowzroczną perspektywę i uwzględnić fakt, że decyzja o relacjonowaniu konkretnej historii jest sama w sobie aktem stronniczości, która potencjalnie może być spowodowana czymś więcej niż tylko podanymi statystykami oglądalności.

 

Opublikowano po raz pierwszy 14 lipca 2022 r.