Povežite se s nama

Umjetna inteligencija

Alat za provjeru pristranosti pokretan umjetnom inteligencijom za novinske članke, dostupan u Pythonu

mm

Istraživači u Kanadi, Indiji, Kini i Australiji surađivali su na izradi besplatno dostupnog Python paketa koji se može učinkovito koristiti za uočavanje i zamjenu 'nepoštenog jezika' u vijestima.

Sustav, pod naslovom Dbias, koristi različite tehnologije strojnog učenja i baze podataka za razvoj trostupanjskog kružnog tijeka rada koji može poboljšati pristran tekst dok ne vrati nepristranu ili barem neutralniju verziju.

Učitani jezik u isječku vijesti identificiran kao 'pristran' Dbias pretvara u manje zapaljivu verziju. Izvor: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Dbias transformira uneseni jezik u isječku vijesti identificiranom kao 'pristran' u manje zapaljivu verziju. Izvor: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Sustav predstavlja višekratni i samostalni cjevovod koji se može instaliran putem Pip-a iz Hugging Face-a i integriran u postojeće projekte kao dodatna faza, dodatak ili dodatak.

U travnju je slična funkcija implementirana u Google dokumente došao pod kritiku, ne samo zbog nedostatka mogućnosti uređivanja. Dbias se, s druge strane, može selektivnije obučavati na bilo kojem korpusu vijesti koji krajnji korisnik želi, zadržavajući sposobnost razvijanja prilagođenih smjernica za poštenje.

Ključna razlika je u tome što je Dbiasov cjevovod namijenjen automatskoj transformaciji 'prenatrpanog jezika' (riječi koje dodaju kritični sloj činjeničnoj komunikaciji) u neutralan ili prozaičan jezik, umjesto da kontinuirano obučava korisnika. U osnovi, krajnji korisnik će definirati etičke filtere i u skladu s tim obučavati sustav; u pristupu Google dokumenata, sustav – vjerojatno – obučava korisnika, na jednostran način.

Konceptualna arhitektura za tijek rada Dbias.

Konceptualna arhitektura za tijek rada Dbias.

Prema istraživačima, Dbias je prvi doista konfigurabilni paket za otkrivanje pristranosti, za razliku od gotovih projekata sklapanja koji su do danas karakterizirali ovaj podsektor obrade prirodnog jezika (NLP).

The novom papiru naslovljen je Pristup osiguravanju poštenja u novinskim člancima, a dolazi od suradnika sa Sveučilišta u Torontu, Metropolitanskog sveučilišta u Torontu, Upravljanja okolišnim resursima u Bangaloreu, Akademije znanosti DeepBlue u Kini i Sveučilišta u Sydneyu.

način

Prvi modul u Dbiasu je Otkrivanje pristranosti, koji iskorištava DestilBERT paket – visoko optimizirana verzija Googleovog prilično strojno intenzivnog BERTI. Za projekt, DistilBERT je fino podešen na primjedbi Media Bias (MBIC) skup podataka.

MBIC se sastoji od novinskih članaka iz raznih medijskih izvora, uključujući Huffington Post, USA Today i MSNBC. Istraživači su koristili proširenu verziju skupa podataka.

Iako su izvorne podatke komentirali radnici angažirani na gomili (metoda koja pod vatrom krajem 2021.), istraživači novog rada uspjeli su identificirati dodatne neoznačene instance pristranosti u skupu podataka i dodali ih ručno. Identificirani slučajevi pristranosti povezani s rasom, obrazovanjem, etničkom pripadnosti, jezikom, vjerom i spolom.

Sljedeći modul, Prepoznavanje pristranosti, koristi Prepoznavanje imenovanog entiteta (NER) za izdvajanje pristranih riječi iz ulaznog teksta. U radu se navodi:

'Na primjer, vijest 'Nemojte nasjedati na pseudoznanstvenu propagandu o tornadima i klimatskim promjenama' klasificirana je kao pristrana od strane prethodnog modula za otkrivanje pristranosti, a modul za prepoznavanje pristranosti sada može identificirati pojam 'pseudoznanstvena propaganda' kao pristranu riječ.'

NER nije posebno dizajniran za ovaj zadatak, ali je korišten prije za identifikaciju pristranosti, posebno za a 2021 projekt sa Sveučilišta Durham u Velikoj Britaniji.

Za ovu fazu istraživači su koristili RoBERTa u kombinaciji s cjevovodom SpaCy English Transformer NER.

Sljedeća faza, Maskiranje pristranosti, uključuje novu višestruku masku identificiranih pristranih riječi, koja radi sekvencijalno u slučajevima više identificiranih pristranih riječi.

Učitani jezik zamijenjen je pragmatičnim jezikom u trećoj fazi Dbiasa. Imajte na umu da su "usta" i "uporaba" jednaki istoj radnji, iako se prvo smatra podrugljivim.

U trećoj fazi Dbias-a, opterećeni jezik zamjenjuje se pragmatičnim jezikom. Imajte na umu da 'izgovaranje' i 'korištenje' znače istu radnju, iako se prvo smatra podrugljivim.

Prema potrebi, povratne informacije iz ove faze bit će poslane natrag na početak cjevovoda za daljnju procjenu dok se ne generira niz odgovarajućih alternativnih izraza ili riječi. Ova faza koristi modeliranje maskiranog jezika (MLM) duž linija koje je uspostavio a Suradnja 2021 pod vodstvom Facebook Researcha.

Uobičajeno će MLM zadatak maskirati 15% riječi nasumično, ali tijek rada Dbias umjesto toga govori procesu da uzme identificirane pristrane riječi kao ulaz.

Arhitektura je implementirana i obučena na Google Colab Pro na NVIDIA P100 s 24 GB VRAM-a pri veličini serije od 16, koristeći samo dvije oznake (pristran i nepristran).

Testovi

Istraživači su testirali Dbias u odnosu na pet usporedivih pristupa: LG-TFIDF s Logistička regresija i TfidfVektorizator (TFIDF) umetanje riječi; LG-ELMO; MLP-ELMO (umjetna neuronska mreža koja sadrži ELMO ugradnje); BERT; i RoBERTa.

Metrike korištene za testove bile su točnost (ACC), preciznost (PREC), prisjećanje (Rec) i F1 rezultat. Budući da istraživači nisu imali saznanja ni o jednom postojećem sustavu koji bi mogao izvršiti sva tri zadatka u jednom cjevovodu, napravljena je iznimka za konkurentske okvire, procjenjujući samo primarne zadatke Dbiasa - otkrivanje i prepoznavanje pristranosti.

Rezultati Dbias ispitivanja.

Rezultati Dbias ispitivanja.

Dbias je uspio nadmašiti rezultate svih konkurentskih okvira, uključujući one s većim procesnim otiskom

U radu se navodi:

'Rezultat također pokazuje da duboka neuralna ugrađivanja, općenito, mogu nadmašiti tradicionalne metode ugrađivanja (npr. TFIDF) u zadatku klasifikacije pristranosti. To je prikazano boljom izvedbom ugrađenih dubokih neuronskih mreža (tj. ELMO) u usporedbi s TFIDF vektorizacijom kada se koristi s LG-em.

'To je vjerojatno zato što duboka neuronska ugrađivanja mogu bolje uhvatiti kontekst riječi u tekstu u različitim kontekstima. Duboka neuronska ugrađivanja i duboke neuronske metode (MLP, BERT, RoBERTa) također daju bolje rezultate od tradicionalne ML metode (LG).'

Istraživači također primjećuju da metode temeljene na transformatoru nadmašuju konkurentske metode u detekciji pristranosti.

Dodatni test uključivao je usporedbu između Dbiasa i raznih okusa SpaCy Core Weba, uključujući core-sm (mali), core-md (srednji) i core-lg (veliki). Dbias je bio u mogućnosti voditi odbor i u ovim ispitivanjima:

Istraživači zaključuju opažanjem da zadaci prepoznavanja pristranosti općenito pokazuju bolju točnost u većim i skupljim modelima, zbog – nagađaju – povećanog broja parametara i podatkovnih točaka. Također primjećuju da će učinkovitost budućeg rada na ovom polju ovisiti o većim naporima da se označe skupovi podataka visoke kvalitete.

Šuma i drveće

Nadamo se da će ovakav projekt prepoznavanja pristranosti s preciznom strukturom na kraju biti uključen u okvire za traženje pristranosti koji mogu zauzeti manje kratkovidan stav i uzeti u obzir da je odabir izvještavanja o bilo kojoj određenoj priči sam po sebi čin pristranosti koji je potencijalno potaknut nečim više od samo prijavljenih statistika gledanosti.

 

Prvi put objavljeno 14. srpnja 2022.