tynkä Tekoälyn ohjaama harhatarkistus uutisartikkeleille, saatavilla Pythonissa - Unite.AI
Liity verkostomme!

Tekoäly

Tekoälyohjattu harhatarkistus uutisartikkeleille, saatavilla Pythonissa

mm
Päivitetty on

Kanadan, Intian, Kiinan ja Australian tutkijat ovat tehneet yhteistyötä tuottaakseen vapaasti saatavilla olevan Python-paketin, jolla voidaan tehokkaasti havaita ja korvata "epäreilu kielenkäyttö" uutisissa.

Järjestelmä, nimeltään Dbias, käyttää erilaisia ​​koneoppimistekniikoita ja tietokantoja kehittääkseen kolmivaiheisen kiertotyönkulun, jota voidaan jalostaa puolueellinen teksti kunnes se palauttaa puolueettoman tai ainakin neutraalimman version.

Puolueelliseksi tunnistetussa uutiskatkelmassa ladattu kieli muuntaa Dbiasin vähemmän syttyväksi versioksi. Lähde: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Puolueelliseksi tunnistetussa uutiskatkelmassa ladattu kieli muuntaa Dbiasin vähemmän syttyväksi versioksi. Lähde: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf

Järjestelmä edustaa uudelleen käytettävää ja itsenäistä putkistoa, joka voi olla asennettu Pipin kautta Hugging Facesta ja integroitu olemassa oleviin projekteihin lisävaiheena, lisäosana tai liitännäisenä.

Huhtikuussa vastaava toiminto otettiin käyttöön Google Docsissa tuli kritiikkiin, ei vähiten sen muokattavuuden vuoksi. Dbias puolestaan ​​​​voi olla valikoivammin koulutettua mihin tahansa loppukäyttäjän haluamaan uutiskokoukseen, säilyttäen kyvyn kehittää räätälöityjä oikeudenmukaisuusohjeita.

Kriittinen ero on se, että Dbias-putkilinjan tarkoituksena on automaattisesti muuntaa "ladattu kieli" (sanat, jotka lisäävät kriittistä kerrosta asiaviestintään) neutraaliksi tai proosaiseksi kieleksi sen sijaan, että se kouluttaisi käyttäjää jatkuvasti. Pohjimmiltaan loppukäyttäjä määrittelee eettiset suodattimet ja kouluttaa järjestelmän niiden mukaisesti; Google Docs -lähestymistavassa järjestelmä – luultavasti – kouluttaa käyttäjää yksipuolisesti.

Käsitteellinen arkkitehtuuri Dbias-työnkululle.

Käsitteellinen arkkitehtuuri Dbias-työnkululle.

Tutkijoiden mukaan Dbias on ensimmäinen todella konfiguroitavissa oleva harhantunnistuspaketti, toisin kuin valmiit kokoonpanoprojektit, jotka ovat tähän mennessä luonnehtineet tätä Natural Language Processingin (NLP) alasektoria.

- uusi paperi on otsikko Lähestymistapa oikeudenmukaisuuden varmistamiseksi uutisartikkeleissa, ja tulee avustajilta Toronton yliopistosta, Toronto Metropolitan Universitystä, ympäristöresurssien hallinnasta Bangaloresta, DeepBlue Academy of Sciencesista Kiinasta ja Sydneyn yliopistosta.

Menetelmä

Ensimmäinen moduuli Dbiasissa on Bias Detection, joka hyödyntää DistilBERT paketti – erittäin optimoitu versio Googlen melko koneintensiivisestä versiosta BERTI. Projektia varten DistilBERT hienosäädettiin Media Bias Annotationissa (MBIC) tietojoukko.

MBIC koostuu uutisartikkeleista useista medialähteistä, mukaan lukien Huffington Post, USA Today ja MSNBC. Tutkijat käyttivät tietojoukon laajennettua versiota.

Vaikka alkuperäiset tiedot olivat joukkolähdetyöntekijöiden huomautuksia (menetelmä, joka tuli tuleen vuoden 2021 lopulla), uuden paperin tutkijat pystyivät tunnistamaan muita merkitsemättömiä harhaa aineistosta ja liittämään ne manuaalisesti. Tunnistetut rotuun, koulutukseen, etnisyyteen, kieleen, uskontoon ja sukupuoleen liittyvät ennakkoluulot.

Seuraava moduuli, Bias-tunnistus, käyttää Nimeltään entiteetin tunnustaminen (NER) yksilöimään puolueelliset sanat syöttötekstistä. Lehdessä sanotaan:

"Esimerkiksi uutinen "Älä osta pseudotieteellistä hypeä tornadoista ja ilmastonmuutoksesta" on luokiteltu puolueelliseksi edeltävällä harhantunnistusmoduulilla, ja puolueellinen tunnistusmoduuli voi nyt tunnistaa termin "pseudotieteellinen hype". puolueellisena sanana.'

NER ei ole erityisesti suunniteltu tähän tehtävään, mutta sitä on käytetty ennen harhatunnistukseen, erityisesti a 2021-projekti Durhamin yliopistosta Iso-Britanniasta.

Tässä vaiheessa tutkijat käyttivät Roberta yhdistettynä SpaCy English Transformer NER -putkilinjaan.

Seuraava vaihe, Bias Masking, sisältää uuden moninaamion tunnistetuista harhasanoista, joka toimii peräkkäin useiden tunnistettujen harhasanojen tapauksessa.

Ladattu kieli korvataan pragmaattisella kielellä Dbiasin kolmannessa vaiheessa. Huomaa, että "suuttaminen" ja "käyttäminen" tarkoittavat samaa toimintaa, vaikka ensimmäistä pidetään pilkallisena.

Ladattu kieli korvataan pragmaattisella kielellä Dbiasin kolmannessa vaiheessa. Huomaa, että "suuttaminen" ja "käyttäminen" tarkoittavat samaa toimintaa, vaikka ensimmäistä pidetään pilkallisena.

Tarvittaessa palaute tästä vaiheesta lähetetään takaisin liukuhihnan alkuun lisäarviointia varten, kunnes sopiva määrä vaihtoehtoisia ilmaisuja tai sanoja on luotu. Tässä vaiheessa käytetään peitettyä kielen mallintamista (Verkostomarkkinointi) a:n määrittämiä linjoja pitkin 2021 yhteistyötä Facebook Researchin johdolla.

Normaalisti MLM-tehtävä peittää 15 % sanoista satunnaisesti, mutta Dbias-työnkulku sen sijaan käskee prosessia ottamaan tunnistetut puolueelliset sanat syötteeksi.

Arkkitehtuuri toteutettiin ja koulutettiin Google Colab Prossa NVIDIA P100:lla, jossa oli 24 Gt VRAM-muistia 16:n eräkoolla, käyttämällä vain kahta etikettiä (puolueellinen ja puolueeton).

Testit

Tutkijat testasivat Dbiasta viittä vertailukelpoista lähestymistapaa vastaan: LG-TFIDF kanssa Logistinen regressio ja TfidfVektorizer (TFIDF) sanan upotukset; LG-ELMO; MLP-ELMO (syötettävä keinotekoinen hermoverkko, joka sisältää ELMO-upotuksia); BERT; ja RoBERTa.

Testeissä käytetyt mittarit olivat tarkkuus (ACC), tarkkuus (PREC), palautus (Rec) ja F1-pisteet. Koska tutkijoilla ei ollut tietoa yhdestäkään olemassa olevasta järjestelmästä, joka voisi suorittaa kaikki kolme tehtävää yhdessä putkessa, kilpailevat puitteet luopuivat arvioimalla vain Dbiasin ensisijaisia ​​tehtäviä - harhan havaitsemista ja tunnistusta.

Tulokset Dbias-kokeista.

Tulokset Dbias-kokeista.

Dbias onnistui ylittämään tulokset kaikista kilpailevista kehyksistä, mukaan lukien ne, joilla on raskaampi käsittely

Paperissa todetaan:

"Tulos osoittaa myös, että syvät hermosolut voivat yleensä ylittää perinteiset upotusmenetelmät (esim. TFIDF) harhaluokitustehtävässä. Tämän osoittaa syvän hermoverkkojen upotusten (eli ELMO) parempi suorituskyky verrattuna TFIDF-vektorisaatioon, kun sitä käytetään LG:n kanssa.

"Tämä johtuu luultavasti siitä, että syvät hermosolut voivat vangita paremmin tekstin sanojen kontekstin eri yhteyksissä. Syvät hermosolut ja syvähermomenetelmät (MLP, BERT, RoBERTa) toimivat myös paremmin kuin perinteinen ML-menetelmä (LG).'

Tutkijat huomauttavat myös, että muuntaja-pohjaiset menetelmät ovat parempia kuin kilpailevat menetelmät harhatunnistuksessa.

Lisätestissä vertailtiin Dbiasia ja SpaCy Core Webin eri makuja, mukaan lukien core-sm (pieni), core-md (keskikokoinen) ja core-lg (suuri). Dbias pystyi johtamaan hallitusta myös näissä kokeissa:

Tutkijat päättelevät toteamalla, että harhantunnistustehtävät osoittavat yleensä parempaa tarkkuutta suuremmissa ja kalliimmissa malleissa, mikä johtuu – he spekuloivat – parametrien ja datapisteiden lisääntymisestä. He huomauttavat myös, että tulevan työn tehokkuus tällä alalla riippuu suuremmista ponnisteluista korkealaatuisten tietokokonaisuuksien merkitsemiseksi.

Metsä ja Puut

Toivottavasti tällainen hienojakoinen harhaanjohtamisprojekti sisällytetään lopulta puolueellisuutta etsiviin kehyksiin, jotka pystyvät ottamaan vähemmän likinäköisen näkemyksen ja ottamaan huomioon, että minkä tahansa tietyn tarinan kattamisen valinta on itsessään puolueellinen teko, joka voi mahdollisesti olla johtuen muustakin kuin vain raportoiduista katselutilastoista.

 

Julkaistu ensimmäisen kerran 14.