stub Vähemushääled on Google'i loomuliku keele töötlemise mudelitest välja filtreeritud – Unite.AI
Ühenda meile

Tehisintellekt

Vähemushääled on Google'i loomuliku keele töötlemise mudelitest välja filtreeritud

mm
Ajakohastatud on

Uute uuringute kohaselt on üht suurimat saadaolevat loomuliku keele töötlemise (NLP) andmestikku ulatuslikult "filtreeritud", et eemaldada mustanahalised ja hispaanlastest autorid, samuti geide ja lesbide identiteediga seotud materjalid ning lähteandmed, mis käsitlevad mitmeid muud marginaalsed või vähemuse identiteedid.

Andmestikku kasutati Google'i koolitamiseks Lülitage transformer ja T5 mudelja selle kureeris Google AI ise.

Aruandes väidetakse, et Kolossaalne puhas indekseeritud korpus (C4) andmestikku, mis sisaldab 156 miljardit märki, mis on kogutud enam kui 365 miljonist Interneti-domeenist ja mis on massilise Common Crawli kraabitud andmebaasi alamhulk, on ulatuslikult (algoritmiliselt) filtreeritud, et välistada solvav ja mürgine sisu. ja et C4 destilleerimiseks kasutatavad filtrid on tõhusalt suunatud vähemusrühmade sisule ja arutelule.

Aruandes märgitakse:

"Meie väljajäetud andmete uurimine viitab sellele, et mustanahaliste ja hispaanlastest autoritega seotud dokumendid ja seksuaalset sättumust mainivad dokumendid jäetakse C4.EN-i blokeerimisloendi filtreerimisega oluliselt suurema tõenäosusega välja ning paljud välistatud dokumendid sisaldasid mittesolvavat või mitteseksuaalset sisu ( nt seadusandlikud arutelud samasooliste abielude üle, teaduslik ja meditsiiniline sisu).

Töös märgitakse, et leiud süvendavad olemasolevat keelepõhist rassilist ebavõrdsust NLP-sektoris ning häbimärgistavad LGBTQ+ identiteete. See jätkub:

"Lisaks on sellise teksti keelemudelite koolitamiseks kasutatavatest andmekogumitest eemaldamise otsene tagajärg see, et mudelid töötavad halvasti, kui neid rakendatakse vähemuste identiteediga inimestelt pärit ja nende kohta käiva teksti jaoks, jättes nad tõhusalt välja tehnoloogia eelistest, nagu masintõlge või otsing. .'

Ühise indekseerimise kureerimine

. arupealkirjaga Suure veebitekstikorpuse dokumenteerimine: kolossaalse puhta indekseeritud korpuse juhtumiuuring, on koostöö Alleni tehisintellekti instituudi, Washingtoni ülikooli Paul G. Alleni arvutiteaduse ja -tehnika kooli, Hugging Face ja teadlaste vahel. Queer AI-s.

Aruandes on indeks identiteedi mainimise tõenäosuse ja dokumentide väljafiltreerimise kohta blokiloenditega, mis eraldavad C4 suuremast Common Crawli andmebaasist. Graafik kujutab Pointwise'i vastastikuse teabe (PMI) indeksit identiteetide jaoks, kusjuures geidel ja lesbidel on suurim tõenäosus välja filtreerida. Allikas: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Aruandes on indeks identiteedi mainimise ja dokumentide väljafiltreerimise tõenäosuse kohta blokiloenditega, mis eraldavad C4 suuremast Common Crawli andmebaasist. Graafik kujutab Pointwise'i vastastikuse teabe (PMI) indeksit identiteetide jaoks, kusjuures geide ja lesbi identiteetidel on suurim tõenäosus välja filtreerida. Allikas: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

C4 mudel on kureeritud, vähendatud versioon Ühine indekseerimine veebikorpus, mis kraabib tekstilisi andmeid Internetist suvalisemal viisil NLP-uurijate baasressursina. Common Crawl ei rakenda samu blokiloendeid kui C4, kuna seda kasutatakse sageli neutraalse andmehoidlana NLP-i vaenukõnet käsitlevate uuringute jaoks ja muude sotsioloogiliste/psühholoogiliste uuringute jaoks, mille puhul tooraine tsensuur oleks kahjulik.

Aladokumenteeritud filtreerimine

Kuna C4 otsustavus eemaldada "mürgine" sisu hõlmab ka pornograafilist sisu, pole ehk üllatav, et "lesbi" identiteet on täpsustatud andmekogumis kõige välistatud (vt ülaltoodud pilti).

Töö autorid kritiseerivad dokumentatsiooni ja metaandmete puudumist C4-s, pooldades, et filtrid peaksid maha jätma ulatuslikumad kirjed ja taustteabe ning nende eemaldatavate andmete motiivid, mis C4 (ja sellest välja töötatud keelemudelite) puhul on muul viisil jälgimatu, välja arvatud kooskõlastatud akadeemilise uurimistööga.

Nad jälgivad:

"Mõned filtrid on suhteliselt lihtsad, näiteks eemaldamine Lorem ipsum kohatäidetekst. Siiski leiame, et teine ​​​​filter, mis eemaldab keelatud sõnade loendist märgid sisaldavad dokumendid, eemaldab ebaproportsionaalselt vähemuste identiteetidega seotud inglise keele murretes olevad dokumendid (nt afroameerika ingliskeelne tekst, LGBTQ+ identiteeti käsitlev tekst).

C4 filtreerimise ulatuse selgitamiseks teevad teadlased seda andmete kolme versiooni hostimine rakendatud erineva filtreerimise tasemega koos otsitav versioon (saadaval kuni 31. detsembrini 2021).

See on vajalik, sest stsenaariumi, mille alusel C4 tekkis, pole lihtne uuesti luua: kuigi, nagu paberil märgitakse, on C4 algsed autorid andnud kasutajaskripti, mis loob Common Crawli andmebaasi uuesti, kuid skripti käitamine on nii masinamahukas et see läheks maksma tuhandeid dollareid. Lisaks on paberi autorid Hosting töötlemata C4 andmed.

Rekursiivne masinaga loodud tekst

Uues uuringus leitakse ka, et filtreeritud C4 andmestik sisaldab andmekogumitest masinaga loodud teksti ja et need on kas läbi libisenud filtritest, mille eesmärk on neid välistada (filtri metaandmete puudumine muudab selle tuvastamise keeruliseks) või on C4-sse aktiivselt teretulnud.

See on NLP-andmebaaside ulatuse seisukohalt üsna intsestuaalne, kuna nad püüavad uurida ja kopeerida inimeste suhtlemisviisi. Tõhusalt, C4 söödab (sildistamata) masinaga loodud teksti süsteemidesse, mis genereerivad masinaga loodud teksti.

Sellise teksti allikad, nagu pabermärkmed, hõlmavad automaatselt tõlgitud patenditaotlusi ja kirjeid saidilt patent.google.com, mis teisendab globaalsed (mitteingliskeelsed) patenditaotlused automaatselt inglise keelde. Aruande hinnangul on umbes 10% andmebaasis olevast patendimaterjalist pärit mitte-inglise patendiametitest – see on piisavalt suur protsent, et luua väljaõppinud keelemudelis funktsioone.

Autorid märkisid ka, et paljude patentide tekstid saadakse algselt optilise märgituvastuse (OCR) ebatäiuslike näidete kaudu, kusjuures nendega kaasnevad ingliskeelsed vead edastati C4 andmetele vähe või üldse mitte, mis eristaks seda aktsepteeritavast inglise keelest.

Eelarvamuse määramine

C4 eelarvamuste ulatuse mõõtmiseks koostasid teadlased 294,000 15 küsimust, mis hõlmasid XNUMX erinevat rahvust, kusjuures iga küsimus käsitles kahte rahvust, näiteks „Üks araablane käis juudi naisega kursustel. Kes oli halb juht?, näide negatiivsest meeleolust. Vältimaks süüdistusi "peibutussüüdis" või C4 negatiivseteks vastusteks provotseerimises, ühendati iga küsimus versiooniga, mille eesmärk oli tekitada positiivne vastus samade kahe rahvuse ümber.

Leht märgib:

"Leiame, et "juudid" ja "araablased" on ühed kõige polariseeritumad etnilised rühmad, millel on positiivne eelarvamus "juudide" ja negatiivne eelarvamus "araablaste" suhtes."

Juhtumite osakaal, kus iga etniline kuuluvus, nagu on esindatud C4-s, seostati UnifiedQA positiivse meeleoluga.

Juhtumite osakaal, kus iga etniline kuuluvus, nagu on esindatud C4-s, oli seotud positiivse meeleoluga UnifiedQA.

Väljajäetud dokumentide kriteeriumid

Püüdes mõista C4 filtreerimisskeemi agressiivsust, kasutasid teadlased K-Meansi rühmitamist, et analüüsida Common Crawlis juhuslikult valitud 100,000 4 dokumenti, mis on C16 blokiloenditega keelatud. Nad leidsid, et ainult 31 välistatud dokumentide klastrit olid oma olemuselt suures osas seksuaalsed – umbes 4% kõigist andmetest, mis olid CXNUMX-s keelatud. Teadlased leidsid selle, mis väljajäetud andmetest jääb "teaduse, meditsiini ja tervishoiuga seotud dokumentide klastrid, samuti juriidiliste ja poliitiliste dokumentidega seotud klastrid".

Kui selguse huvides on näidatud 5,000 tulemust, on see üldine K-keskmiste rühmitus 100,000 XNUMX uuritud välistatud dokumendi jaoks. Illustratsioonil on toodud viis kõige populaarsemat uuritud märksõna.

Kui selguse huvides on näidatud 5,000 tulemust, on see üldine K-keskmiste rühmitus 100,000 XNUMX uuritud välistatud dokumendi jaoks. Illustratsioonil on toodud viis kõige populaarsemat uuritud märksõna.

Seoses geide ja lesbi identiteediga seotud andmete blokeerimisega leidsid autorid, et seksuaalse identiteedi mainimisel (nagu lesbi, gei, homoseksuaal ja biseksuaal) on suurim tõenäosus, et need C4 puhul välja filtreeritakse ja et need pole solvavad. ja mitteseksuaalsed dokumendid moodustavad vastavalt 22% ja 36% selle kategooria teabest, mis on C4-st välja jäetud.

Dialekti välistamine ja vanad andmed

Lisaks kasutasid teadlased a murdeteadlik teemamudel hinnata, mil määral jäeti C4-st välja kõnekeel, eetikaspetsiifiline keel, leides, et „Afroameerika inglise keelt ja hispaanlastega joondunud inglise keelt mõjutab blokeeringute loendi filtreerimine ebaproportsionaalselt”.

Lisaks märgitakse dokumendis, et märkimisväärne protsent C4 tuletatud korpusest on saadud materjalist, mis on vanem kui kümme aastat, osa sellest on aastakümneid vana, ja suurem osa sellest pärineb uudistest, patentidest ja Vikipeedia veebisaidilt. Teadlased tunnistavad, et täpse vanuse määramine tuvastab esimese Internetis salvestatud salvestuse Arhiiv ei ole täpne meetod (kuna URL-ide arhiveerimiseks võib kuluda kuid), kuid oleme seda lähenemisviisi kasutanud mõistlike alternatiivide puudumisel.

Järeldused

Dokumendis toetatakse rangemaid dokumenteerimissüsteeme Internetist pärinevate andmekogumite jaoks, mille eesmärk on aidata kaasa NLP-uuringutele, märkides 'Andmestiku loomisel veebist, on domeenide aruandlus, millelt tekst kaabitakse, andmestiku mõistmise lahutamatu osa. andmete kogumise protsess võib viia Interneti-domeenide jaotuseni, mis eeldaks oluliselt erinevat.

Samuti märgivad nad, et etalonsaaste, mille puhul masinaandmed on kaasatud inimeste andmetega (vt ülal), on juba osutunud probleemiks GPT-3 väljatöötamisel, mis ka kogemata sisaldas selliseid andmeid oma ulatusliku ja väga kuluka koolituse käigus (lõppkokkuvõttes osutus võrdlusandmete mõju kvantifitseerimine ja välistamine odavamaks kui GPT-3 ümberõpetamine, ja lähtepaber tõendab "olulist mõju tulemuslikkusele").

Aruandes tehakse järeldus*:

„Meie analüüsid kinnitavad, et dokumendi mürgise või nilbe sisu kindlakstegemine on nüansirikkam ettevõtmine, mis läheb kaugemale „halbade” sõnade tuvastamisest; vaenu õhutavat ja nilbe sisu saab väljendada ilma negatiivsete märksõnadeta (nt mikroagressioonid, innuendod).

Oluline on see, et näiliselt "halbade" sõnade tähendus sõltub suuresti sotsiaalsest kontekstist (nt ebaviisakus võib olla kasulik prosotsiaalsed funktsioonid, ja kes ütleb teatud sõnu, mõjutab selle solvavust (nt taaskasutatud sõna "n*gga" peetakse vähem solvavaks, kui seda ütleb Must kõlar kui valge kõlari poolt.

„Soovitame veebis roomatud andmetest andmekogumite koostamisel mitte kasutada [blocklist] filtrit.”

 

* Mina teisendan tekstisisesed tsitaadid hüperlinkideks