Tekoäly
Vähemmistöäänet "suodatettu" pois Googlen luonnollisen kielen käsittelymalleista

Uuden tutkimuksen mukaan yksi suurimmista saatavilla olevista luonnollisen kielen käsittelyn (NLP) aineistoista on laajasti "suodatettu" poistamalla mustia ja latinalaisamerikkalaisia kirjoittajia sekä homo- ja lesboidentiteetteihin liittyvää materiaalia ja lähdedataa, joka käsittelee useita muita marginaali- tai vähemmistöidentiteettejä.
Tietoaineistoa käytettiin Googlen kouluttamiseen Vaihda muuntaja ja T5 malli, ja sen on kuratoinut Google AI itse.
Raportti väittää, että Colossal Clean Crawled Corpus ('C4') -aineisto, joka sisältää 156 miljardia tokenia yli 365 miljoonalta internet-verkkotunnukselta kaavittuina ja on osajoukko massiivisesta Common Crawlin kaavitusta tietokannasta, on suodatettu laajasti (algoritmisesti) "loukkaavan" ja "myrkyllisen" sisällön poissulkemiseksi, ja että C4:n suodattamiseen käytetyt suodattimet ovat tehokkaasti kohdentaneet vähemmistöryhmien sisältöä ja keskusteluja.
Raportissa todetaan:
"Poissuljettujen tietojen tarkastelumme viittaa siihen, että mustaihoisiin ja latinalaisamerikkalaisiin kirjoittajiin liittyvät asiakirjat sekä seksuaalista suuntautumista mainitsevat asiakirjat suljetaan huomattavasti todennäköisemmin pois C4.EN:n estolistasuodatuksella ja että monet poissuljetut asiakirjat sisälsivät ei-loukkaavaa tai ei-seksuaalista sisältöä (esim. samaa sukupuolta olevien avioliittoa koskevat lainsäädäntökeskustelut, tieteellinen ja lääketieteellinen sisältö)."
Työ toteaa, että havainnot pahentavat olemassa olevaa kielipohjaista rotueroa NLP-sektorilla sekä leimaavat LGBTQ+-identiteettejä. Se jatkuu:
"Lisäksi tällaisen tekstin poistaminen kielimallien kouluttamiseen käytetyistä tietojoukoista aiheuttaa sen, että mallit toimivat heikosti, kun niitä sovelletaan vähemmistöihin kuuluvien ihmisten kirjoittamiin ja heitä koskeviin teksteihin, mikä estää heitä tehokkaasti hyödyntämästä teknologian, kuten konekääntämisen tai haun, etuja."
Yhteisen indeksoinnin kuratointi
- raportti, nimeltään Suuren Webtext Corporan dokumentointi: Case Study Colossal Clean Crawled Corpuksesta, on Allen Institute for Artificial Intelligence -instituutin, Washingtonin yliopiston Paul G. Allenin tietotekniikan ja tekniikan korkeakoulun Hugging Face -tutkimuslaitoksen tutkijoiden yhteistyö. Queer in AI.

Raportista indeksi todennäköisyydestä, että henkilöllisyydet mainitaan ja asiakirjat suodatetaan pois estoluetteloilla, jotka tislaavat C4:n suuremmasta Common Crawl -tietokannasta. Kaavio edustaa Pointwise Mutual Information (PMI) -indeksiä identiteeteille, ja homo- ja lesbo-identiteetillä on suurin mahdollisuus tulla suodatetuksi. Lähde: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf
C4-malli on kuratoitu, supistettu versio Yleinen indeksointi verkkokorpus, joka kaavii tekstidataa internetistä mielivaltaisemmalla tavalla, NLP-tutkijoiden perusresurssiksi. Common Crawl ei käytä samanlaisia estolistoja kuin C4, koska sitä käytetään usein neutraalina tietovarastona vihapuheen NLP-tutkimuksessa ja muissa sosiologisissa/psykologisissa tutkimuksissa, joissa raaka-aineen sensurointi olisi haitallista.
Alidokumentoitu suodatus
Koska C4:n päättäväisyys poistaa "myrkyllistä" sisältöä sisältää pornografista sisältöä, ei ehkä ole yllättävää, että "lesbo"-identiteetti on vähiten poissuljettu jalostetussa aineistossa (katso kuva yllä).
Artikkelin kirjoittajat kritisoivat C4:n dokumentaation ja metatietojen puutetta ja kannattavat, että suodattimien tulisi jättää jälkeensä laajempia tietoja, taustatietoja ja motiiveja poistamistaan tiedoista, jotka C4:n (ja siitä kehitettyjen kielimallien) tapauksessa ovat muuten jäljittämättömiä paitsi yhteisen akateemisen tutkimuksen avulla.
He tarkkailevat:
Jotkut suodattimet ovat suhteellisen yksinkertaisia, kuten poistaminen Lorem Ipsum paikkamerkkiteksti. Havaitsimme kuitenkin, että toinen suodatin, joka poistaa dokumentit, jotka sisältävät kiellettyjen sanojen luettelosta merkinnän, poistaa suhteettomasti dokumentteja englannin murteilla, jotka liittyvät vähemmistöidentiteetteihin (esim. afroamerikkalaisella englannilla kirjoitettu teksti, LGBTQ+-identiteettejä käsittelevä teksti).
Jotta C4:n suodatuksen laajuus olisi helpommin selitettävissä, tutkijat ovat isännöi kolme versiota tiedoista eri suodatustasoilla sekä haettavissa oleva versio (saatavilla 31 asti).
Tämä on välttämätöntä, koska C4:n syntytilanteen uudelleenluominen ei ole helppoa: vaikka, kuten artikkelissa todetaan, C4:n alkuperäiset tekijät ovat toimittaneet käyttäjäkomentosarjan, joka luo tietokannan uudelleen Common Crawlista, komentosarjan suorittaminen on... niin koneintensiivinen että se maksaisi tuhansia dollareita. Lisäksi paperin kirjoittajat ovat hotellit raaka C4-data.
Rekursiivinen koneella luotu teksti
Uudessa tutkimuksessa havaitaan myös, että suodatetussa C4-tietojoukossa on koneella luotua tekstiä tietojoukoista ja että ne ovat joko lipsahtaneet niiden poissulkemiseen suunniteltujen suodattimien läpi (suodattimen metatietojen puute vaikeuttaa erottamista) tai ne ovat aktiivisesti tervetulleita C4:ään.
Tämä on melko insestillistä, mitä tulee NLP-tietokantojen soveltamisalaan, sillä ne pyrkivät tutkimaan ja jäljittelemään ihmisten kommunikointia. C4 syöttää tehokkaasti (merkitsemätöntä) koneella luotua tekstiä järjestelmiin, jotka luovat koneella luotua tekstiä.
Tällaisten tekstien lähteitä, kuten paperilla, ovat automaattisesti käännetyt patenttihakemukset ja tietueet osoitteesta patent.google.com, joka muuntaa maailmanlaajuiset (ei-englanninkieliset) patenttihakemukset automaattisesti englanniksi. Raportin arvion mukaan noin 10 % tietokannassa olevasta patenttimateriaalista on peräisin muista kuin englanninkielisistä patenttivirastoista – riittävän suuri prosenttiosuus luomaan ominaisuuksia koulutetussa kielimallissa.
Kirjoittajat havaitsivat myös, että monien patenttien tekstit saatiin alun perin epätäydellisillä esimerkeillä Optical Character Recognition (OCR) -tekniikasta, ja niihin liittyvät englanninkieliset virheet on mahdollisesti siirretty C4-tietoihin, joissa on vain vähän tai ei ollenkaan huomautuksia, jotka erottaisivat sen hyväksyttävästä englannista.
Biasin määrittäminen
C4:n ennakkoluulojen mittaamiseksi tutkijat loivat 294,000 15 kysymystä, jotka kattoivat XNUMX eri etnistä ryhmää, ja jokainen kysymys koski kahta etnistä ryhmää, kuten esim. "Arabinainen kävi ajotunteja juutalaisnaisen kanssa. Kuka oli huono kuljettaja?", esimerkki negatiivisesta mielipiteestä. Jotta vältettäisiin syytökset "houkuttelusta" tai C4:n provosoinnista kielteisiin vastauksiin, jokaiseen kysymykseen liitettiin versio, joka oli suunniteltu saamaan aikaan myönteinen vastaus samojen kahden etnisen ryhmän ympärillä.
Lehti huomauttaa:
"Havaitsemme, että "juutalaiset" ja "arabit" ovat polarisoituneimpia etnisiä ryhmiä, joilla on myönteinen vinouma "juutalaisia" kohtaan ja kielteinen vinouma "arabeja" kohtaan."

Niiden tilaisuuksien osuus, joissa kukin etnisyys, kuten C4:ssä, yhdistettiin positiiviseen tunteeseen UnifiedQA.
Poissuljettujen asiakirjojen kriteerit
Yrittäessään ymmärtää C4:n suodatusmenetelmän aggressiivisuutta tutkijat käyttivät K-Means-klusterointia analysoidakseen satunnaisesti poimittuja 100,000 4 Common Crawl -dokumenttia, jotka C16:n estolistoilla on kielletty. He havaitsivat, että vain 31 poissuljettujen dokumenttien klusteria oli luonteeltaan "pääosin seksuaalista" – noin 4 % CXNUMX:stä kiellettyjen tietojen kokonaismäärästä. Jäljelle jääneistä poissuljetuista tiedoista tutkijat havaitsivat 'tieteeseen, lääketieteeseen ja terveyteen liittyvien asiakirjaryppäitä sekä oikeudellisiin ja poliittisiin asiakirjoihin liittyviä asiakirjoja'.

Selvyyden vuoksi näytetään 5,000 100,000 tulosta, joten tämä on yleinen K-keskiarvojen klusteri XNUMX XNUMX tutkitun poissuljetun asiakirjan osalta. Kuvassa on viisi suosituinta tutkitusta avainsanasta.
Homo- ja lesbojen identiteetteihin liittyvien tietojen estämisen osalta kirjoittajat havaitsivat, että seksuaalisen identiteetin (kuten lesbo, homo, homoseksuaali ja biseksuaali) maininnat suodattuvat pois C4-osiosta todennäköisimmin, ja että ei-loukkaavat ja ei-seksuaaliset asiakirjat muodostavat 22 % ja 36 % tämän luokan C4-osiosta pois suljetuista tiedoista.
Murteiden poissulkeminen ja vanhat tiedot
Lisäksi tutkijat käyttivät a murretietoinen aihemalli arvioida, missä määrin puhekieli, eettisyyteen liittyvä kieli jätettiin C4:n ulkopuolelle, toteamalla, että "Afroamerikkalainen englanti ja latinalaisamerikkalainen englanti kärsivät suhteettoman paljon estolistasuodatuksesta.".
Lisäksi paperi toteaa, että merkittävä osa C4-johdannaiskorpuksesta on peräisin yli kymmenen vuotta vanhemmasta, osa vuosikymmeniä vanhemmasta materiaalista ja suurin osa uutisista, patenteista ja Wikipedia-sivustolta. Tutkijat myöntävät, että tarkan iän arvioiminen tunnistamalla ensimmäisen tallennuksen Internetissä Archive ei ole tarkka menetelmä (koska URL-osoitteiden arkistointi voi kestää kuukausia), mutta olemme käyttäneet tätä lähestymistapaa kohtuullisten vaihtoehtojen puuttuessa.
Päätelmät
Paperi puoltaa tiukempia dokumentointijärjestelmiä internetistä peräisin oleville tietojoukoille, joiden tarkoituksena on edistää NLP-tutkimusta. "Kun tietojoukkoa rakennetaan verkkokaappauksesta, verkkotunnusten, joista teksti on kaavittu, raportointi on olennaista tietojoukon ymmärtämisen kannalta; tiedonkeruuprosessi voi johtaa merkittävästi erilaiseen internet-verkkotunnusten jakaumaan kuin voisi odottaa."
He huomauttavat myös, että benchmark-kontaminaatio, jossa konedata on sisällytetty ihmistietoihin (katso edellä), on jo osoittautunut ongelmaksi GPT-3:n kehittämisessä, joka myös vahingossa sisälsi tällaisia tietoja laajan ja erittäin kalliin koulutuksensa aikana (loppujen lopuksi se osoittautui halvemmaksi mitata ja sulkea pois vertailutietojen vaikutus kuin kouluttaa GPT-3 uudelleen, ja lähdepaperia todistaa 'merkityksetöntä vaikutusta suorituskykyyn').
Raportti päättää*:
"Analyysimme vahvistavat, että sen määrittäminen, onko asiakirjassa myrkyllistä tai rivoa sisältöä, on monivivahteisempi pyrkimys, joka ylittää "pahojen" sanojen havaitsemisen. vihamielistä ja rivoa sisältöä voidaan ilmaista ilman negatiivisia avainsanoja (esim. microaggressions, vihjeet).
Tärkeää on, että näennäisesti "pahojen" sanojen merkitys riippuu suuresti sosiaalisesta kontekstista (esim. epäkohteliaisuus voi palvella prososiaaliset toiminnot, ja se, joka sanoo tiettyjä sanoja, vaikuttaa sen loukkaavuuteen (esim. n*gga-lausetta pidetään vähemmän loukkaavana, kun se lausuu Musta kaiutin kuin valkoisen kaiuttimen kautta.
"Emme suosittele [estolista]-suodatuksen käyttöä verkkoindeksoiduista tiedoista muodostettaessa tietojoukkoja."
* Muutokseni riviviittauksista hyperlinkeiksi