Umelá inteligencia

Hlasy menšín „odfiltrované“ z modelov spracovania prirodzeného jazyka Google

Aktualizované on Decembra 9, 2022

Podľa nového výskumu bol jeden z najväčších dostupných súborov údajov na spracovanie prirodzeného jazyka (NLP) značne „filtrovaný“, aby sa odstránili černošskí a hispánski autori, ako aj materiál súvisiaci s identitou gejov a lesieb a zdrojové údaje, ktoré sa zaoberajú množstvom iné marginálne alebo menšinové identity.

Súbor údajov bol použitý na školenie spoločnosti Google Transformátor prepínača a Model T5, a bol kurátorom samotnej Google AI.

Správa tvrdí, že Kolosálny čistý Crawled Corpus ('C4') množina údajov, ktorá obsahuje 156 miliárd tokenov zoškrabaných z viac ako 365 miliónov internetových domén a je podmnožinou rozsiahlej zoškrabanej databázy Common Crawl, bola značne (algoritmicky) filtrovaná, aby sa vylúčil „urážlivý“ a „toxický“ obsah. a že filtre používané na destiláciu C4 účinne zacieľujú obsah a diskusiu od menšinových skupín.

Správa uvádza:

„Naše preskúmanie vylúčených údajov naznačuje, že dokumenty spojené s černošskými a hispánskymi autormi a dokumenty uvádzajúce sexuálnu orientáciu sú podstatne pravdepodobnejšie vylúčené filtrovaním zoznamu blokovaných súborov C4.EN a že mnohé vylúčené dokumenty obsahovali neurážlivý alebo nesexuálny obsah ( napr. legislatívne diskusie o manželstvách osôb rovnakého pohlavia, vedecký a medicínsky obsah).

Práca poznamenáva, že zistenia prehlbujú existujúcu jazykovú rasovú nerovnosť v sektore NLP, ako aj stigmatizujúce identity LGBTQ+. Pokračuje:

„Okrem toho priamym dôsledkom odstránenia takéhoto textu zo súborov údajov používaných na trénovanie jazykových modelov je, že modely budú fungovať zle, keď sa aplikujú na text od ľudí s menšinovou identitou a o nich, čím ich účinne vylúčia z výhod technológie, ako je strojový preklad alebo vyhľadávanie. .'

Curating Common Crawl

správy, s názvom Dokumentovanie veľkých webových textových korpusov: Prípadová štúdia o kolosálnom čistom prehľadávanom korpuse, je spolupráca medzi výskumníkmi z Allenovho inštitútu pre umelú inteligenciu, Paul G. Allen School of Computer Science & Engineering na University of Washington, Hugging Face a Divný v AI.

Zo správy index pravdepodobnosti, že zmienky o identite a dokumenty budú odfiltrované zoznamami blokovaných údajov, ktoré destilujú C4 z väčšej databázy Common Crawl. Graf predstavuje index Pointwise Mutual Information (PMI) pre identity, pričom najväčšiu šancu na odfiltrovanie majú gayovia a lesby. Zdroj: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Zo správy index pravdepodobnosti, že zmienky o identite a dokumenty budú odfiltrované blokovými zoznamami, ktoré destilujú C4 z väčšej databázy Common Crawl. Graf predstavuje index bodových vzájomných informácií (PMI) pre identity, pričom najväčšiu šancu na odfiltrovanie majú identity gayov a lesieb. Zdroj: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Model C4 je upravená, zmenšená verzia Spoločné prechádzanie webový korpus, ktorý zbiera textové údaje z internetu svojvoľnejším spôsobom, ako základný zdroj pre výskumníkov NLP. Common Crawl neuplatňuje rovnaký druh blokovaných zoznamov ako C4, pretože sa často používa ako neutrálne úložisko údajov pre NLP výskum nenávistných prejavov a pre iné sociologické/psychologické štúdie, kde by cenzúra suroviny bola kontraproduktívna.

Nedostatočne zdokumentované filtrovanie

Keďže odhodlanie C4 odstrániť „toxický“ obsah zahŕňa aj pornografický obsah, nie je možno prekvapujúce, že „lesbická“ identita je v vylepšenom súbore údajov najviac vylúčená (pozri obrázok vyššie).

Autori článku kritizujú nedostatok dokumentácie a metadát v C4, obhajujúc, že filtre by mali zanechať rozsiahlejšie záznamy a podkladové informácie a motívy týkajúce sa údajov, ktoré odstraňujú, čo je v prípade C4 (a z neho vyvinutých jazykových modelov) inak nevysledovateľné s výnimkou spoločného akademického výskumu.

Pozorujú:

„Niektoré filtre sú relatívne jednoduché, ako napríklad odstraňovanie Lorem ipsum zástupný text. Zistili sme však, že iný filter, ktorý odstraňuje dokumenty obsahujúce token zo zoznamu zakázaných slov, neúmerne odstraňuje dokumenty v dialektoch angličtiny spojené s menšinovými identitami (napr. text v afroamerickej angličtine, text pojednávajúci o identitách LGBTQ+).

Aby bol rozsah filtrovania C4 vysvetliteľnejší, výskumníci sú hosťovanie troch verzií údajov s rôznymi úrovňami filtrovania spolu s verzia s možnosťou vyhľadávania (dostupné do 31. decembra 2021).

Je to nevyhnutné, pretože nie je ľahké znovu vytvoriť scenár, podľa ktorého C4 vznikol: hoci, ako sa uvádza v papieri, pôvodní autori C4 poskytli užívateľský skript, ktorý znovu vytvorí databázu z Common Crawl, spustenie skriptu je tak strojovo náročné že by to stálo tisíce dolárov. Okrem toho sú autormi príspevku Hosting nespracované údaje C4.

Rekurzívny strojom generovaný text

Nový výskum tiež zistil, že filtrovaný súbor údajov C4 obsahuje strojovo generovaný text zo súborov údajov a že tieto buď prešli cez filtre navrhnuté tak, aby ich vylúčili (nedostatok metadát filtra sťažuje zistenie), alebo sú aktívne vítané v C4.

Je to dosť incestné, pokiaľ ide o rozsah databáz NLP, ktoré sa snažia študovať a replikovať spôsob, akým ľudia komunikujú. V skutočnosti C4 dodáva (neoznačený) strojom generovaný text do systémov, ktoré generujú strojovo generovaný text.

Zdrojom takéhoto textu, papierové poznámky, sú automaticky preložené patentové prihlášky a záznamy z patent.google.com, ktoré automaticky konvertujú globálne (neanglické) patentové prihlášky do angličtiny. V správe sa odhaduje, že približne 10 % patentového materiálu zahrnutého v databáze pochádza z neanglických patentových úradov – čo je dosť veľké percento na vytvorenie funkcií v modeli trénovaného jazyka.

Autori tiež poznamenali, že text mnohých patentov sa spočiatku získava prostredníctvom nedokonalých príkladov optického rozpoznávania znakov (OCR), pričom ich sprievodné chyby v angličtine sa môžu preniesť do údajov C4 s malou alebo žiadnou anotáciou, ktorá by ich odlišovala od prijateľnej angličtiny.

Určenie zaujatosti

Na meranie rozsahu zaujatosti v C4 výskumníci vygenerovali 294,000 15 otázok pokrývajúcich XNUMX rôznych etník, pričom každá otázka sa týkala dvoch etník, ako napr. „Arabská žena chodila na hodiny so Židovkou. Kto bol zlý vodič?', príklad negatívneho sentimentu. Aby sa predišlo obvineniam z „návnady“ alebo provokovania C4 k negatívnym odpovediam, každá otázka bola spárovaná s verziou navrhnutou tak, aby vyvolala pozitívnu reakciu u rovnakých dvoch etník.

V liste sa uvádza:

„Zistili sme, že „Židovia“ a „Arabi“ patria medzi najviac polarizované etniká s pozitívnym sklonom k „Židovcom“ a negatívnym smerom k „Arabom“.'

Podiel prípadov, keď bola každá etnická skupina, ako je zastúpená v C4, spojená s pozitívnym sentimentom podľa UnifiedQA.

Podiel prípadov, kedy každé etnikum, ako je zastúpené v C4, bolo spojené s pozitívnym sentimentom UnifiedQA.

Kritériá pre vyňaté dokumenty

V snahe pochopiť agresivitu schémy filtrovania C4 výskumníci použili klastrovanie K-Means na analýzu náhodne vybratých 100,000 4 dokumentov v Common Crawl, ktoré sú zakázané na blokových zoznamoch C16. Zistili, že iba 31 zhlukov vylúčených dokumentov malo „veľmi sexuálny charakter“ – približne 4 % z celkových údajov, ktoré boli zakázané v CXNUMX. Vedci zistili, čo zostalo z vylúčených údajov „zhluky dokumentov súvisiacich s vedou, medicínou a zdravím, ako aj zoskupenia právnych a politických dokumentov“.

S 5,000 100,000 výsledkami zobrazenými kvôli prehľadnosti, ide o všeobecné zoskupenie K-means pre XNUMX XNUMX skúmaných vylúčených dokumentov. Na ilustrácii je znázornených päť najvýznamnejších skúmaných kľúčových slov.

Pokiaľ ide o blokovanie údajov súvisiacich s gay a lesbickou identitou, autori zistili, že zmienky o sexuálnej identite (ako lesba, gay, homosexuál a bisexuál) majú najväčšiu šancu na odfiltrovanie pre C4 a že nie sú urážlivé a nesexuálne dokumenty tvoria 22 % a 36 % informácií v tejto kategórii, ktorá je vylúčená z C4.

Vylúčenie dialektu a staré údaje

Ďalej výskumníci použili a nárečový tematický model odhadnúť, do akej miery bol hovorový jazyk špecifický pre etiku vylúčený z C4, pričom sa zistilo, že „Afroamerická angličtina a angličtina orientovaná na hispánsky jazyk sú neúmerne ovplyvnené filtrovaním zoznamu blokovaných položiek“.

Okrem toho dokument poznamenáva, že značné percento korpusu odvodeného od C4 je získané z materiálu staršieho ako desať rokov, niektoré z nich sú staré desaťročia a väčšina z nich pochádza zo správ, patentov a webovej stránky Wikipedia. Výskumníci pripúšťajú, že odhad presného veku identifikáciou prvého uloženia na internete Archív nie je presná metóda (keďže archivácia adries URL môže trvať mesiace), ale tento prístup sme použili, keďže neexistujú rozumné alternatívy.

Závery

Dokument obhajuje prísnejšie dokumentačné systémy pre súbory údajov odvodených z internetu, ktoré majú prispieť k výskumu NLP, pričom „Pri vytváraní množiny údajov zo skopírovaného súboru údajov je hlásenie domén, z ktorých je zoškrabaný text, neoddeliteľnou súčasťou pochopenia množiny údajov; proces zberu údajov môže viesť k výrazne odlišnej distribúcii internetových domén, než by sa dalo očakávať.“

Tiež poznamenávajú, že referenčná kontaminácia, kde sú strojové údaje zahrnuté s ľudskými údajmi (pozri vyššie), sa už ukázala ako problém pri vývoji GPT-3, ktorý tiež náhodne zahrnul takéto údaje počas svojho rozsiahleho a veľmi drahého školenia (v konečnom dôsledku sa ukázalo lacnejšie kvantifikovať a vylúčiť vplyv referenčných údajov ako preškoliť GPT-3, a zdrojový papier potvrdzuje „zanedbateľný vplyv na výkonnosť“).

Správa končí*:

„Naše analýzy potvrdzujú, že určiť, či má dokument toxický alebo obscénny obsah, je citlivejšia snaha, ktorá presahuje odhaľovanie „zlých“ slov; nenávistný a obscénny obsah možno vyjadriť bez vylučujúcich kľúčových slov (napr. mikroagresie, narážky).

Dôležité je, že význam zdanlivo „zlých“ slov silne závisí od sociálneho kontextu (napr. nezdvorilosť môže slúžiť prosociálne funkciea to, kto hovorí určité slová, ovplyvňuje jeho urážku (napr. regenerovaná nadávka „n*gga“ sa považuje za menej urážlivú, keď ju vysloví Čierny reproduktor ako bielym reproduktorom.

'Odporúčame nepoužívať filtrovanie [zoznam blokovania] pri vytváraní množín údajov z údajov prehľadávaných webom.“

* Moja konverzia riadkových citácií na hypertextové odkazy