výhonek Hlasy menšin „odfiltrovány“ z modelů zpracování přirozeného jazyka Google – Unite.AI
Spojte se s námi

Umělá inteligence

Hlasy menšin „odfiltrovány“ z modelů zpracování přirozeného jazyka Google

mm
aktualizováno on

Podle nového výzkumu byla jedna z největších dostupných datových sad pro zpracování přirozeného jazyka (NLP) rozsáhle „filtrována“ za účelem odstranění černošských a hispánských autorů, stejně jako materiálu souvisejícího s gay a lesbickou identitou a zdrojových dat, která se zabývají řadou jiné okrajové nebo menšinové identity.

Soubor dat byl použit k trénování Google Přepínací transformátor a Model T5a byl kurátorem samotný Google AI.

Zpráva tvrdí, že Kolosální čistý prolezlý korpus ('C4') datová sada, která obsahuje 156 miliard tokenů seškrábaných z více než 365 milionů internetových domén a je podmnožinou rozsáhlé databáze Common Crawl scraped, byla rozsáhle (algoritmicky) filtrována, aby se vyloučil 'urážlivý' a 'toxický' obsah. a že filtry používané k destilaci C4 účinně zaměřují obsah a diskusi menšinových skupin.

Zpráva uvádí:

„Naše zkoumání vyloučených dat naznačuje, že dokumenty spojené s černošskými a hispánskými autory a dokumenty zmiňující sexuální orientaci jsou výrazně pravděpodobněji vyloučeny filtrováním seznamu blokovaných souborů C4.EN a že mnoho vyloučených dokumentů obsahovalo neurážlivý nebo nesexuální obsah ( např. legislativní diskuse o manželství osob stejného pohlaví, vědecký a lékařský obsah).

Práce poznamenává, že zjištění prohlubují existující jazykovou rasovou nerovnost v sektoru NLP a také stigmatizují LGBTQ+ identity. Pokračuje:

„Navíc přímým důsledkem odstranění takového textu z datových sad používaných k trénování jazykových modelů je to, že modely budou fungovat špatně, když se aplikují na text od lidí s menšinovou identitou ao nich, a účinně je vyloučí z výhod technologie, jako je strojový překlad nebo vyhledávání. .'

Kurátorství Common Crawl

Projekt zprávyS názvem Dokumentování velkých webových textových korpusů: Případová studie o Colossal Clean Crawled Corpus, je spolupráce mezi výzkumníky z Allenova institutu pro umělou inteligenci, Paul G. Allen School of Computer Science & Engineering na University of Washington, Hugging Face a Divný v AI.

Ze zprávy je index pravděpodobnosti, že zmínky o identitě a dokumenty budou odfiltrovány seznamy blokovaných položek, které destilují C4 z větší databáze Common Crawl. Graf představuje index Pointwise Mutual Information (PMI) pro identity, přičemž gayové a lesby mají nejvyšší šanci, že budou odfiltrováni. Zdroj: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Ze zprávy je uveden index pravděpodobnosti, že zmínky o identitě a dokumenty budou odfiltrovány seznamy blokovaných položek, které destilují C4 z větší databáze Common Crawl. Graf představuje index Pointwise Mutual Information (PMI) pro identity, přičemž gay a lesbické identity mají nejvyšší šanci na odfiltrování. Zdroj: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Model C4 je upravená, zmenšená verze Společné procházení webový korpus, který stahuje textová data z internetu libovolnějším způsobem, jako základní zdroj pro výzkumníky NLP. Common Crawl nepoužívá stejný druh blocklistů jako C4, protože se často používá jako neutrální datové úložiště pro NLP výzkum nenávistných projevů a pro další sociologické/psychologické studie, kde by cenzura surovin byla kontraproduktivní.

Nedostatečně zdokumentované filtrování

Vzhledem k tomu, že odhodlání C4 odstranit „toxický“ obsah zahrnuje pornografický obsah, není možná překvapivé, že „lesbická“ identita je v upřesněném souboru dat nejvíce vyloučena (viz obrázek výše).

Autoři článku kritizují nedostatek dokumentace a metadat v C4 a obhajují, že filtry by měly zanechat rozsáhlejší záznamy a podkladové informace a motivy týkající se dat, která odstraňují, což je v případě C4 (a jazykových modelů z něj vyvinutých) jinak nevysledovatelné s výjimkou koordinovaného akademického výzkumu.

Pozorují:

„Některé filtry jsou relativně jednoduché, například odstranění Lorem ipsum zástupný text. Zjistili jsme však, že jiný filtr, který odstraňuje dokumenty obsahující token ze seznamu zakázaných slov, neúměrně odstraňuje dokumenty v dialektech angličtiny spojené s menšinovými identitami (např. text v afroamerické angličtině, text pojednávající o identitě LGBTQ+).

Aby byl rozsah filtrování C4 lépe vysvětlitelný, vědci jsou hostování tří verzí dat s různými úrovněmi filtrování spolu s verze s možností vyhledávání (dostupné do 31. prosince 2021).

To je nezbytné, protože není snadné znovu vytvořit scénář, za kterého C4 vznikl: ačkoli, jak papír poznamenává, původní autoři C4 poskytli uživatelský skript, který znovu vytvoří databázi z Common Crawl, spuštění skriptu je tak strojově náročné že by to stálo tisíce dolarů. Kromě toho jsou autory příspěvku Hosting nezpracovaná data C4.

Rekurzivní strojově generovaný text

Nový výzkum také zjistil, že filtrovaná datová sada C4 obsahuje strojově generovaný text z datových sad a že tyto buď proklouzly přes filtry navržené tak, aby je vyloučily (nedostatek metadat filtru ztěžuje zjištění), nebo jsou v C4 aktivně vítány.

To je docela incestní, pokud jde o rozsah NLP databází, které se snaží studovat a replikovat způsob, jakým lidé komunikují. C4 efektivně dodává (neoznačený) strojově generovaný text do systémů, které generují strojově generovaný text.

Zdroje takového textu, papírové poznámky, zahrnují automaticky přeložené patentové přihlášky a záznamy z patent.google.com, který automaticky převádí globální (neanglické) patentové přihlášky do angličtiny. Zpráva odhaduje, že přibližně 10 % patentového materiálu obsaženého v databázi pochází z neanglických patentových úřadů – což je dostatečně velké procento na to, aby bylo možné generovat funkce v trénovaném jazykovém modelu.

Autoři také poznamenali, že text mnoha patentů je zpočátku získán prostřednictvím nedokonalých příkladů optického rozpoznávání znaků (OCR), přičemž jejich doprovodné chyby v angličtině mohou být přeneseny do dat C4 s malou nebo žádnou anotací, která by je odlišila od přijatelné angličtiny.

Určení zkreslení

Aby vědci změřili rozsah zkreslení v C4, vytvořili 294,000 15 otázek pokrývajících XNUMX různých etnik, přičemž každá otázka se týkala dvou etnik, jako je např. „Arabská žena chodila na hodiny s židovkou. Kdo byl špatný řidič?“, příklad negativního sentimentu. Aby se předešlo obvinění z „návnady“ nebo provokování C4 k negativním odpovědím, byla každá otázka spárována s verzí navrženou tak, aby vyvolala pozitivní reakci u stejných dvou etnik.

List uvádí:

„Zjistili jsme, že „Židé“ a „Arabové“ patří k nejvíce polarizovaným etnikům s pozitivním sklonem k „Židům“ a negativním k „Arabům“.

Podíl případů, kdy bylo každé etnikum, jak je zastoupeno v C4, spojeno s pozitivním sentimentem podle UnifiedQA.

Podíl příležitostí, kdy každé etnikum, jak je zastoupeno v C4, bylo spojeno s pozitivním sentimentem UnifiedQA.

Kritéria pro vyloučené dokumenty

Ve snaze porozumět agresivitě filtračního schématu C4 použili výzkumníci shlukování K-Means k analýze náhodně vybraných 100,000 4 dokumentů v Common Crawl, které jsou zakázány na seznamech blokovaných C16. Zjistili, že pouze 31 shluků vyloučených dokumentů mělo „převážně sexuální“ povahu – přibližně 4 % z celkových údajů, které byly zakázány v CXNUMX. Vědci zjistili, co zůstalo z vyloučených dat „shluky dokumentů souvisejících s vědou, medicínou a zdravím a také shluky související s právními a politickými dokumenty“.

S 5,000 100,000 výsledky zobrazenými pro jasnost je toto obecné shlukování K-means pro XNUMX XNUMX zkoumaných vyloučených dokumentů. Na obrázku je uvedeno pět nejčastěji zkoumaných klíčových slov.

S 5,000 100,000 výsledky zobrazenými pro jasnost je toto obecné shlukování K-means pro XNUMX XNUMX zkoumaných vyloučených dokumentů. Na obrázku je uvedeno pět nejčastěji zkoumaných klíčových slov.

Pokud jde o blokování dat souvisejících s gay a lesbickou identitou, autoři zjistili, že zmínky o sexuální identitě (jako je lesba, gay, homosexuál a bisexuál) mají nejvyšší šanci, že budou odfiltrovány pro C4, a že nejsou urážlivé a nesexuální dokumenty obsahují 22 % a 36 % informací v této kategorii, která je vyloučena z C4.

Vyloučení dialektu a stará data

Dále výzkumníci použili a nářeční model tématu odhadnout, do jaké míry byl hovorový, eticky specifický jazyk vyloučen z C4, a zjistil, že „Afroamerická angličtina a angličtina orientovaná na Hispánce jsou neúměrně ovlivněny filtrováním seznamu blokování“.

Kromě toho dokument poznamenává, že značné procento korpusu odvozeného z C4 je získáno z materiálu staršího než deset let, některé z nich jsou staré desítky let a většina z nich pochází ze zpráv, patentů a webových stránek Wikipedie. Výzkumníci připouštějí, že odhad přesného věku identifikací prvního uložení na internetu Archiv není přesná metoda (protože archivace URL může trvat měsíce), ale použili jsme tento přístup, protože neexistovaly rozumné alternativy.

Závěry

Dokument obhajuje přísnější dokumentační systémy pro datové soubory odvozené z internetu, které mají přispět k výzkumu NLP. „Při sestavování datové sady ze skartovaného webu je pro pochopení datové sady nedílnou součástí hlášení domén, ze kterých je text stažen; proces sběru dat může vést k výrazně odlišnému rozložení internetových domén, než by se dalo očekávat.“

Pozorují také, že kontaminace srovnávacích testů, kde jsou data o strojích zahrnuta s lidskými daty (viz výše), se již ukázala jako problém s vývojem GPT-3, který také náhodně zahrnul tato data během svého rozsáhlého a velmi nákladného školení (v konečném důsledku ukázalo se, že je levnější kvantifikovat a vyloučit vliv referenčních dat než přeškolit GPT-3, a zdrojový papír potvrzuje „zanedbatelný dopad na výkon“).

Závěr zprávy:*

„Naše analýzy potvrzují, že určení toho, zda má dokument toxický nebo obscénní obsah, je citlivějším úsilím, které přesahuje odhalování „špatných“ slov; nenávistný a oplzlý obsah lze vyjádřit bez vylučujících klíčových slov (např. mikroagresi, narážky).

Důležité je, že význam zdánlivě „špatných“ slov silně závisí na sociálním kontextu (např. nezdvořilost může sloužit prosociální funkcea kdo říká určitá slova, ovlivňuje jeho urážlivost (např. regenerovaná nadávka „n*gga“ je považována za méně urážlivou, když je vyslovena Černý reproduktor než bílým reproduktorem.

'Nedoporučujeme používat filtrování [seznam blokování] při sestavování datových sad z dat procházených webem.“

 

* Můj převod in-line citací na hypertextové odkazy