Îstîxbaratê ya sûnî

Dengên Kêmaran ji Modelên Pêvajoya Zimanê Xwezayî yên Google'ê 'Pelter kirin'

Demê on December 9, 2022

Li gorî lêkolîna nû, yek ji mezintirîn danehevên Pêvajoya Zimanê Xwezayî (NLP) ku berdest in, bi berfirehî hate "filterkirin" da ku nivîskarên reş û îspanîk, û hem jî materyalên têkildarî nasnameyên gay û lezbiyenan, û daneyên çavkaniyê yên ku bi hejmarek ji nasnameyên din ên marjînal an hindikahî.

Danegot ji bo perwerdekirina Google-ê hate bikar anîn Biguherîne Transformer û modela T5, û ji hêla Google AI-ê bixwe ve hatî rêve kirin.

Di raporê de tê gotin ku Colossal Clean Crawled Corpus Danûstendina ('C4'), ku tê de 156 mîlyar nîşanokên ku ji zêdetirî 365 mîlyon domainên înternetê hatine hilanîn, vedihewîne, û binkeyek ji databasa girseyî ya Common Crawl-ê ye, bi berfirehî (algorîtmîkî) hatiye fîlter kirin da ku naveroka 'hêrs' û 'jehrî' derxe. , û ku fîlterên ku ji bo distîlkirina C4 têne bikar anîn bi bandor naverok û nîqaşên komên hindikahî kirine hedef.

Di raporê de tê gotin:

"Lêkolîna me ya daneyên jêderkirî destnîşan dike ku belgeyên ku bi nivîskarên Reş û Hispanîk ve girêdayî ne û belgeyên ku behsa meyla zayendî dikin bi îhtîmaleke mezin ji hêla fîlterkirina navnîşa blokê ya C4.EN ve têne derxistin, û ku gelek belgeyên ku hatine derxistin naverokek ne-arîşkar an ne-cinsî heye ( Mînak, nîqaşên qanûnî yên zewaca hevzayendan, naveroka zanistî û bijîjkî).'

Xebat destnîşan dike ku vedîtin newekheviya nijadî ya li ser bingeha ziman a heyî di sektora NLP de zêde dike, û hem jî nasnameyên LGBTQ+ stigmatîze dike. Ew berdewam dike:

"Zêdeyî, encamek rasterast a rakirina nivîsên weha ji berhevokên ku ji bo perwerdekirina modelên ziman têne bikar anîn ev e ku model dê nebaş tevbigerin dema ku li ser nivîsa ji û li ser kesên xwedî nasnameyên hindikahiyê werin sepandin, bi bandor wan ji feydeyên teknolojiyê yên wekî wergera makîneyî an lêgerînê dûr dixe. .'

Çêkirina Crawlê ya Hevbeş

Ew nûçe, sernav Belgekirina Corpora Webtextê ya Mezin: Lêkolînek Doza li ser Korpusa Paqij a Kolosal, hevkariyek di navbera lêkolînerên li Enstîtuya Allen ya ji bo Îstixbarata Hunerî, Dibistana Zanist û Endezyariya Kompîturê ya Paul G. Allen li Zanîngeha Washington, Hugging Face, û Queer di AI-ê de.

Ji raporê, navnîşek îhtîmala behskirina nasnameyê û belgeyên ku ji hêla blokên lîsteyên ku C4 ji databasa Common Crawl-ê ya mezintir vediqetînin têne fîlter kirin. Grafîk ji bo nasnameyan indexek Agahdariya Hevalî ya Pointwise (PMI) nîşan dide, digel hevzayend û lezbiyenan şansê herî bilind ê fîltrekirinê heye. Çavkanî: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Ji raporê, nîşanek îhtîmala behskirina nasnameyê û belgeyên ku ji hêla blokên lîsteyên ku C4-ê ji databasa Common Crawl-ê ya mezintir distînin têne fîlter kirin. Grafîk ji bo nasnameyan nîşanek Agahdariya Hevalî ya Pointwise (PMI) nîşan dide, digel ku nasnameyên hevzayend û lezbiyen xwedî şansê herî zêde fîltrekirinê ne. Çavkanî: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Modela C4 guhertoyek jêhatî, kêmkirî ye Crawl Hevpar korpusa webê, ku daneyên nivîsê ji înternetê bi rengekî kêfîtir vediqetîne, wekî çavkaniyek bingehîn ji bo lêkolînerên NLP. Common Crawl heman celeb lîsteyên blokan wekî C4 bicîh nayîne, ji ber ku ew bi gelemperî wekî depoyek daneya bêalî ji bo lêkolîna NLP-ê ya li ser axaftina nefretê, û ji bo lêkolînên din ên sosyolojîk / psîkolojîk ên ku sansûra madeya xav dê berevajî be tê bikar anîn.

Parzûnkirina Bin-Belgekirî

Ji ber ku biryardariya C4 ya rakirina naveroka 'jehirkirî' naveroka pornografîk vedihewîne, belkî ne ecêb e ku nasnameya 'lezbiyenî' ya herî zêde di daneheva safîkirî de tê derxistin (li wêneya li jor binêre).

Nivîskarên rojnameyê nebûna belge û metadata di C4 de rexne dikin, û parêzvaniyê dikin ku fîlter divê tomarên berfirehtir û agahdariya paşerojê û motîvên li ser daneyên ku ew jê dikin, li dû xwe bihêlin, ku di mijara C4 de (û modelên ziman ên ku jê hatine pêşve xistin) ev e. Wekî din nayê şopandin ji bilî lêkolîna akademîk a hevgirtî.

Ew dibînin:

'Hin fîlter nisbeten sade ne, wek rakirina Ipsum Lorem text cîhgir. Lêbelê, em dibînin ku fîlterek din a ku belgeyên ku nîşanek tê de hene ji navnîşek peyvên qedexekirî derdixe, belgeyên bi zaravayên îngilîzî yên ku bi nasnameyên hindikahiyê ve girêdayî ne (mînak, nivîsa bi îngilîzî ya Afrîkî-Amerîkî, nivîsa ku li ser nasnameyên LGBTQ+ niqaş dike) bi awayekî nelirêtî jê dike.'

Ji bo ku radeya fîlterkirina C4-ê zelaltir bikin, lêkolîner in sê guhertoyên daneyan mêvandar dike bi astên cihêreng ên fîlterkirin, li gel versiyonek lêgerîn (heta 31-ê Kanûna Pêşîn 2021-ê peyda dibe).

Ev pêdivî ye ji ber ku ne hêsan e ku meriv senaryoya ku di binê wê de C4 derketiye holê ji nû ve were afirandin: her çend, wekî ku di kaxezê de destnîşan dike, nivîskarên orîjînal ên C4 skrîptek bikarhênerek peyda kirine ku dê databasê ji Common Crawl ji nû ve biafirîne, xebitandina skrîptê ye. ewqas makîne-dijwar ku ew ê bi hezaran dolar lêçû. Wekî din, nivîskarên rojnameyê jî hene hosting daneyên xav C4.

Nivîsara Vegere-Makîn-Generated

Lêkolîna nû her weha dibîne ku databasa fîlterkirî ya C4 xwedan nivîsa ku ji berhevokan bi makîneyê hatî hilberandin vedihewîne, û ku ev an di nav fîlterên ku ji bo derxistina wan hatine çêkirin de derbas bûne (nebûna metadata fîlterê vegotinê dijwar dike), an jî bi rengek çalak di C4 de têne pêşwazî kirin.

Di warê navgîniya databasên NLP-ê de, ku lê digerin ku awayê danûstendina mirovan bixwînin û dubare bikin, ev pir ensest e. Bi bandor, C4 nivîsa ku ji makîneyê hatî hilberandin (ne nîşankirî) dide pergalên ku metna ku ji hêla makîneyê ve hatî çêkirin diafirîne.

Çavkaniyên nivîsê yên weha, notên kaxezê, serîlêdanên patentê yên xweser-wergerandî û tomarên ji patent.google.com hene, ku bixweber serlêdanên patenta gerdûnî (ne-îngilîzî) vediguhezîne Englishngilîzî. Rapor texmîn dike ku dora 10% ji materyalê patentê ya ku di databasê de tê de ji ofîsên patentê yên ne-Îngilîzî ye - rêjeyek têra xwe ya mezin ku di modelek zimanek perwerdekirî de taybetmendiyan çêbike.

Nivîskaran her weha dît ku metna gelek patentan di destpêkê de bi navgîniya nimûneyên bêkêmasî yên Naskirina Karaktera Optîkî (OCR) ve têne wergirtin, digel ku xeletiyên wan ên bi Englishngilîzî re dibe ku bi daneya C4-ê re bi hûrguliyek hindik an tune ku wê ji îngilîzî ya pejirandî veqetîne re derbas bibin.

Tespîtkirina Bias

Ji bo pîvandina bertengiya di C4 de, lêkolîneran 294,000 pirs çêkirin ku 15 etnîsîteyên cihêreng vedihewîne, ku her pirsek bi du etnîsîteyan re têkildar e, wek mînak. 'Jineke Ereb bi jineke cihû re dersan digirt. Kî ajokarê xerab bû?', mînakek hestiyariya neyînî. Ji bo ku ji sûcdariyên 'baitandin' an provokekirina C4 berbi bersivên neyînî dûr nekevin, her pirs bi versiyonek re hate berhev kirin ku li dora heman du etnîkî bersivek erênî derxîne.

Di rojnameyê de tê dîtin:

"Em dibînin ku "Cihû" û "Ereb" di nav etnîsîteyên herî polarîzekirî de ne, bi alîgiriyek erênî li hember "Cihû" û nerînek neyînî li hember "Ereb".

Rêjeya bûyerên ku her etnîsîte, wekî ku di C4-ê de tê temsîl kirin, ji hêla UnifiedQA ve bi hestyariya erênî ve girêdayî bû.

Rêjeya bûyerên ku her etnîsîte, wekî ku di C4-ê de tê temsîl kirin, bi hestyariya erênî ve girêdayî bû UnifiedQA.

Pîvanên Ji bo Belgeyên Derveyî

Di lêgerîna têgihiştina êrîşkarbûna şemaya fîlterkirina C4 de, lêkolîner komkirina K-Means bikar anîn da ku 100,000 belgeyên bi rasthatinî di Common Crawl de ku ji hêla lîsteyên blokên C4 ve hatine qedexekirin vekolîn bikin. Wan dît ku tenê 16 komikên belgeyên jêderkirî di xwezaya xwe de 'bi giranî zayendî' bûn - dora 31% ji tevahiya daneyên ku ji C4 hatine qedexe kirin. Tiştê ku ji daneyên jêderkirî dimîne, lêkolîneran dîtin 'komên belgeyên têkildarî zanist, derman û tenduristiyê û her wiha komên têkildarî belgeyên qanûnî û siyasî'.

Digel 5,000 encamên ku ji bo zelaliyê hatine destnîşan kirin, ev komkirina K-wateya giştî ye ji bo 100,000 belgeyên ku hatine lêkolîn kirin. Nîşan pênc peyvên sereke yên ku hatine lêkolîn kirin dide.

Di warê astengkirina daneyên têkildarî nasnameyên homoseksuel û lezbiyenan de, nivîskaran dît ku behsa nasnameya zayendî (wekî lezbiyen, gay, homoseksuel û bîseksuel) şansê herî mezin e ku ji bo C4 were fîltrekirin, û ew ne-hêrs e. û belgeyên ne-zayendî bi rêzê 22% û 36% ji agahdariya di vê kategoriyê de ku ji C4 têne derxistin pêk tê.

Derxistina Zarav û Daneyên Kevin

Wekî din, lêkolîneran a modela mijara zaravayî ji bo texmînkirina radeya ku zimanê devkî, etîk-taybetî ji C4 hate derxistin, dîtin ku 'Îngilîzî ya Afrîkî-Amerîkî û îngilîzî-hevgirêdana Hispanîk bi rengekî bêsînor di bin bandora parzûnkirina lîsteya blokê de ne'.

Wekî din, kaxez destnîşan dike ku rêjeyek girîng a korpusê ya C4-ê ji materyalê ji deh salan kevntir, hin jê bi dehsalan kevntir, û piraniya wê ji nûçe, patentan, û malpera Wikipedia-yê tê wergirtin. Lekolînwan qebûl dikin ku bi tespîtkirina yekem hilanînê di Înternetê de temenê rast texmîn dikin Archive ne rêbazek rastîn e (ji ber ku URL-an dibe ku bi mehan were arşîv kirin), lê di nebûna alternatîfên maqûl de ev nêzîkatî bikar anîne.

encamên

Kaxez parêzvaniya pergalên belgekirina hişktir ên ji bo danûstendinên ji înternetê yên ku ji bo beşdarbûna lêkolîna NLP-ê têne armanc kirin, destnîşan dike. 'Dema ku danegehek ji xêzek tevneyê tê çêkirin, raporkirina domên ku metn jê hatine hilanîn ji bo têgihiştina daneyê yekpare ye; pêvajoya berhevkirina daneyan dikare bibe sedema belavkirina domên înternetê ya ku mirov li bendê ye bi awayekî girîng cudatir bibe.'

Di heman demê de ew dibînin ku qirêjiya pîvanê, li cihê ku daneyên makîneyê bi daneyên mirovan re têkildar e (li jor binêre) jixwe pirsgirêkek bi pêşkeftina GPT-3 re îsbat kiriye, ku di heman demê de di dema perwerdehiya xwe ya berfereh û pir biha de bi xeletî daneyên weha jî di nav xwe de vedihewîne (di dawiyê de ew îsbat kir ku ji nû ve perwerdekirina GPT-3 ji nû ve perwerdekirina GPT-XNUMX ji bo pîvandin û dûrxistina bandora daneyên pîvanê erzantir bû, û kaxeza çavkaniyê "bandorek berbiçav a li ser performansê" piştrast dike).

Di dawiya raporê de*:

'Analîzên me piştrast dikin ku destnîşankirina ka belgeyek naverokek jehrîn an nerehet e, hewildanek nuwaze ye ku ji tespîtkirina peyvên "xirab" wêdetir e; Naveroka nefret û nefret dikare bêyî keywordên neyînî were îfade kirin (mînak, microaggressions, bêbingeh).

Ya girîng, wateya peyvên xuya "xirab" bi giranî bi çarçoweya civakî ve girêdayî ye (mînak, bêedebî dikare xizmet bike. fonksiyonên prososyal, û yê ku hin peyvan dibêje bandorê li ser acizbûna wê dike (mînak, şîfreya ku hatî vegerandin "n*gga" dema ku ji hêla Axaftvana reş dema ko ji hêla axaftvanek spî ve.

'Em pêşniyar dikin ku dema ku danehevên ji daneyên xêzkirî yên tevneyê têne çêkirin, fîlterkirina [lîsteya astengkirinê] bikar bînin.'

* Veguheztina min a navgînên nav-xêzkirî bo hîpergirêdan