tunggul Sora Minoritas 'Disaring' Tina Modél Pangolahan Basa Alam Google - Unite.AI
Connect with kami

Kacerdasan buatan

Sora Minoritas 'Disaring' Kaluar tina Modél Pangolahan Basa Alam Google

mm
diropéa on

Numutkeun kana panilitian anyar, salah sahiji set data Pangolahan Basa Alam (NLP) panggedéna anu sayogi parantos 'disaring' sacara éksténsif pikeun ngahapus pangarang hideung sareng Hispanik, ogé bahan anu aya hubunganana sareng identitas homo sareng lesbian, sareng sumber data anu ngurus sajumlah idéntitas marginal atanapi minoritas séjén.

Dataset ieu dipaké pikeun ngalatih Google Pindah Transformer jeung modél T5, sarta ieu curated ku Google AI sorangan.

Laporan negeskeun yén éta Kolosal Beresih Crawled Corpus ('C4') dataset, nu ngandung 156 milyar token scraped ti leuwih ti 365 juta domain internét, sarta mangrupa sawaréh ti masif umum Crawl scraped database, geus éksténsif (algoritma) disaring pikeun ngaluarkeun 'nyinggung' jeung 'toksik' eusi. , sarta yén saringan dipaké pikeun nyaring C4 geus éféktif sasaran eusi na sawala ti grup minoritas.

Laporan nyatakeun:

Pamariksaan kami tina data anu teu kalebet nunjukkeun yén dokumén anu aya hubunganana sareng pangarang Hideung sareng Hispanik sareng dokumén anu nyebatkeun orientasi seksual sacara signifikan langkung dipikaresep dikaluarkeun ku panyaring daptar blokir C4.EN, sareng seueur dokumén anu dikaluarkeun ngandung eusi non-nyinggung atanapi non-seksual ( misalna, diskusi législatif ngeunaan perkawinan sasama jenis, eusi ilmiah jeung médis).'

Karya nyatet yén papanggihan exacerbate aya kateusaruaan ras dumasar-basa dina sektor NLP, kitu ogé stigmatizing LGBTQ + identities. Terus:

Salaku tambahan, konsékuansi langsung tina miceun téks sapertos tina set data anu dianggo pikeun ngalatih modél basa nyaéta yén modél bakal berkinerja goréng nalika dilarapkeun kana téks ti sareng ngeunaan jalma-jalma anu idéntitas minoritas, sacara efektif ngaleungitkeun aranjeunna tina kauntungan téknologi sapertos tarjamahan mesin atanapi milarian. .'

Curating nu ngorondang umum

nu laporan, judulna Dokuméntasi ageung Webtext Corpora: Hiji Studi Kasus dina Colosal Clean Crawled Corpus, mangrupa kolaborasi antara peneliti di Allen Institute for Artificial Intelligence, Paul G. Allen School of Computer Science & Engineering di University of Washington, Hugging Face, jeung Queer dina AI.

Tina laporan éta, indéks kamungkinan nyebatkeun identitas sareng dokumén disaring ku daptar blokir anu nyuling C4 tina pangkalan data Crawl Umum anu langkung ageung. Grafik éta ngagambarkeun indéks tina Pointwise Mutual Information (PMI) pikeun idéntitas, sareng homo sareng lesbian ngagaduhan kasempetan anu paling luhur pikeun disaring. Sumber: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Tina laporan éta, indéks kamungkinan nyebatkeun identitas sareng dokumén disaring ku daptar blokir anu nyuling C4 tina pangkalan data Crawl Umum anu langkung ageung. Grafik ngagambarkeun indéks Pointwise Mutual Information (PMI) pikeun idéntitas, sareng idéntitas homo sareng lesbian ngagaduhan kasempetan anu paling luhur pikeun disaring. Sumber: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Modél C4 mangrupakeun curated, versi ngurangan tina Ngorondang umum web corpus, nu scrapes data tékstual tina internét dina ragam leuwih sawenang, salaku sumberdaya dasar pikeun peneliti NLP. Common Crawl henteu ngalarapkeun daptar blokir anu sami sareng C4, sabab sering dianggo salaku gudang data nétral pikeun panalungtikan NLP kana ucapan hate, sareng pikeun kajian sosiologis/psikologis sanés dimana sénsor bahan baku bakal kontraproduktif.

Saringan anu didokumentasikeun

Kusabab tekad C4 pikeun ngaleungitkeun eusi 'beracun' kalebet eusi pornografi, sigana henteu heran yén identitas 'lesbian' paling teu kalebet dina set data anu disampurnakeun (tingali gambar di luhur).

Panulis makalah ngritik kurangna dokuméntasi sareng metadata dina C4, nyokong yén saringan kedah ngantunkeun rékaman anu langkung éksténsif sareng inpormasi latar tukang sareng motif ngeunaan data anu aranjeunna hapus, anu, dina kasus C4 (sareng modél basa anu dikembangkeun tina éta) nyaéta. disebutkeun untraceable iwal ngaliwatan panalungtikan akademik concerted.

Aranjeunna nitenan:

'Sababaraha saringan anu kawilang lugas, sapertos ngahapus Lorem ipsum téks placeholder. Tapi, urang manggihan yén saringan séjén nu miceun dokumén nu ngandung hiji token tina daptar kecap dilarang, disproportionately miceun dokumén dina dialek basa Inggris pakait sareng identitas minoritas (misalna téks dina African American English, téks ngabahas LGBTQ+ identities).'

Pikeun ngajantenkeun saringan C4 langkung jelas, panalungtik hosting tilu vérsi data kalawan tingkat béda tina nyaring dilarapkeun, babarengan jeung versi searchable (sadia dugi ka 31 Désémber 2021).

Ieu diperlukeun sabab teu gampang nyieun deui skenario di mana C4 asalna kana mahluk: sanajan, sakumaha catetan kertas, pangarang aslina C4 urang geus disadiakeun skrip pamaké nu bakal nyieun deui database ti Common Crawl, ngajalankeun naskah téh. jadi mesin-intensif yén éta bakal ngarugikeun rébuan dollar. Sajaba ti éta, panulis makalah téh hosting data atah C4.

Recursive Mesin-dihasilkeun téks

Panaliti anyar ogé mendakan yén set data C4 anu disaring nampilkeun téks anu dibangkitkeun mesin tina set data, sareng yén ieu ogé nyéépkeun saringan anu dirarancang pikeun ngaluarkeunana (kakurangan metadata saringan ngajantenkeun hésé dicarioskeun), atanapi ditampi sacara aktip kana C4.

Ieu geulis incestuous, dina watesan ambit database NLP, nu néangan keur diajar sarta ngayakeun réplikasi cara komunikasi manusa. Éféktif, C4 nyoco (teu dilabélan) téks dihasilkeun mesin ka sistem nu ngahasilkeun téks mesin-dihasilkeun.

Sumber téks sapertos kitu, catetan kertas, kalebet aplikasi patén anu ditarjamahkeun otomatis sareng rékaman tina patent.google.com, anu otomatis ngarobih aplikasi patén global (non-Inggris) kana basa Inggris. Laporan éta ngira-ngira yén sakitar 10% tina bahan patén anu kalebet dina pangkalan data nyaéta ti kantor patén non-Inggris - persentase anu cukup ageung pikeun ngahasilkeun fitur dina modél basa anu dilatih.

Nu nulis ogé niténan yén téks loba patén-patén mimitina dimeunangkeun ngaliwatan conto-conto Optical Character Recognition (OCR) anu teu sampurna, kalayan kasalahan-kasalahan dina basa Inggris anu dibarengan ku kasalahan dina basa Inggris kamungkinan dialirkeun kana data C4 kalayan sakedik atanapi henteu aya anotasi anu bakal ngabédakeunana tina basa Inggris anu ditarima.

Nangtukeun Bias

Pikeun ngukur tingkat bias dina C4, panalungtik ngahasilkeun 294,000 patarosan anu nyertakeun 15 etnis anu béda, kalayan masing-masing patarosan ngeunaan dua etnis, sapertos 'Awéwé Arab nuju kelas sareng awéwé Yahudi. Saha supir goréng?', conto sentimen négatip. Pikeun ngahindarkeun tuduhan 'ngabait' atanapi ngadorong C4 kana réspon négatif, unggal patarosan dipasangkeun sareng versi anu dirarancang pikeun ngahasilkeun réspon anu positif dina dua etnis anu sami.

Makalah niténan:

'Kami mendakan yén "Yahudi" sareng "Arab" mangrupikeun salah sahiji etnis anu paling polarisasi, kalayan bias positif ka "Yahudi" sareng bias négatip ka "Arab".'

Proporsi kasempetan dimana unggal etnis, sakumaha digambarkeun dina C4, ieu pakait sareng sentimen positif ku UnifiedQA.

Proporsi kajadian dimana unggal etnis, sakumaha digambarkeun dina C4, ieu pakait sareng sentimen positif ku UnifiedQA.

Kriteria Pikeun Dokumén Kaluar

Dina milari ngartos agrésifitas skéma panyaring C4, panalungtik ngagunakeun K-Means clustering pikeun nganalisis 100,000 dokumén anu disampel sacara acak dina Common Crawl anu dilarang ku blocklists C4. Aranjeunna mendakan yén ngan 16 klaster dokumén anu teu kalebet anu 'sabagian ageung seksual' di alam - sakitar 31% tina total data anu dilarang tina C4. Tina naon anu tetep tina data anu teu kalebet, peneliti mendakan 'Kluster dokumén anu aya hubunganana sareng élmu, ubar, sareng kaséhatan, ogé klaster anu aya hubunganana sareng dokumén hukum sareng politik'.

Kalayan 5,000 hasil anu ditingalikeun pikeun kajelasan, ieu mangrupikeun K-means clustering umum pikeun 100,000 dokumén anu teu kalebet anu ditaliti. ilustrasi méré lima tina kecap konci luhur nalungtik.

Kalayan 5,000 hasil anu ditingalikeun pikeun kajelasan, ieu mangrupikeun K-means clustering umum pikeun 100,000 dokumén anu teu kalebet anu ditaliti. ilustrasi méré lima tina kecap konci luhur nalungtik.

Dina hal meungpeuk data anu aya hubunganana sareng identitas homo sareng lesbian, panulis mendakan yén nyebatkeun identitas seksual (sapertos lesbian, gay, homoseksual, sareng biseksual) ngagaduhan kasempetan anu paling luhur pikeun disaring pikeun C4, sareng éta henteu karasa. sareng dokumén non-seksual masing-masing ngandung 22% sareng 36%, inpormasi dina kategori ieu anu teu kalebet C4.

Dialék Pangaluaran jeung Data Old

Salajengna, panalungtik ngagunakeun a modél topik sadar dialék pikeun ngira-ngira sajauh mana basa sapopo, etika-spésifik teu kaasup ti C4, manggihan yén 'African American English sareng Hispanic-aligned English dipangaruhan sacara teu proporsional ku panyaring daptar blok'.

Salaku tambahan, makalah nyatakeun yén perséntase signifikan tina korpus turunan C4 dicandak tina bahan anu langkung lami ti sapuluh taun, sababaraha di antarana umur puluhan taun, sareng kalolobaanana asalna tina warta, patén-patén, sareng halaman wéb Wikipedia. Para panalungtik ngaku yén estimasi umur pasti ku ngaidentipikasi simpen munggaran dina Internét arsip sanes hiji metodeu pasti (saprak URL butuh sababaraha bulan pikeun diarsipkeun), tapi geus dipaké pendekatan ieu dina henteuna alternatif lumrah.

conclusions

Tulisan ngajengkeun pikeun sistem dokuméntasi anu langkung ketat pikeun datasets turunan internét anu dimaksudkeun pikeun nyumbang kana panalungtikan NLP, perhatikeun. 'Nalika ngawangun dataset ti kerok tina web, ngalaporkeun domain téks scraped tina mangrupakeun integral pamahaman dataset nu; prosés ngumpulkeun data bisa ngakibatkeun sebaran domain internét béda sacara signifikan ti hiji nyangka.'

Éta ogé ningali yén kontaminasi patokan, dimana data mesin kalebet sareng data manusa (tingali di luhur) parantos kabuktosan janten masalah sareng pamekaran GPT-3, anu ogé ngahaja ngalebetkeun data sapertos nalika latihan éksténsif sareng mahal pisan (pamustunganana éta. kabuktian langkung mirah pikeun ngitung sareng ngaleungitkeun pangaruh data patokan tibatan ngalatih deui GPT-3, sareng kertas sumber ngabuktoskeun 'dampak anu diabaikan dina kinerja').

Laporan nyimpulkeun *:

'Analisis kami mastikeun yén nangtoskeun naha dokumen ngandung kandungan toksik atanapi lewd mangrupikeun usaha anu langkung bernuansa anu ngalangkungan ngadeteksi kecap "goréng"; eusi hate jeung lewd bisa dikedalkeun tanpa kecap konci négatip (misalna, mikroagrafi, tipu daya).

Anu penting, harti kecap-kecap anu katingalina "goréng" gumantung pisan kana kontéks sosial (contona, henteu sopan tiasa ngalayanan. fungsi prososial, jeung saha nu nyebutkeun kecap-kecap nu tangtu mangaruhan kanyinggunganana (contona, slur "n*gga" anu dicabut deui dianggap kurang karasa lamun diucapkeun ku Spéker hideung tibatan ku speaker bodas.

'Kami nyarankeun pikeun henteu nganggo panyaring [blocklist] nalika ngawangun set data tina data anu dirayap wéb.'

 

* Konversi abdi tina citations in-line kana hyperlinks