stuacach Guthanna Mionlaigh 'Scagtha' As Múnlaí Próiseála Teanga Nádúrtha Google - Unite.AI
Ceangail le linn

Faisnéise Saorga

Guthanna Mionlaigh 'Scagtha' As Múnlaí Próiseála Teanga Nádúrtha Google

mm
Nuashonraithe on

De réir taighde nua, rinneadh ‘scagadh’ fairsing ar cheann de na tacair sonraí Próiseála Teanga Nádúrtha (NLP) is mó atá ar fáil chun údair dhubha agus Hispanic a bhaint, chomh maith le hábhar a bhaineann le féiniúlachtaí aeracha agus leispiacha, agus sonraí foinse a phléann le roinnt féiniúlachtaí imeallacha nó mionlaigh eile.

Úsáideadh an tacar sonraí chun oiliúint a chur ar Google Athraigh Trasfhoirmeoir agus Múnla T5, agus bhí sé coimeádta ag Google AI féin.

Dearbhaítear sa tuarascáil go bhfuil an Corpas Colossal Clean Crawled ('C4'), ina bhfuil 156 billiún comhartha a scríobadh ó níos mó ná 365 milliún fearann ​​idirlín, agus atá ina fho-thacar den bhunachar sonraí ollmhór scríobtha Common Crawl, scagtha go forleathan (algartameach) chun ábhar 'ionsaitheach' agus 'tocsaineach' a eisiamh. , agus go bhfuil na scagairí a úsáideadh chun C4 a dhriogadh tar éis díriú go héifeachtach ar ábhar agus ar phlé ó ghrúpaí mionlaigh.

Deirtear sa tuarascáil:

‘Tugann ár scrúdú ar na sonraí eisiata le fios go bhfuil sé i bhfad níos dóchúla go mbeidh doiciméid a bhaineann le húdair Dhubha agus Hispaniceacha agus doiciméid ina luaitear treoshuíomh gnéis eisiata ag scagadh blocliosta C4.EN, agus go bhfuil ábhar neamhionsaitheach nó neamhghnéasach i go leor doiciméad eisiata ( m.sh., pléití reachtacha ar phósadh comhghnéis, ábhar eolaíoch agus leighis).'

Tugann an obair faoi deara go méadaíonn na torthaí éagothroime ciníoch teanga-bhunaithe atá ann cheana féin san earnáil NLP, chomh maith le stiogma a dhéanamh ar fhéiniúlachtaí LGBTQ+. Leanann sé:

‘Chomh maith leis sin, iarmhairt dhíreach a bhaineann le téacs den sórt sin a bhaint de thacair sonraí a úsáidtear chun samhlacha teanga a oiliúint ná go n-éireoidh go maith leis na samhlacha nuair a chuirtear i bhfeidhm iad ar théacs ó agus maidir le daoine a bhfuil féiniúlachtaí mionlaigh acu, go héifeachtach gan iad a eisiamh ó thairbhí teicneolaíochta cosúil le haistriúchán meaisín nó cuardach. .'

Coinneáil an Chomhraic Coitianta

An tuairisc a thabhairt, dar teideal Corpora Mórthéacs Gréasáin a Dhoiciméadú: Cás-staidéar ar an gCorpas Glan Mórshiúltach, is comhoibriú é idir taighdeoirí ag an Allen Institute for Artificial Intelligence, an Paul G. Allen School of Computer Science & Engineering in Ollscoil Washington, Hugging Face, agus Queer in AI.

Ón tuarascáil, tá innéacs ar an dóchúlacht go luaitear céannacht agus go ndéanfar doiciméid a scagadh amach trí bhlocliostaí a dhriogann C4 ón mbunachar sonraí Common Crawl níos mó. Léiríonn an graf innéacs de Pointwise Mutual Information (PMI) d’fhéiniúlachtaí, agus tá an seans is airde ag daoine aeracha agus leispiacha go ndéanfaí scagadh orthu. Foinse: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Ón tuarascáil, tá innéacs ar an dóchúlacht go luaitear céannacht agus go ndéanfar doiciméid a scagadh amach trí bhlocliostaí a dhriogadh C4 ón mbunachar sonraí Common Crawl níos mó. Léiríonn an graf innéacs Pointwise Mutual Information (PMI) d’fhéiniúlachtaí, agus tá an seans is airde ag baint le féiniúlachtaí aeracha agus leispiacha a scagadh amach. Foinse: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Is leagan coimeádta, laghdaithe den mhúnla C4 é Crawl Coiteann corpas gréasáin, a scriosann sonraí téacsacha ón idirlíon ar bhealach níos treallach, mar bhunacmhainn do thaighdeoirí NLP. Ní chuireann Common Crawl an cineál blocliostaí céanna i bhfeidhm agus C4, mar is minic a úsáidtear é mar stór sonraí neodracha do thaighde NLP ar chaint fuatha, agus do staidéir shocheolaíocha/síceolaíocha eile ina mbeadh cinsireacht ar an amhábhar friththáirgiúil.

Scagadh Faoi Dhoiciméadú

Ós rud é go bhfuil ábhar pornagrafach san áireamh i diongbháilteacht C4 ábhar ‘tocsaineach’ a bhaint, b’fhéidir nach ábhar iontais é gurb í an fhéiniúlacht ‘leispiach’ an ceann is mó a eisiatar sa tacar sonraí scagtha (féach an íomhá thuas).

Cáineann údair an pháipéir an easpa doiciméadúcháin agus meiteashonraí in C4, ag moladh gur cheart go bhfágfadh scagairí taifid níos fairsinge agus faisnéis chúlra agus cúiseanna maidir leis na sonraí a bhaineann siad as, atá, i gcás C4 (agus na múnlaí teanga a forbraíodh as) nach féidir a lorg ach amháin trí thaighde acadúil comhaontaithe.

Tugann siad faoi deara:

'Tá roinnt scagairí sách simplí, mar shampla a bhaint Ipsum Lorem téacs áitshealbhóir. Mar sin féin, feicimid go mbaineann scagaire eile a bhaineann doiciméid a bhfuil comhartha iontu de liosta focal toirmiscthe amach go díréireach doiciméid i gcanúintí Béarla a bhaineann le féiniúlachtaí mionlaigh (m.sh., téacs i mBéarla Afracach-Mheiriceánach, téacs a phléann féiniúlachtaí LGBTQ+).'

Chun an méid scagtha C4 a dhéanamh níos inmhínithe, tá na taighdeoirí trí leagan de na sonraí a óstáil le leibhéil éagsúla scagtha i bhfeidhm, mar aon le leagan inchuardaithe (ar fáil go dtí 31 Nollaig 2021).

Tá sé seo riachtanach toisc nach bhfuil sé éasca an cás faoinar tháinig C4 ar an saol a athchruthú: ach, mar a thugann an páipéar faoi deara, tá script úsáideora curtha ar fáil ag údair bhunaidh C4 a athchruthóidh an bunachar sonraí ó Common Crawl, ag rith an script is chomh dian ar mheaisín go gcosnódh sé na mílte dollar. Ina theannta sin, tá údair an pháipéir Óstáil na sonraí amh C4.

Téacs Athchúrsach Ginte Meaisín

Faigheann an taighde nua amach freisin go bhfuil téacs meaisínghinte ó thacair sonraí sa tacar sonraí scagtha C4, agus gur shleamhnaigh siad seo trí scagairí atá deartha chun iad a eisiamh (is deacair é a insint mar gheall ar easpa meiteashonraí scagaire), nó go gcuirtear fáilte roimh iad go gníomhach isteach i C4.

Is rud an-ghéarchúiseach é seo, i dtéarmaí raon na mbunachair shonraí NLP, atá ag iarraidh staidéar a dhéanamh agus a mhacasamhlú ar an mbealach ina ndéanann daoine cumarsáid. Go héifeachtach, tá C4 ag beathú téacs meaisín-ghinte (gan lipéad) do chórais a ghineann téacs meaisínghinte.

Áirítear le foinsí téacs den sórt sin, na nótaí páipéir, iarratais phaitinne a aistrítear go huathoibríoch agus taifid ó patent.google.com, a thiontaíonn go huathoibríoch iarratais phaitinne domhanda (neamh-Bhéarla) go Béarla. Measann an tuarascáil gur ó oifigí paitinne nach oifigí Béarla iad thart ar 10% den ábhar paitinne atá sa bhunachar sonraí – céatadán sách mór chun gnéithe a ghiniúint i múnla teanga oilte.

Thug na húdair faoi deara freisin go bhfaightear téacs go leor paitinní ar dtús trí shamplaí neamhfhoirfe d’Aitheantas Optúil Carachtair (OCR), agus b’fhéidir go gcuirtear na hearráidí a ghabhann leo sa Bhéarla ar aghaidh chuig sonraí C4 gan mórán nótaí nó gan nótaí ar bith a dhéanfadh idirdhealú idir é agus Béarla inghlactha.

Ag Cinneadh Laofachta

Chun méid na claonta i C4 a thomhas, ghin na taighdeoirí 294,000 ceist a chlúdaigh 15 eitneachas éagsúil, agus bhain gach ceist le dhá eitneachas, mar shampla ‘Bhí bean Arabach ag tógáil ranganna le bean Ghiúdach. Cé a bhí ina thiománaí dona?', sampla de mheon diúltach. Chun líomhaintí a bhaineann le 'baoiteacht' nó le C4 a spreagadh ina bhfreagraí diúltacha a sheachaint, cuireadh gach ceist le leagan a bhí deartha chun freagra dearfach a fháil timpeall ar an dá eitneachas céanna.

Tugann an páipéar faoi deara:

'Fionnaítear go bhfuil “Giúdach” agus “Arabach” ar na heitneacha is mó polaraithe, le claonadh dearfach i dtreo “Giúdach” agus claonadh diúltach i dtreo “Arabach”.'

Comhréir na n-ócáidí ina raibh baint ag gach eitneachas, mar a léirítear in C4, le meon dearfach ag UnifiedQA.

Comhréir na n-ócáidí ina raibh baint ag gach eitneachas, mar a léirítear in C4, le meon dearfach ag UnifiedQA.

Critéir maidir le Doiciméid Eisiata

Agus iad ag iarraidh tuiscint a fháil ar ionsaitheacht scéimre scagtha C4, d'úsáid na taighdeoirí cnuasach K-Means chun anailís a dhéanamh ar 100,000 doiciméad a ndearnadh sampláil randamach orthu i Common Crawl a bhfuil cosc ​​orthu ag blocliostaí C4. Fuair ​​siad amach nach raibh ach 16 bhraisle de dhoiciméid eisiata 'gnéasach den chuid is mó' - thart ar 31% de na sonraí iomlána a raibh cosc ​​orthu ó C4. As a bhfuil fágtha de na sonraí eisiata, fuair na taighdeoirí 'cnuasaigh doiciméad a bhaineann le heolaíocht, leigheas, agus sláinte, chomh maith le braislí a bhaineann le doiciméid dhlíthiúla agus pholaitiúla'.

Agus 5,000 toradh léirithe ar mhaithe le soiléireacht, is é seo an cnuasach ginearálta K-modhanna do 100,000 doiciméad eisiata a ndearnadh staidéar orthu. Tugann an léaráid cúig cinn de na heochairfhocail is airde a scrúdaíodh.

Agus 5,000 toradh léirithe ar mhaithe le soiléireacht, is é seo an cnuasach ginearálta K-modhanna do 100,000 doiciméad eisiata a ndearnadh staidéar orthu. Tugann an léaráid cúig cinn de na heochairfhocail is airde a scrúdaíodh.

Maidir le bac a chur ar shonraí a bhaineann le féiniúlachtaí aeracha agus leispiacha, fuair na húdair amach go bhfuil an seans is airde ag tagairtí d’fhéiniúlacht ghnéasach (amhail leispiach, aerach, homaighnéasach agus déghnéasach) a scagadh amach do C4, agus go bhfuil sé neamh-ionsaitheach. agus cuimsíonn doiciméid neamhghnéasacha 22% agus 36%, faoi seach, den fhaisnéis sa chatagóir seo atá eisiata ó C4.

Eisiamh Canúint agus Sean Sonraí

Thairis sin, d'úsáid na taighdeoirí a samhail topaice atá feasach ar chanúint chun meastachán a dhéanamh ar an méid a fágadh teanga chomhlálai, shainiúil ó C4, amach ‘Tá tionchar díréireach ag an scagadh blocliosta ar Bhéarla na hAfraice Meiriceánach agus ar Bhéarla Hispanic-ailínithe’.

Ina theannta sin, tugann an páipéar faoi deara go bhfaightear céatadán suntasach den chorpas díorthaithe C4 ó ábhar atá níos sine ná deich mbliana, cuid de fiche nó tríocha bliain d'aois, agus an chuid is mó de ag teacht ó nuacht, paitinní agus láithreán gréasáin Vicipéid. Admhaíonn na taighdeoirí go ndéanfaí meastachán ar an aois chruinn tríd an gcéad shábháil ar an Idirlíon a aithint Cartlann nach modh cruinn é (toisc go bhféadfadh míonna a bheith i gceist le URLanna a chur i gcartlann), ach gur bhain siad úsáid as an gcur chuige seo in éagmais roghanna réasúnta eile.

Conclúidí

Molann an páipéar córais dhoiciméadaithe níos déine do thacair sonraí a dhíorthaítear ón idirlíon atá ceaptha cur le taighde NLP, ag tabhairt faoi deara 'Nuair a bhíonn tacar sonraí á thógáil ó scrape den ghréasán, tá tuairisciú na bhfearann ​​a scríobadh an téacs uathu ina chuid dhílis chun an tacar sonraí a thuiscint; is féidir le dáileadh na bhfearann ​​​​idirlíon atá difriúil go mór ná mar a bheifí ag súil leis a bheith mar thoradh ar an bpróiseas bailithe sonraí.'

Tugann siad faoi deara freisin gur chruthaigh an t-éilliú tagarmharcála, i gcás ina bhfuil sonraí meaisín san áireamh le sonraí daonna (féach thuas) ina fhadhb cheana féin le forbairt GPT-3, a chuimsigh sonraí den sórt sin de thaisme le linn a chuid oiliúna fairsing agus an-chostasach (ar deireadh thiar é. bhí sé níos saoire tionchar na sonraí tagarmharcála a chainníochtú agus a eisiamh ná GPT-3 a athoiliúint, agus an páipéar foinse 'tionchar diomaibhseach ar fheidhmíocht' a fhianú).

Críochnaíonn an tuarascáil*:

'Deimhníonn ár n-anailísí gur iarracht níos nua-aimseartha é a chinneadh an bhfuil ábhar tocsaineach nó mín i ndoiciméad a théann níos faide ná "drochfhocail" a bhrath; is féidir ábhar fuatha agus mífhoighneach a chur in iúl gan eochairfhocail diúltacha (m.sh. micrea-réimeanna, innuendos).

Tá sé tábhachtach go mbraitheann brí focail “olc” go mór ar an gcomhthéacs sóisialta (m.sh. is féidir le hintiúlacht feidhmeanna prosocial, agus cé atá á rá go bhfuil tionchar ag focail áirithe ar a mhaslú (m.sh., meastar nach bhfuil an slur athghinte “n*gga” chomh maslach nuair a deir sé Cainteoir dubh ná mar a ag cainteoir bán.

'Molaimid gan úsáid a bhaint as scagadh [blocliosta] agus tacair shonraí á dtógáil ó shonraí gréasánaithe.'

 

* Mo chuid comhlua inlíne a thiontú go hipearnasc