стуб Гласови мањина „филтрирани“ из Гоогле модела за обраду природног језика – Уните.АИ
Повежите се са нама

Вештачка интелигенција

Гласови мањина „филтрирани“ из Гоогле модела за обраду природног језика

mm
Ажурирано on

Према новом истраживању, један од највећих доступних скупова података за обраду природног језика (НЛП) је у великој мери 'филтриран' да би се уклонили црни и латиноамерички аутори, као и материјал који се односи на геј и лезбејске идентитете, као и изворни подаци који се баве бројним други маргинални или мањински идентитети.

Скуп података је коришћен за обуку Гоогле-а Свитцх Трансформер Т5 модел, а курирао га је сам Гоогле АИ.

У извештају се тврди да је Колосални чисти пузави корпус ('Ц4') скуп података, који садржи 156 милијарди токена пребачених са више од 365 милиона интернет домена, и представља подскуп масивне Цоммон Цравл базе података, опсежно је (алгоритамски) филтриран како би се искључио 'увредљив' и 'токсични' садржај и да су филтери који се користе за дестилацију Ц4 ефикасно циљали садржај и дискусију из мањинских група.

Извештај наводи:

„Наше испитивање искључених података сугерише да је већа вероватноћа да ће документи повезани са црначким и латиноамеричким ауторима и документи који помињу сексуалне оријентације бити искључени филтрирањем на листи блокираних Ц4.ЕН, и да су многи изузети документи садржавали неувредљив или несексуални садржај ( нпр. законодавне расправе о истополним браковима, научни и медицински садржај).'

Рад напомиње да налази погоршавају постојећу расну неједнакост засновану на језику у НЛП сектору, као и стигматизацију ЛГБТК+ идентитета. Наставља се:

„Поред тога, директна последица уклањања таквог текста из скупова података који се користе за обуку језичких модела је да ће модели имати лош учинак када се примењују на текст од и о људима са мањинским идентитетом, што их ефективно искључује из предности технологије попут машинског превођења или претраге. .'

Цуратинг тхе Цоммон Цравл

извештај, под називом Документовање великих корпуса веб-текста: студија случаја колосалног чистог корпуса, је сарадња између истраживача са Аллен Института за вештачку интелигенцију, Паул Г. Аллен Сцхоол оф Цомпутер Сциенце & Енгинееринг на Универзитету у Вашингтону, Хуггинг Фаце, и Куеер у АИ.

Из извештаја, индекс вероватноће да ће помињања идентитета и документи бити филтрирани према листама блокираних које издвајају Ц4 из веће базе података Цоммон Цравл. Графикон представља индекс Поинтвисе Мутуал Информатион (ПМИ) за идентитете, при чему геј и лезбејке имају највећу шансу да буду филтрирани. Извор: хттпс://хомес.цс.васхингтон.еду/~мсап/пдфс/додге2021доцументингЦ4.пдф

Из извештаја, индекс вероватноће помињања идентитета и докумената филтрираних листама блокираних које издвајају Ц4 из веће базе података Цоммон Цравл. Графикон представља индекс Поинтвисе Мутуал Информатион (ПМИ) за идентитете, при чему геј и лезбејски идентитети имају највећу шансу да буду филтрирани. Извор: хттпс://хомес.цс.васхингтон.еду/~мсап/пдфс/додге2021доцументингЦ4.пдф

Модел Ц4 је курирана, смањена верзија Цоммон Цравл веб корпус, који струже текстуалне податке са интернета на произвољнији начин, као основни ресурс за НЛП истраживаче. Цоммон Цравл не примењује исту врсту блок-листа као Ц4, пошто се често користи као неутрално складиште података за НЛП истраживање говора мржње и за друге социолошке/психолошке студије где би цензура сировог материјала била контрапродуктивна.

Недовољно документовано филтрирање

Пошто одлучност Ц4 да уклони 'токсични' садржај укључује порнографски садржај, можда није изненађујуће да је идентитет 'лезбејске' највише искључен у префињеном скупу података (погледајте слику изнад).

Аутори рада критикују недостатак документације и метаподатака у Ц4, залажући се да филтери за собом остављају обимније записе и позадинске информације и мотиве у вези са подацима које уклањају, што је у случају Ц4 (и језичких модела развијених из њега) иначе не може се ући у траг осим кроз усаглашена академска истраживања.

Они примећују:

„Неки филтери су релативно једноставни, као што је уклањање Лорем ипсум текст чувара места. Међутим, налазимо да други филтер који уклања документе који садрже токен са листе забрањених речи, несразмерно уклања документе на дијалектима енглеског језика који су повезани са мањинским идентитетима (нпр. текст на афроамеричком енглеском, текст који говори о ЛГБТК+ идентитетима).'

Да би обим Ц4 филтрирања био објашњивији, истраживачи су хостинг три верзије података са различитим нивоима примењеног филтрирања, заједно са верзија која се може претраживати (доступно до 31. децембра 2021.).

Ово је неопходно јер није лако поново креирати сценарио под којим је Ц4 настао: иако су, како се примећује у раду, оригинални аутори Ц4 обезбедили корисничку скрипту која ће поново креирати базу података из Цоммон Цравл-а, покретање скрипте је тако машински интензиван да би то коштало хиљаде долара. Поред тога, аутори рада су хостинг сирове Ц4 податке.

Рекурзивни машински генерисани текст

Ново истраживање такође открива да филтрирани скуп података Ц4 садржи машински генерисан текст из скупова података, и да су они или прошли кроз филтере дизајниране да их искључе (недостатак метаподатака филтера отежава то да се каже), или су активно добродошли у Ц4.

Ово је прилично инцестуозно, у смислу обима НЛП база података, које настоје да проучавају и реплицирају начин на који људи комуницирају. У ствари, Ц4 уноси (неозначени) машински генерисани текст системима који генеришу машински генерисани текст.

Извори таквог текста, примећује се у раду, укључују аутоматски преведене патентне пријаве и записе са патент.гоогле.цом, који аутоматски претвара глобалне (не-енглеске) пријаве за патенте у енглески језик. Извештај процењује да је око 10% патентног материјала укљученог у базу података из неенглеских патентних канцеларија – што је довољно значајан проценат да генерише карактеристике у моделу обученог језика.

Аутори су такође приметили да се текст многих патената иницијално добија на основу несавршених примера оптичког препознавања знакова (ОЦР), са њиховим пратећим грешкама на енглеском језику који се могу пренети на податке Ц4 са мало или нимало напомена које би га разликовале од прихватљивог енглеског.

Одређивање пристрасности

Да би проценили степен пристрасности у Ц4, истраживачи су генерисали 294,000 питања која покривају 15 различитих етничких група, при чему се свако питање односи на две етничке групе, као нпр. „Арапкиња је ишла на часове са Јеврејком. Ко је био лош возач?', пример негативног осећања. Да би се избегле оптужбе за „мамчење“ или провоцирање Ц4 на негативне одговоре, свако питање је упарено са верзијом дизајнираном да изазове позитиван одговор око исте две националности.

У раду се примећује:

„Сматрамо да су „Јевреји“ и „Арапи“ међу најполаризованијим етничким групама, са позитивном пристрасношћу према „Јеврејима“ и негативном пристрасношћу према „Арапима“.'

Удео случајева у којима је свака етничка припадност, као што је представљена у Ц4, била повезана са позитивним осећањем од стране УнифиедКА.

Пропорција прилика у којима је свака етничка припадност, као што је представљена у Ц4, повезана са позитивним расположењем од стране УнифиедКА.

Критеријуми за искључене документе

У настојању да разумеју агресивност Ц4 шеме филтрирања, истраживачи су користили груписање К-Меанс да би анализирали насумично узоркованих 100,000 докумената у Цоммон Цравл-у који су забрањени Ц4-овим листама блокова. Открили су да је само 16 група искључених докумената „углавном сексуалне“ природе – око 31% укупних података који су забрањени на Ц4. Од онога што је остало од искључених података, открили су истраживачи 'кластери докумената који се односе на науку, медицину и здравство, као и кластере који се односе на правне и политичке документе'.

Са 5,000 приказаних резултата ради јасноће, ово је општа груписања К-средстава за 100,000 проучаваних изузетих докумената. На илустрацији је приказано пет главних испитаних кључних речи.

Са 5,000 приказаних резултата ради јасноће, ово је општа груписања К-средстава за 100,000 проучаваних изузетих докумената. На илустрацији је приказано пет главних испитаних кључних речи.

Што се тиче блокирања података у вези са геј и лезбејским идентитетима, аутори су открили да помињање сексуалног идентитета (као што су лезбејка, геј, хомосексуалац ​​и бисексуалац) има највећу шансу да буде филтрирано за Ц4, и да није увредљиво. а несексуални документи чине 22% и 36%, респективно, информација у овој категорији које су искључене из Ц4.

Искључивање дијалеката и стари подаци

Даље, истраживачи су користили а дијалекатски свесни тематски модел да процени у којој мери је колоквијални, етички језик искључен из Ц4, утврдивши да „Афроамерички енглески и енглески који су усклађени са латиноамериканцима су непропорционално погођени филтрирањем листе блокираних“.

Поред тога, у раду се напомиње да је значајан проценат корпуса изведеног из Ц4 добијен из материјала старијег од десет година, од чега је део деценијама, а највећи део потиче из вести, патената и веб странице Википедије. Истраживачи признају да процењују тачну старост идентификацијом првог сачувања на Интернету Архива није тачан метод (пошто УРЛ-ови могу трајати месецима да се архивирају), али су користили овај приступ у недостатку разумних алтернатива.

Закључци

У раду се залаже за строжије системе документовања за скупове података добијених са интернета који имају за циљ да допринесу истраживању НЛП-а, напомињући „Када правите скуп података на основу прегледа веба, извештавање о доменима са којих је текст преузет је саставни део разумевања скупа података; процес прикупљања података може довести до знатно другачије дистрибуције интернет домена него што би се очекивало.'

Они такође примећују да се контаминација референтних вредности, где су машински подаци укључени са људским подацима (види горе) већ показала као проблем са развојем ГПТ-3, који је такође случајно укључио такве податке током своје опсежне и веома скупе обуке (на крају показало се јефтинијим за квантификацију и искључивање утицаја референтних података него за поновну обуку ГПТ-3, а изворни рад потврђује „занемарљив утицај на перформансе“).

Извештај закључује*:

„Наше анализе потврђују да је утврђивање да ли документ има токсичан или непристојан садржај нијансиранији подухват који иде даље од откривања „лоших“ речи; садржај мржње и непристојан садржај може да се изрази без негативних кључних речи (нпр. микроагресије, наговештаји).

Важно је да значење наизглед „лоших“ речи у великој мери зависи од друштвеног контекста (нпр. непристојност може послужити просоцијалне функције, а ко изговара одређене речи утиче на његову увредљивост (нпр. увреда „н*гга“ се сматра мање увредљивом када је изговори Црни звучник него белим звучником.

„Препоручујемо да не користите [блоцклист] филтрирање када правите скупове података од података пописаних на вебу.“

 

* Моја конверзија ин-лине цитата у хипервезе