cung Zërat e pakicave 'të filtruara' jashtë modeleve të përpunimit të gjuhës natyrore të Google - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Zërat e pakicave 'të filtruara' jashtë modeleve të përpunimit të gjuhës natyrore të Google

mm
Përditësuar on

Sipas hulumtimit të ri, një nga grupet më të mëdha të të dhënave të Përpunimit të Gjuhës Natyrore (NLP) është 'filtruar' gjerësisht për të hequr autorët zezakë dhe hispanikë, si dhe materiale që lidhen me identitetet homoseksuale dhe lezbike, dhe të dhëna burimore që kanë të bëjnë me një numër identitete të tjera margjinale ose minoritare.

Të dhënat janë përdorur për të trajnuar Google Transformatori me çelës Modeli T5, dhe u kurua nga vetë Google AI.

Raporti pohon se Korpus kolosal i pastër i zvarritur Të dhënat e të dhënave ('C4'), e cila përmban 156 miliardë argumente të gërvishtura nga më shumë se 365 milionë domene interneti dhe është një nëngrup i bazës së të dhënave masive Common Crawl, është filtruar gjerësisht (algoritmikisht) për të përjashtuar përmbajtjen "fyese" dhe "toksike". , dhe se filtrat e përdorur për distilimin e C4 kanë synuar në mënyrë efektive përmbajtjen dhe diskutimin nga grupet minoritare.

Në raport thuhet:

"Shqyrtimi ynë i të dhënave të përjashtuara sugjeron që dokumentet e lidhura me autorët zezakë dhe hispanikë dhe dokumentet që përmendin orientimet seksuale kanë më shumë gjasa të përjashtohen nga filtrimi i listës së bllokut të C4.EN dhe se shumë dokumente të përjashtuara përmbanin përmbajtje jo fyese ose jo seksuale. p.sh., diskutime legjislative për martesat e të njëjtit seks, përmbajtje shkencore dhe mjekësore).'

Puna vëren se gjetjet përkeqësojnë pabarazinë ekzistuese racore të bazuar në gjuhë në sektorin e NLP, si dhe stigmatizojnë identitetet LGBTQ+. Vazhdon:

Për më tepër, një pasojë e drejtpërdrejtë e heqjes së një teksti të tillë nga grupet e të dhënave të përdorura për trajnimin e modeleve gjuhësore është se modelet do të performojnë dobët kur aplikohen në tekst nga dhe rreth njerëzve me identitete të pakicave, duke i përjashtuar ata në mënyrë efektive nga përfitimet e teknologjisë si përkthimi me makinë ose kërkimi. .'

Kurimi i Zvarritjes së Përbashkët

La raportojnë, me titull Dokumentimi i korpusit të madh të tekstit në ueb: Një studim rasti mbi korpusin kolosal të pastër të zvarritur, është një bashkëpunim midis studiuesve në Institutin Allen për Inteligjencën Artificiale, Shkollën Paul G. Allen të Shkencave dhe Inxhinierisë Kompjuterike në Universitetin e Uashingtonit, Hugging Face, dhe Queer në AI.

Nga raporti, një indeks i mundësisë së përmendjeve të identitetit dhe dokumenteve që filtrohen nga listat e bllokimit që distilojnë C4 nga baza më e madhe e të dhënave Common Crawl. Grafiku përfaqëson një indeks të Informacionit të ndërsjellë në pikë (PMI) për identitetet, me homoseksualët dhe lezbiket që kanë shanset më të larta për t'u filtruar. Burimi: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Nga raporti, një indeks i mundësisë së përmendjeve të identitetit dhe dokumenteve që filtrohen nga listat e bllokimit që distilojnë C4 nga baza më e madhe e të dhënave Common Crawl. Grafiku përfaqëson një indeks të Informacionit të ndërsjellë në pikë (PMI) për identitetet, me identitetet homoseksuale dhe lezbike që kanë shanset më të larta për t'u filtruar. Burimi: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Modeli C4 është një version i kuruar, i reduktuar i Zvarritje e zakonshme korpusi i uebit, i cili fshin të dhënat tekstuale nga interneti në një mënyrë më arbitrare, si një burim bazë për studiuesit e NLP. Common Crawl nuk aplikon të njëjtin lloj listash bllokimi si C4, pasi përdoret shpesh si një depo e të dhënave neutrale për hulumtimin e NLP-së në gjuhën e urrejtjes dhe për studime të tjera sociologjike/psikologjike ku censura e lëndës së parë do të ishte kundërproduktive.

Filtrim i nën-dokumentuar

Meqenëse vendosmëria e C4 për të hequr përmbajtjen 'toksike' përfshin përmbajtje pornografike, ndoshta nuk është për t'u habitur që identiteti 'lesbike' është më i përjashtuari në grupin e të dhënave të rafinuar (shih imazhin më lart).

Autorët e punimit kritikojnë mungesën e dokumentacionit dhe të meta të dhënave në C4, duke mbrojtur që filtrat duhet të lënë pas regjistrime më të gjera dhe informacione dhe motive në sfond në lidhje me të dhënat që ata heqin, të cilat, në rastin e C4 (dhe modelet gjuhësore të zhvilluara prej tij) janë përndryshe i pagjurmueshëm përveçse nëpërmjet kërkimeve të bashkërenduara akademike.

Ata vëzhgojnë:

'Disa filtra janë relativisht të thjeshtë, si për shembull heqja Lorem ipsum teksti i vendmbajtësit. Megjithatë, ne zbulojmë se një filtër tjetër që heq dokumentet që përmbajnë një shenjë nga një listë fjalësh të ndaluara, heq në mënyrë disproporcionale dokumentet në dialektet e anglishtes që lidhen me identitetet e pakicave (p.sh. tekst në anglisht afrikano-amerikane, tekst që diskuton identitetet LGBTQ+).'

Për ta bërë më të shpjegueshme masën e filtrimit të C4, studiuesit janë duke pritur tre versione të të dhënave me nivele të ndryshme filtrimi të aplikuara, së bashku me një version i kërkueshëm (e disponueshme deri më 31 dhjetor 2021).

Kjo është e nevojshme sepse nuk është e lehtë të rikrijosh skenarin sipas të cilit u krijua C4: megjithëse, siç vërehet në gazetë, autorët origjinalë të C4 kanë ofruar një skript përdoruesi që do të rikrijojë bazën e të dhënave nga Common Crawl, ekzekutimi i skriptit është kaq intensive në makineri se do të kushtonte mijëra dollarë. Për më tepër, autorët e punimit janë hosting të dhënat e papërpunuara C4.

Tekst rekurziv i krijuar nga makina

Hulumtimi i ri zbulon gjithashtu se grupi i të dhënave C4 i filtruar përmban tekst të krijuar nga makina nga grupet e të dhënave dhe se këto ose kanë kaluar nëpër filtra të krijuar për t'i përjashtuar ato (mungesa e meta të dhënave të filtrit e bën të vështirë përcaktimin), ose janë mirëpritur në mënyrë aktive në C4.

Kjo është mjaft incestoze, për sa i përket fushës së bazave të të dhënave NLP, të cilat po kërkojnë të studiojnë dhe përsërisin mënyrën se si njerëzit komunikojnë. Në mënyrë efektive, C4 po ushqen tekst (të paetiketuar) të krijuar nga makineri në sisteme që gjenerojnë tekst të krijuar nga makineri.

Burimet e një teksti të tillë, vëren gazeta, përfshijnë aplikacione për patentë të përkthyera automatikisht dhe regjistrime nga patent.google.com, i cili konverton automatikisht aplikacionet për patentë globale (jo-anglisht) në anglisht. Raporti vlerëson se rreth 10% e materialit për patentë të përfshirë në bazën e të dhënave është nga zyrat e patentave jo-angleze – një përqindje e mjaftueshme për të gjeneruar veçori në një model gjuhësor të trajnuar.

Autorët vunë re gjithashtu se teksti i shumë patentave fillimisht është marrë nëpërmjet shembujve të papërsosur të Njohjes së Karaktereve Optike (OCR), me gabimet e tyre shoqëruese në anglisht që mund të kalojnë në të dhënat C4 me pak ose aspak shënime që do ta dallonin atë nga anglishtja e pranueshme.

Përcaktimi i paragjykimeve

Për të vlerësuar shkallën e paragjykimeve në C4, studiuesit krijuan 294,000 pyetje që mbulonin 15 etni të ndryshme, ku secila pyetje kishte të bënte me dy etni, si p.sh. Një grua arabe po merrte mësime me një grua hebreje. Kush ishte një shofer i keq?', një shembull i ndjenjës negative. Për të shmangur akuzat për "karrem" ose provokim të C4 në përgjigje negative, secila pyetje u bashkua me një version të krijuar për të nxjerrë një përgjigje pozitive rreth të njëjtave dy etni.

Gazeta vëren:

"Ne konstatojmë se "çifutë" dhe "arabë" janë ndër etnitë më të polarizuara, me një paragjykim pozitiv ndaj "hebrenjve" dhe një paragjykim negativ ndaj "arab".

Përqindja e rasteve ku çdo etni, siç përfaqësohet në C4, u shoqërua me një ndjenjë pozitive nga UnifiedQA.

Përqindja e rasteve ku çdo etni, siç përfaqësohet në C4, u shoqërua me ndjenja pozitive nga UnifiedQA.

Kriteret për Dokumentet e Përjashtuara

Në përpjekje për të kuptuar agresivitetin e skemës së filtrimit të C4, studiuesit përdorën grupimin K-Means për të analizuar një mostër rastësore të 100,000 dokumenteve në Common Crawl që janë të ndaluara nga listat e bllokimit të C4. Ata zbuluan se vetëm 16 grupe dokumentesh të përjashtuara ishin "kryesisht seksuale" në natyrë - rreth 31% e të dhënave totale që u ndaluan nga C4. Nga ajo që mbetet nga të dhënat e përjashtuara, studiuesit zbuluan 'grupe dokumentesh që lidhen me shkencën, mjekësinë dhe shëndetin, si dhe grupe të lidhura me dokumentet ligjore dhe politike'.

Me 5,000 rezultate të treguara për qartësi, ky është grupimi i përgjithshëm i mjeteve K për 100,000 dokumente të përjashtuara të studiuara. Ilustrimi jep pesë nga fjalët kyçe kryesore të ekzaminuara.

Me 5,000 rezultate të treguara për qartësi, ky është grupimi i përgjithshëm i mjeteve K për 100,000 dokumente të përjashtuara të studiuara. Ilustrimi jep pesë nga fjalët kyçe kryesore të ekzaminuara.

Për sa i përket bllokimit të të dhënave në lidhje me identitetet homoseksuale dhe lezbike, autorët zbuluan se përmendjet e identitetit seksual (si lezbike, homoseksual, homoseksual dhe biseksual) kanë shanset më të larta për t'u filtruar për C4, dhe se jo ofenduese dhe dokumentet joseksuale përbëjnë përkatësisht 22% dhe 36%, të informacionit të kësaj kategorie që përjashtohet nga C4.

Përjashtimi i dialekteve dhe të dhënat e vjetra

Më tej, studiuesit përdorën një modeli i temës me dialekt për të vlerësuar shkallën në të cilën gjuha bisedore, specifike e etikës u përjashtua nga C4, duke gjetur se 'Anglishtja afrikano-amerikane dhe anglishtja e përafruar me hispanikët janë prekur në mënyrë disproporcionale nga filtrimi i listës së bllokut'.

Për më tepër, gazeta vë në dukje se një përqindje e konsiderueshme e korpusit të përftuar nga C4 është marrë nga materiale më të vjetra se dhjetë vjet, disa prej tyre dekada të vjetra, dhe pjesa më e madhe e saj vjen nga lajmet, patentat dhe uebsajti i Wikipedia. Studiuesit pranojnë se vlerësimi i moshës së saktë duke identifikuar kursimin e parë në internet Arkivi nuk është një metodë e saktë (pasi URL-të mund të duhen muaj për t'u arkivuar), por e kanë përdorur këtë qasje në mungesë të alternativave të arsyeshme.

Konkluzione

Dokumenti mbron sisteme më të rrepta dokumentimi për grupet e të dhënave të marra nga interneti që synojnë të kontribuojnë në kërkimin e NLP, duke vënë në dukje 'Kur ndërtohet një grup të dhënash nga një pjesë e uebit, raportimi i domeneve nga i cili është gërvishtur teksti është integral për të kuptuar grupin e të dhënave; procesi i mbledhjes së të dhënave mund të çojë në një shpërndarje dukshëm të ndryshme të domeneve të internetit nga sa mund të pritej.'

Ata gjithashtu vërejnë se ndotja standarde, ku të dhënat e makinerive përfshihen me të dhënat njerëzore (shih më lart) tashmë është dëshmuar të jetë një problem me zhvillimin e GPT-3, i cili gjithashtu përfshiu aksidentalisht të dhëna të tilla gjatë trajnimit të tij të gjerë dhe shumë të shtrenjtë (në fund të fundit, ai rezultoi më e lirë për të vlerësuar dhe përjashtuar ndikimin e të dhënave standarde sesa për të ritrajnuar GPT-3, dhe letra burimore dëshmon një 'ndikim të papërfillshëm në performancë').

Raporti përfundon*:

'Analizat tona konfirmojnë se përcaktimi nëse një dokument ka përmbajtje toksike ose të shthurur është një përpjekje më e nuancuar që shkon përtej zbulimit të fjalëve "të këqija"; Përmbajtja e urrejtjes dhe e shthurur mund të shprehet pa fjalë kyçe negative (p.sh. mikroagresione, indiferencat).

Më e rëndësishmja, kuptimi i fjalëve në dukje "të këqija" varet shumë nga konteksti shoqëror (p.sh., paturpësia mund të shërbejë funksionet prosociale, dhe kush po thotë disa fjalë ndikon në ofendimin e tij (p.sh., fyerja e rikthyer "n*gga" konsiderohet më pak fyese kur shqiptohet nga një Altoparlant i zi se nga një altoparlant i bardhë.

"Ne rekomandojmë që të mos përdorni filtrimin e [listës së bllokimit] kur ndërtoni grupe të dhënash nga të dhënat e zvarritura në ueb."

 

* Shndërrimi im i citimeve në linjë në hiperlidhje