csonk A Google természetes nyelvi feldolgozási modelljeiből „kiszűrt” kisebbségi hangok – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A kisebbségi hangok „kiszűrve” a Google természetes nyelvi feldolgozási modelljeiből

mm
korszerűsített on

Egy új kutatás szerint az egyik legnagyobb rendelkezésre álló Natural Language Processing (NLP) adatkészletet alaposan „szűrték”, hogy eltávolítsák a fekete és spanyol szerzőket, valamint a meleg és leszbikus identitással kapcsolatos anyagokat, valamint a forrásadatokat, amelyek számos problémával foglalkoznak. egyéb marginális vagy kisebbségi identitások.

Az adatkészletet a Google képzésére használták Transzformátor kapcsoló és a T5 modell, és maga a Google AI gondozta.

A jelentés azt állítja, hogy a Colossal Clean Crawled Corpus ('C4') adatkészletet, amely 156 milliárd tokent tartalmaz több mint 365 millió internetes domainről, és a hatalmas Common Crawl lemásolt adatbázis egy részhalmaza, alaposan (algoritmikusan) szűrték, hogy kizárják a "sértő" és "mérgező" tartalmat. és hogy a C4 lepárlásához használt szűrők hatékonyan célozzák meg a kisebbségi csoportok tartalmát és vitáit.

A jelentés kimondja:

"A kizárt adatok vizsgálata arra utal, hogy a fekete és spanyol szerzőkkel kapcsolatos dokumentumokat, valamint a szexuális irányultságot megemlítő dokumentumokat a C4.EN blokkolista szűrése jelentősen nagyobb valószínűséggel zárja ki, és sok kizárt dokumentum tartalmazott nem sértő vagy nem szexuális tartalmat ( pl. az azonos neműek házasságával kapcsolatos jogalkotási viták, tudományos és orvosi tartalom).

A munka megjegyzi, hogy az eredmények súlyosbítják a nyelvi alapú faji egyenlőtlenséget az NLP szektorban, valamint megbélyegzik az LMBTQ+ identitásokat. Így folytatódik:

Ezen túlmenően az ilyen szövegek nyelvi modellek betanítására használt adatkészletekből való eltávolításának közvetlen következménye az, hogy a modellek gyengén teljesítenek, ha kisebbségi identitású személyektől származó és róluk szóló szövegekre alkalmazzák őket, így gyakorlatilag kizárják őket a technológia előnyeiből, például a gépi fordításból vagy a keresésből. .'

A közös feltérképezés gondozása

A jelentést, címe Nagy webszöveg korpuszok dokumentálása: Esettanulmány a Colossal Clean Crawled Corpusról, az Allen Institute for Artificial Intelligence kutatói, a Washingtoni Egyetem Paul G. Allen Számítástechnikai és Mérnöki Iskolája, Hugging Face, és Queer az AI-ban.

A jelentésből egy index, amely a személyazonosság-említések valószínűségét és a dokumentumokat a nagyobb Common Crawl adatbázisból C4-et eltávolító blokklisták által szűrt kiszűrésére utal. A grafikon a Pointwise Mutual Information (PMI) indexét mutatja be az identitásokhoz, ahol a melegek és leszbikusok esetében van a legnagyobb esély a kiszűrésre. Forrás: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

A jelentésből egy index, amely a személyazonosság-említések valószínűségét és a dokumentumokat a nagyobb Common Crawl adatbázisból a C4-et lepárló blokklisták által kiszűri. A grafikon a Pointwise Mutual Information (PMI) indexét mutatja be az identitásokhoz, ahol a legnagyobb eséllyel a meleg és leszbikus identitások kerülnek kiszűrésre. Forrás: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

A C4 modell a kurátor, csökkentett változata a Közös feltérképezés web korpusz, amely önkényesebb módon kaparja ki a szöveges adatokat az internetről, az NLP-kutatók alapforrásaként. A Common Crawl nem alkalmaz ugyanolyan típusú blokklistákat, mint a C4, mivel gyakran használják semleges adattárként a gyűlöletbeszéddel kapcsolatos NLP-kutatásokhoz, és más szociológiai/pszichológiai tanulmányokhoz, ahol a nyersanyag cenzúrája kontraproduktív lenne.

Aluldokumentált szűrés

Mivel a C4 eltökélt szándéka a „mérgező” tartalom eltávolítására kiterjed a pornográf tartalomra is, talán nem meglepő, hogy a „leszbikus” identitás a leginkább kizárt a finomított adatkészletből (lásd a fenti képet).

A cikk szerzői kifogásolják a C4 dokumentációjának és metaadatainak hiányát, és azt javasolják, hogy a szűrőknek kiterjedtebb rekordokat és háttérinformációkat és motívumokat hagyjanak hátra az általuk eltávolított adatokkal kapcsolatban, ami a C4 (és az abból kifejlesztett nyelvi modellek) esetében egyébként követhetetlen, kivéve összehangolt tudományos kutatás révén.

Megfigyelik:

„Egyes szűrők viszonylag egyszerűek, mint például az eltávolítás Lorem ipsum helyőrző szöveg. Azonban azt tapasztaljuk, hogy egy másik szűrő, amely eltávolítja a tokent tartalmazó dokumentumokat a tiltott szavak listájáról, aránytalanul eltávolítja a kisebbségi identitásokhoz kapcsolódó angol dialektusú dokumentumokat (pl. afroamerikai angol nyelvű szöveget, LMBTQ+ identitásokat tárgyaló szövegeket).

A kutatók a C4-szűrés mértékének megmagyarázhatóbbá tétele érdekében az adatok három változatának tárolása különböző szintű szűréssel együtt kereshető változata (31. december 2021-ig elérhető).

Erre azért van szükség, mert nem könnyű újra létrehozni azt a forgatókönyvet, amely alapján a C4 létrejött: bár, amint a cikk megjegyzi, a C4 eredeti szerzői biztosítottak egy felhasználói szkriptet, amely újra létrehozza az adatbázist a Common Crawlból, a szkript futtatása olyan gépigényes hogy több ezer dollárba kerülne. Ezenkívül a cikk szerzői tárhely a nyers C4 adatok.

Rekurzív gépi generált szöveg

Az új kutatás azt is megállapította, hogy a szűrt C4 adatkészletben az adatkészletekből géppel generált szöveg található, és ezek vagy átcsúsztak a kizárásukra kialakított szűrőkön (a szűrő metaadatainak hiánya megnehezíti a megállapítást), vagy aktívan fogadják a C4-ben.

Ez elég vérfertőzés az NLP-adatbázisok körét tekintve, amelyek az emberek kommunikációjának tanulmányozására és megismétlésére törekszenek. Valójában a C4 (címkézetlen) gépi szöveget táplál be olyan rendszerekbe, amelyek gépi szöveget generálnak.

Az ilyen szövegek forrásai közé tartoznak az automatikusan lefordított szabadalmi bejelentések és a patent.google.com webhelyről származó bejegyzések, amelyek automatikusan angolra konvertálják a globális (nem angol nyelvű) szabadalmi bejelentéseket. A jelentés becslése szerint az adatbázisban szereplő szabadalmi anyagok körülbelül 10%-a nem angol szabadalmi hivataloktól származik – ez elég jelentős százalék ahhoz, hogy egy betanított nyelvi modellben jellemzőket generáljon.

A szerzők azt is megfigyelték, hogy számos szabadalom szövegét kezdetben az optikai karakterfelismerés (OCR) tökéletlen példáin keresztül kapták meg, és az angol nyelvű kísérő hibák valószínűleg átkerültek a C4-adatokba, kevés vagy egyáltalán nem olyan megjegyzéssel, amely megkülönböztetné azt az elfogadható angoltól.

Elfogultság meghatározása

A C4 elfogultság mértékének felmérésére a kutatók 294,000 15 kérdést generáltak XNUMX különböző etnikumra vonatkozóan, és mindegyik kérdés két etnikumra vonatkozott, mint pl. – Egy arab nő egy zsidó nővel vett részt. Ki volt a rossz sofőr?, egy példa a negatív érzelmekre. A „csalizás” vagy a C4 negatív válaszokra való provokálása miatti vádak elkerülése érdekében minden kérdést párosítottak egy olyan változattal, amely pozitív választ vált ki ugyanazon két etnikum körében.

A lap megjegyzi:

„Úgy találjuk, hogy a „zsidó” és az „arab” a leginkább polarizált etnikumok közé tartozik, pozitívan elfogulva a „zsidó” és negatívan az „arab” felé.

Azon alkalmak aránya, amikor az egyes etnikai hovatartozásokat a C4-ben ábrázolt pozitív hangulathoz kapcsolta az UnifiedQA.

Azoknak az alkalmaknak az aránya, amikor az egyes etnikai hovatartozások – amint azt a C4-ben képviselik – a pozitív hangulathoz kapcsolódnak UnifiedQA.

A kizárt dokumentumok kritériumai

Annak érdekében, hogy megértsék a C4 szűrési sémájának agresszivitását, a kutatók a K-Means klaszterezést használták a Common Crawl programban véletlenszerűen kiválasztott 100,000 4 dokumentum elemzésére, amelyeket a C16 tiltólistái tiltottak. Azt találták, hogy a kizárt dokumentumoknak mindössze 31 klasztere volt „nagyrészt szexuális” jellegű – a C4-ből kitiltott összes adat körülbelül XNUMX%-a. A kutatók megállapították, hogy mi marad a kizárt adatokból „tudományos, orvostudományi és egészségügyi dokumentumcsoportok, valamint jogi és politikai dokumentumokkal kapcsolatos klaszterek”.

Az egyértelműség kedvéért 5,000 eredmény látható, ez az általános K-átlagok klasztere 100,000 XNUMX vizsgált kizárt dokumentumra. Az illusztráció a vizsgált legfontosabb kulcsszavak közül ötöt mutat be.

Az egyértelműség kedvéért 5,000 eredmény látható, ez az általános K-átlagok klasztere 100,000 XNUMX vizsgált kizárt dokumentumra. Az illusztráció a vizsgált legfontosabb kulcsszavak közül ötöt mutat be.

Ami a meleg és leszbikus identitással kapcsolatos adatok blokkolását illeti, a szerzők azt találták, hogy a szexuális identitás (például leszbikus, meleg, homoszexuális és biszexuális) említése a legnagyobb eséllyel kiszűrhető a C4-ből, és nem sértő. és a nem szexuális dokumentumok 22%-át, illetve 36%-át teszik ki az ebbe a kategóriába tartozó, a C4-ből kizárt információknak.

Dialektus kizárása és régi adatok

Továbbá a kutatók a nyelvjárás-tudatos témamodell megbecsülni, hogy a köznyelvi, etikai specifikus nyelv milyen mértékben záródott ki a C4-ből, azt találva „Az afro-amerikai angolt és a spanyol nyelvű angol nyelvet aránytalanul érinti a tiltólista szűrése”.

Ezenkívül a lap megjegyzi, hogy a C4-ből származó korpusz jelentős százaléka tíz évnél régebbi, egy részük több évtizedes anyagból származik, nagy része pedig hírekből, szabadalmakból és a Wikipédia webhelyéről származik. A kutatók elismerik, hogy a pontos életkor becslése az első mentés azonosítása alapján történik az interneten Archív nem pontos módszer (mivel az URL-ek archiválása hónapokig tarthat), de ésszerű alternatívák hiányában ezt a megközelítést alkalmaztuk.

Következtetések

A cikk az NLP-kutatáshoz való hozzájárulást célzó, az internetről származó adatkészletek szigorúbb dokumentálási rendszerét támogatja. „Amikor egy adatkészletet készítünk egy weblapból, a szöveg kimásolt tartományainak jelentése elengedhetetlen az adatkészlet megértéséhez; az adatgyűjtési folyamat az internetes domainek számottevően eltérő eloszlásához vezethet, mint ahogy azt várnánk.

Megfigyelik azt is, hogy a benchmark szennyezés, ahol a gépi adatok is szerepelnek az emberi adatokkal (lásd fent), már problémának bizonyult a GPT-3 fejlesztése során, amely véletlenül ilyen adatokat is tartalmazott a kiterjedt és nagyon költséges képzés során (végül pedig olcsóbbnak bizonyult a benchmark adatok hatásának számszerűsítése és kizárása, mint a GPT-3 átképzése, és forráspapír „elhanyagolható hatást tesz a teljesítményre”).

A jelentés így zárul*:

„Elemzéseink megerősítik, hogy annak megállapítása, hogy egy dokumentum mérgező vagy alantas tartalmat tartalmaz-e, árnyaltabb törekvés, amely túlmutat a „rossz” szavak észlelésén; A gyűlöletkeltő és alázatos tartalom kizáró kulcsszavak nélkül is kifejezhető (pl. mikroagressziók, utalások).

Fontos, hogy a látszólag „rossz” szavak jelentése nagymértékben függ a társadalmi kontextustól (pl. az udvariatlanság szolgálhat proszociális funkciók, és aki kimond bizonyos szavakat, az befolyásolja annak sértő voltát (pl. a visszakapott „n*gga” szó kevésbé sértőnek számít, ha valaki kimondja Fekete hangszóró mint fehér hangszóró által.

"Azt javasoljuk, hogy ne használja a [blokkolista] szűrést, amikor adatkészleteket hoz létre webes feltérképezésű adatokból."

 

* A soron belüli idézetek átalakítása hiperhivatkozásokká