Mesterséges Intelligencia
A kisebbségi hangok „kiszűrve” a Google természetes nyelvi feldolgozási modelljeiből
Egy új kutatás szerint az egyik legnagyobb rendelkezésre álló Natural Language Processing (NLP) adatkészletet alaposan „szűrték”, hogy eltávolítsák a fekete és spanyol szerzőket, valamint a meleg és leszbikus identitással kapcsolatos anyagokat, valamint a forrásadatokat, amelyek számos problémával foglalkoznak. egyéb marginális vagy kisebbségi identitások.
Az adatkészletet a Google képzésére használták Transzformátor kapcsoló és a T5 modell, és maga a Google AI gondozta.
A jelentés azt állítja, hogy a Colossal Clean Crawled Corpus ('C4') adatkészletet, amely 156 milliárd tokent tartalmaz több mint 365 millió internetes domainről, és a hatalmas Common Crawl lemásolt adatbázis egy részhalmaza, alaposan (algoritmikusan) szűrték, hogy kizárják a "sértő" és "mérgező" tartalmat. és hogy a C4 lepárlásához használt szűrők hatékonyan célozzák meg a kisebbségi csoportok tartalmát és vitáit.
A jelentés kimondja:
"A kizárt adatok vizsgálata arra utal, hogy a fekete és spanyol szerzőkkel kapcsolatos dokumentumokat, valamint a szexuális irányultságot megemlítő dokumentumokat a C4.EN blokkolista szűrése jelentősen nagyobb valószínűséggel zárja ki, és sok kizárt dokumentum tartalmazott nem sértő vagy nem szexuális tartalmat ( pl. az azonos neműek házasságával kapcsolatos jogalkotási viták, tudományos és orvosi tartalom).
A munka megjegyzi, hogy az eredmények súlyosbítják a nyelvi alapú faji egyenlőtlenséget az NLP szektorban, valamint megbélyegzik az LMBTQ+ identitásokat. Így folytatódik:
Ezen túlmenően az ilyen szövegek nyelvi modellek betanítására használt adatkészletekből való eltávolításának közvetlen következménye az, hogy a modellek gyengén teljesítenek, ha kisebbségi identitású személyektől származó és róluk szóló szövegekre alkalmazzák őket, így gyakorlatilag kizárják őket a technológia előnyeiből, például a gépi fordításból vagy a keresésből. .'
A közös feltérképezés gondozása
A jelentést, címe Nagy webszöveg korpuszok dokumentálása: Esettanulmány a Colossal Clean Crawled Corpusról, az Allen Institute for Artificial Intelligence kutatói, a Washingtoni Egyetem Paul G. Allen Számítástechnikai és Mérnöki Iskolája, Hugging Face, és Queer az AI-ban.
A C4 modell a kurátor, csökkentett változata a Közös feltérképezés web korpusz, amely önkényesebb módon kaparja ki a szöveges adatokat az internetről, az NLP-kutatók alapforrásaként. A Common Crawl nem alkalmaz ugyanolyan típusú blokklistákat, mint a C4, mivel gyakran használják semleges adattárként a gyűlöletbeszéddel kapcsolatos NLP-kutatásokhoz, és más szociológiai/pszichológiai tanulmányokhoz, ahol a nyersanyag cenzúrája kontraproduktív lenne.
Aluldokumentált szűrés
Mivel a C4 eltökélt szándéka a „mérgező” tartalom eltávolítására kiterjed a pornográf tartalomra is, talán nem meglepő, hogy a „leszbikus” identitás a leginkább kizárt a finomított adatkészletből (lásd a fenti képet).
A cikk szerzői kifogásolják a C4 dokumentációjának és metaadatainak hiányát, és azt javasolják, hogy a szűrőknek kiterjedtebb rekordokat és háttérinformációkat és motívumokat hagyjanak hátra az általuk eltávolított adatokkal kapcsolatban, ami a C4 (és az abból kifejlesztett nyelvi modellek) esetében egyébként követhetetlen, kivéve összehangolt tudományos kutatás révén.
Megfigyelik:
„Egyes szűrők viszonylag egyszerűek, mint például az eltávolítás Lorem ipsum helyőrző szöveg. Azonban azt tapasztaljuk, hogy egy másik szűrő, amely eltávolítja a tokent tartalmazó dokumentumokat a tiltott szavak listájáról, aránytalanul eltávolítja a kisebbségi identitásokhoz kapcsolódó angol dialektusú dokumentumokat (pl. afroamerikai angol nyelvű szöveget, LMBTQ+ identitásokat tárgyaló szövegeket).
A kutatók a C4-szűrés mértékének megmagyarázhatóbbá tétele érdekében az adatok három változatának tárolása különböző szintű szűréssel együtt kereshető változata (31. december 2021-ig elérhető).
Erre azért van szükség, mert nem könnyű újra létrehozni azt a forgatókönyvet, amely alapján a C4 létrejött: bár, amint a cikk megjegyzi, a C4 eredeti szerzői biztosítottak egy felhasználói szkriptet, amely újra létrehozza az adatbázist a Common Crawlból, a szkript futtatása olyan gépigényes hogy több ezer dollárba kerülne. Ezenkívül a cikk szerzői tárhely a nyers C4 adatok.
Rekurzív gépi generált szöveg
Az új kutatás azt is megállapította, hogy a szűrt C4 adatkészletben az adatkészletekből géppel generált szöveg található, és ezek vagy átcsúsztak a kizárásukra kialakított szűrőkön (a szűrő metaadatainak hiánya megnehezíti a megállapítást), vagy aktívan fogadják a C4-ben.
Ez elég vérfertőzés az NLP-adatbázisok körét tekintve, amelyek az emberek kommunikációjának tanulmányozására és megismétlésére törekszenek. Valójában a C4 (címkézetlen) gépi szöveget táplál be olyan rendszerekbe, amelyek gépi szöveget generálnak.
Az ilyen szövegek forrásai közé tartoznak az automatikusan lefordított szabadalmi bejelentések és a patent.google.com webhelyről származó bejegyzések, amelyek automatikusan angolra konvertálják a globális (nem angol nyelvű) szabadalmi bejelentéseket. A jelentés becslése szerint az adatbázisban szereplő szabadalmi anyagok körülbelül 10%-a nem angol szabadalmi hivataloktól származik – ez elég jelentős százalék ahhoz, hogy egy betanított nyelvi modellben jellemzőket generáljon.
A szerzők azt is megfigyelték, hogy számos szabadalom szövegét kezdetben az optikai karakterfelismerés (OCR) tökéletlen példáin keresztül kapták meg, és az angol nyelvű kísérő hibák valószínűleg átkerültek a C4-adatokba, kevés vagy egyáltalán nem olyan megjegyzéssel, amely megkülönböztetné azt az elfogadható angoltól.
Elfogultság meghatározása
A C4 elfogultság mértékének felmérésére a kutatók 294,000 15 kérdést generáltak XNUMX különböző etnikumra vonatkozóan, és mindegyik kérdés két etnikumra vonatkozott, mint pl. – Egy arab nő egy zsidó nővel vett részt. Ki volt a rossz sofőr?, egy példa a negatív érzelmekre. A „csalizás” vagy a C4 negatív válaszokra való provokálása miatti vádak elkerülése érdekében minden kérdést párosítottak egy olyan változattal, amely pozitív választ vált ki ugyanazon két etnikum körében.
A lap megjegyzi:
„Úgy találjuk, hogy a „zsidó” és az „arab” a leginkább polarizált etnikumok közé tartozik, pozitívan elfogulva a „zsidó” és negatívan az „arab” felé.
A kizárt dokumentumok kritériumai
Annak érdekében, hogy megértsék a C4 szűrési sémájának agresszivitását, a kutatók a K-Means klaszterezést használták a Common Crawl programban véletlenszerűen kiválasztott 100,000 4 dokumentum elemzésére, amelyeket a C16 tiltólistái tiltottak. Azt találták, hogy a kizárt dokumentumoknak mindössze 31 klasztere volt „nagyrészt szexuális” jellegű – a C4-ből kitiltott összes adat körülbelül XNUMX%-a. A kutatók megállapították, hogy mi marad a kizárt adatokból „tudományos, orvostudományi és egészségügyi dokumentumcsoportok, valamint jogi és politikai dokumentumokkal kapcsolatos klaszterek”.
Ami a meleg és leszbikus identitással kapcsolatos adatok blokkolását illeti, a szerzők azt találták, hogy a szexuális identitás (például leszbikus, meleg, homoszexuális és biszexuális) említése a legnagyobb eséllyel kiszűrhető a C4-ből, és nem sértő. és a nem szexuális dokumentumok 22%-át, illetve 36%-át teszik ki az ebbe a kategóriába tartozó, a C4-ből kizárt információknak.
Dialektus kizárása és régi adatok
Továbbá a kutatók a nyelvjárás-tudatos témamodell megbecsülni, hogy a köznyelvi, etikai specifikus nyelv milyen mértékben záródott ki a C4-ből, azt találva „Az afro-amerikai angolt és a spanyol nyelvű angol nyelvet aránytalanul érinti a tiltólista szűrése”.
Ezenkívül a lap megjegyzi, hogy a C4-ből származó korpusz jelentős százaléka tíz évnél régebbi, egy részük több évtizedes anyagból származik, nagy része pedig hírekből, szabadalmakból és a Wikipédia webhelyéről származik. A kutatók elismerik, hogy a pontos életkor becslése az első mentés azonosítása alapján történik az interneten Archív nem pontos módszer (mivel az URL-ek archiválása hónapokig tarthat), de ésszerű alternatívák hiányában ezt a megközelítést alkalmaztuk.
Következtetések
A cikk az NLP-kutatáshoz való hozzájárulást célzó, az internetről származó adatkészletek szigorúbb dokumentálási rendszerét támogatja. „Amikor egy adatkészletet készítünk egy weblapból, a szöveg kimásolt tartományainak jelentése elengedhetetlen az adatkészlet megértéséhez; az adatgyűjtési folyamat az internetes domainek számottevően eltérő eloszlásához vezethet, mint ahogy azt várnánk.
Megfigyelik azt is, hogy a benchmark szennyezés, ahol a gépi adatok is szerepelnek az emberi adatokkal (lásd fent), már problémának bizonyult a GPT-3 fejlesztése során, amely véletlenül ilyen adatokat is tartalmazott a kiterjedt és nagyon költséges képzés során (végül pedig olcsóbbnak bizonyult a benchmark adatok hatásának számszerűsítése és kizárása, mint a GPT-3 átképzése, és forráspapír „elhanyagolható hatást tesz a teljesítményre”).
A jelentés így zárul*:
„Elemzéseink megerősítik, hogy annak megállapítása, hogy egy dokumentum mérgező vagy alantas tartalmat tartalmaz-e, árnyaltabb törekvés, amely túlmutat a „rossz” szavak észlelésén; A gyűlöletkeltő és alázatos tartalom kizáró kulcsszavak nélkül is kifejezhető (pl. mikroagressziók, utalások).
Fontos, hogy a látszólag „rossz” szavak jelentése nagymértékben függ a társadalmi kontextustól (pl. az udvariatlanság szolgálhat proszociális funkciók, és aki kimond bizonyos szavakat, az befolyásolja annak sértő voltát (pl. a visszakapott „n*gga” szó kevésbé sértőnek számít, ha valaki kimondja Fekete hangszóró mint fehér hangszóró által.
"Azt javasoljuk, hogy ne használja a [blokkolista] szűrést, amikor adatkészleteket hoz létre webes feltérképezésű adatokból."
* A soron belüli idézetek átalakítása hiperhivatkozásokká