Mesterséges Intelligencia
A „faji kategorizálás” kihívása a CLIP-alapú képszintézis rendszerek számára
Egy új amerikai kutatás azt találja, hogy a sokak által kedvelt DALL-E sorozat mögött meghúzódó egyik népszerű számítógépes látásmodell, valamint számos más képgenerálási és osztályozási modell bizonyíthatóan a felé irányuló tendenciát mutat. hypodescent – a faji kategorizálási szabály (más néven a „egy csepp” szabály).
Mivel a hypodescent már jellemzett Az emberiség történelmének legrondább fejezetei közül az új cikk szerzői azt javasolják, hogy a számítógépes látás kutatásának és megvalósításának ilyen tendenciáira nagyobb figyelmet kell fordítani, nem utolsósorban azért, mert a szóban forgó, havonta közel milliószor letöltött támogató keret tovább terjedhet. és a faji elfogultságot hirdetik a downstream keretrendszerekben.
Az új műben vizsgált építészet az Kontrasztív nyelvi kép előképzése (CLIP), egy multimodális gépi tanulási modell, amely szemantikai asszociációkat tanul meg az internetről levont kép/felirat párokon – egy félig felügyelt megközelítés, amely csökkenti a címkézés jelentős költségeit, de valószínűleg tükrözi az emberek elfogultságát, készítette a feliratokat.
A papírból:
„Eredményeink bizonyítékot szolgáltatnak a CLIP beágyazási térben való alászállásra, amely torzítás erősebben érvényesül a nőkről készült képeken. Az eredmények továbbá azt mutatják, hogy a CLIP a fehértől való eltérés alapján faji vagy etnikai címkékkel társítja a képeket, és a fehér az alapértelmezett.
A tanulmány azt is megállapította, hogy egy kép vegyérték-asszociációja (hajlamos arra, hogy „jó” vagy „rossz” dolgokkal társuljon, lényegesen magasabb a „kisebbségi” faji címkék esetében, mint a kaukázusi címkék esetében, és azt sugallja, hogy a CLIP torzításai az USA-központú korpuszt tükrözik. irodalom (angol nyelvű Wikipédia), amelyen a keretet képezték.
A CLIP látszólagos alászállásának következményeit kommentálva a szerzők kijelentik*:
„A CLIP első felhasználási módjai között a nullás képgenerálási modell betanítása volt. DALL-E. A képzés során a CLIP architektúra nagyobb, nem publikus verzióját használták DALL-E2. A jelen kutatás eredményeivel összhangban a DALL-E 2 modellkártyán leírt kockázatok és korlátok megjegyezni hogy „olyan képeket produkál, amelyek hajlamosak felülreprezentálni a fehéren átmenő embereket”.
„Az ilyen felhasználások azt mutatják, hogy a CLIP által megismert torzítások a modell beágyazási területén túl is elterjedhetnek, mivel jellemzőit más korszerű AI-modellek szemantika kialakításának irányítására használják.
Ezen túlmenően, részben a CLIP és hasonló modellek által elért előrelépéseknek köszönhetően a képek és szövegek zéró-lövés beállításban történő társításában, a multimodális architektúrák leírt mint a széles körben használt internetes alkalmazások, köztük a keresőmotorok jövőjének alapja.
"Eredményeink azt mutatják, hogy további figyelmet kell fordítani arra, amit az ilyen modellek a természetes nyelvi felügyeletből tanulnak."
A papír címet viseli Bizonyíték a hypodescentre a vizuális szemantikus AI-ban, és a Washingtoni Egyetem és a Harvard Egyetem három kutatójától származik.
KLIP és rossz befolyások
Bár a kutatók tanúsítják, hogy munkájuk a CLIP-ben végzett hypodescent első elemzése, a korábbi munkák kimutatták, hogy a CLIP munkafolyamat, mivel nagyrészt felügyelet nélküli képzéstől függ. alul gondozott web-eredetű adatok, alulreprezentálja a nőket, termelhet sértő tartalom, és be tudja mutatni szemantikai torzítás (mint például a muszlimellenes érzelmek) a képkódolójában.
Az eredeti, a CLIP-et bemutató cikk elismerte, hogy a nullapontos környezetben a CLIP az embereknek csak 58.3%-át társítja a fehér faji címkével. FairFace adatkészlet. Megfigyelve, hogy a FairFace-t esetleges elfogultsággal jelölték meg az Amazon Mechanical Turk munkásai, az új tanulmány szerzői kijelentik, hogy „a többi ember által fehérnek tekintett emberek jelentős része a CLIP szerint a fehértől eltérő fajhoz kapcsolódik”.
Folytatják:
„Az ellenkezője nem tűnik igaznak, mivel a FairFace adatkészletben más faji vagy etnikai címkékhez tartozó személyeket a CLIP társítja ezekkel a címkékkel. Ez az eredmény azt sugallja, hogy a CLIP megtanulta a társadalomtudósok által leírt „hipodeszenciás” szabályt: a többnemzetiségű felmenőkkel rendelkező egyéneket nagyobb valószínűséggel tekintik és sorolják be a kisebbséghez vagy a kevésbé előnyös szülői csoporthoz, mint az ugyanilyen legitim többséghez. vagy előnyös szülői csoport.
„Más szavakkal, a fekete-fehér szülő gyermekét inkább feketének tekintik, mint fehérnek; és egy ázsiai és egy fehér szülő gyermekét inkább ázsiainak tartják, mint fehérnek.
A tanulmánynak három központi megállapítása van: a CLIP alátámasztást bizonyít azáltal, hogy a többnemzetiségű identitással rendelkező embereket a rájuk vonatkozó kisebbséghez hozzájáruló faji kategóriába „tereli”; hogy „a fehér az alapértelmezett verseny a CLIP-ben”, és a versengő versenyeket a fehér kategóriától való „eltérésük” határozza meg; és az vegyérték torzítás (a „rossz” fogalmakkal való asszociáció) annyiban korrelál, hogy az egyént faji kisebbségbe sorolják.
Módszer és adatok
Annak meghatározására, hogy a CLIP hogyan kezeli a többnemzetiségű alanyokat, a kutatók a korábban elfogadott Morphing technika az egyénekről készült képfajták megváltoztatására. A fényképek a Chicago arcadatbázis, egy készletet faji részvétellel kapcsolatos pszichológiai tanulmányokhoz fejlesztettek ki.
A kutatók csak a „semleges kifejezés” képeket választották az adatkészletből, hogy konzisztensek maradjanak a korábbi munkával. Használták a Generatív Adversarial Networket StílusGAN2-ADA (edzett tovább FFHQ).
A korábbi munkákkal összhangban a kutatók az önmagukat feketének, ázsiainak és latinnak valló emberek arcát a magukat fehérnek tituláló emberek arcává alakították át. Az eljárás során tizenkilenc köztes szakaszt állítanak elő. Ezzel a módszerrel összesen 21,000 1024x1024px kép készült a projekthez.
A kutatók ezután egy vetített képbeágyazást kaptak a CLIP-hez az egyes faji morfiumkészletek összesen 21 képéhez. Ezt követően a CLIP minden egyes képéhez kértek egy címkét: „többfaji”, „kétfaji”, „vegyes faj” és „személy” (a végső címke, amely kihagyja a fajt).
A CLIP használt verziója a CLIP-ViT-Base-Patch32 végrehajtás. A szerzők megjegyzik, hogy ezt a modellt több mint egymilliószor töltötték le a kutatásuk megírása előtti hónapban, és ez teszi ki a CLIP modellek letöltéseinek 98%-át. Transformers könyvtár.
Tesztek
A CLIP potenciális alászállási hajlamának tesztelésére a kutatók feljegyezték a CLIP által az egyes képekhez rendelt faji címkét az egyes egyedekre vonatkozó morfizált képek gradiensében.
Az eredmények szerint a CLIP hajlamos az embereket a „kisebbségi” kategóriákba csoportosítani az 50%-os átmenet körül.
Az eredmények azt mutatják, hogy a női alanyok hajlamosabbak az alászállásra a CLIP alatt, mint a férfiak, bár a szerzők azt feltételezik, hogy ennek az az oka, hogy a női képeket jellemző web-eredetű és nem kurátoros címkék általában jobban hangsúlyozzák az alany megjelenését, mint a férfiak esetében. és hogy ennek ferde hatása lehet.
50%-os faji átmenet mellett nem figyeltek meg hipodeszenciát az ázsiai-fehér hím vagy latin-fehér hím morfológiai sorozatoknál, míg a CLIP az esetek 67.5%-ában 55%-os keverési arány mellett nagyobb koszinuszos hasonlóságot adott a fekete címkéhez.
Az újság szerint az ideális cél az, hogy a CLIP pontosan „vegyes fajként” kategorizálja a köztes faji keverékeket, ahelyett, hogy meghatározna egy „fordulópontot”, amelynél az alany oly gyakran teljesen a nem fehér címkéhez tartozik.
A CLIP bizonyos mértékig hozzárendeli a közbenső morfológiai lépéseket a vegyes fajhoz (lásd a fenti grafikont), de végül egy középkategóriás előnyben részesíti az alanyokat a kisebbségben közreműködő fajként.
A vegyérték tekintetében a szerzők megjegyzik CLIP ferde ítéletét:
„Az [átlagos] vegyérték asszociáció (rosszhoz vagy kellemetlenhez, illetve jóhoz vagy kellemeshez való asszociáció) a keverési aránytól függően változik a fekete-fehér férfi morph sorozatban, így a CLIP a kellemetlenséggel kapcsolatos asszociációkat kódolja azon arcok esetében, amelyek leginkább hasonlítanak a CFD önkéntesekhez, akik önmaguk. -Feketének azonosítani.
A cikk kimondja:
„A bizonyítékok azt mutatják, hogy egy kép vegyértéke korrelál a faji [asszociációval]. Konkrétabban, eredményeink azt mutatják, hogy minél biztosabb a modell abban, hogy egy kép egy fekete egyént tükröz, annál inkább kapcsolódik a kép kellemetlen beágyazóteréhez.
Az eredmények azonban az ázsiai arcok esetében is negatív korrelációt jeleznek. A szerzők azt sugallják, hogy ennek oka lehet az ázsiai emberekről és közösségekről alkotott pozitív amerikai kulturális felfogás (web-alapú adatokon keresztül) átvitele. A szerzők kijelentik*:
„Az ázsiai szövegcímke kellemessége és valószínűsége közötti összefüggés megfigyelése megfelelhet a „minta-kisebbségi” sztereotípiának, amely szerint az ázsiai származású embereket dicsérik felfelé irányuló mobilitásuk és az amerikai kultúrába való asszimilációjuk miatt, sőt a „jó viselkedéshez” kapcsolódik.'
Ami a végső célt illeti, annak vizsgálata, hogy a CLIP szempontjából a fehér az „alapértelmezett identitás”, az eredmények beágyazott polaritásra utalnak, ami arra utal, hogy ebben az architektúrában meglehetősen nehéz „egy kicsit fehérnek” lenni.
A szerzők megjegyzései:
„A bizonyítékok azt mutatják, hogy a CLIP a White-ot alapértelmezett fajként kódolja. Ezt támasztja alá a fehér koszinusz hasonlóságok és a személyi koszinusz hasonlóságok közötti erősebb korrelációk, mint bármely más faji vagy etnikai csoport esetében.
*A szerzők soron belüli idézeteinek átalakítása hiperhivatkozásokká.
Első megjelenés: 24. május 2022.