csonk A „faji kategorizálás” kihívása a CLIP-alapú képszintézis-rendszerek számára – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A „faji kategorizálás” kihívása a CLIP-alapú képszintézis rendszerek számára

mm
korszerűsített on

Egy új amerikai kutatás azt találja, hogy a sokak által kedvelt DALL-E sorozat mögött meghúzódó egyik népszerű számítógépes látásmodell, valamint számos más képgenerálási és osztályozási modell bizonyíthatóan a felé irányuló tendenciát mutat. hypodescent – a faji kategorizálási szabály (más néven a „egy csepp” szabály).

Mivel a hypodescent már jellemzett Az emberiség történelmének legrondább fejezetei közül az új cikk szerzői azt javasolják, hogy a számítógépes látás kutatásának és megvalósításának ilyen tendenciáira nagyobb figyelmet kell fordítani, nem utolsósorban azért, mert a szóban forgó, havonta közel milliószor letöltött támogató keret tovább terjedhet. és a faji elfogultságot hirdetik a downstream keretrendszerekben.

Az új műben vizsgált építészet az Kontrasztív nyelvi kép előképzése (CLIP), egy multimodális gépi tanulási modell, amely szemantikai asszociációkat tanul meg az internetről levont kép/felirat párokon – egy félig felügyelt megközelítés, amely csökkenti a címkézés jelentős költségeit, de valószínűleg tükrözi az emberek elfogultságát, készítette a feliratokat.

A papírból:

„Eredményeink bizonyítékot szolgáltatnak a CLIP beágyazási térben való alászállásra, amely torzítás erősebben érvényesül a nőkről készült képeken. Az eredmények továbbá azt mutatják, hogy a CLIP a fehértől való eltérés alapján faji vagy etnikai címkékkel társítja a képeket, és a fehér az alapértelmezett.

A tanulmány azt is megállapította, hogy egy kép vegyérték-asszociációja (hajlamos arra, hogy „jó” vagy „rossz” dolgokkal társuljon, lényegesen magasabb a „kisebbségi” faji címkék esetében, mint a kaukázusi címkék esetében, és azt sugallja, hogy a CLIP torzításai az USA-központú korpuszt tükrözik. irodalom (angol nyelvű Wikipédia), amelyen a keretet képezték.

A CLIP látszólagos alászállásának következményeit kommentálva a szerzők kijelentik*:

„A CLIP első felhasználási módjai között a nullás képgenerálási modell betanítása volt. DALL-E. A képzés során a CLIP architektúra nagyobb, nem publikus verzióját használták DALL-E2. A jelen kutatás eredményeivel összhangban a DALL-E 2 modellkártyán leírt kockázatok és korlátok megjegyezni hogy „olyan képeket produkál, amelyek hajlamosak felülreprezentálni a fehéren átmenő embereket”.

„Az ilyen felhasználások azt mutatják, hogy a CLIP által megismert torzítások a modell beágyazási területén túl is elterjedhetnek, mivel jellemzőit más korszerű AI-modellek szemantika kialakításának irányítására használják.

Ezen túlmenően, részben a CLIP és hasonló modellek által elért előrelépéseknek köszönhetően a képek és szövegek zéró-lövés beállításban történő társításában, a multimodális architektúrák leírt mint a széles körben használt internetes alkalmazások, köztük a keresőmotorok jövőjének alapja.

"Eredményeink azt mutatják, hogy további figyelmet kell fordítani arra, amit az ilyen modellek a természetes nyelvi felügyeletből tanulnak."

A papír címet viseli Bizonyíték a hypodescentre a vizuális szemantikus AI-ban, és a Washingtoni Egyetem és a Harvard Egyetem három kutatójától származik.

KLIP és rossz befolyások

Bár a kutatók tanúsítják, hogy munkájuk a CLIP-ben végzett hypodescent első elemzése, a korábbi munkák kimutatták, hogy a CLIP munkafolyamat, mivel nagyrészt felügyelet nélküli képzéstől függ. alul gondozott web-eredetű adatok, alulreprezentálja a nőket, termelhet sértő tartalom, és be tudja mutatni szemantikai torzítás (mint például a muszlimellenes érzelmek) a képkódolójában.

Az eredeti, a CLIP-et bemutató cikk elismerte, hogy a nullapontos környezetben a CLIP az embereknek csak 58.3%-át társítja a fehér faji címkével. FairFace adatkészlet. Megfigyelve, hogy a FairFace-t esetleges elfogultsággal jelölték meg az Amazon Mechanical Turk munkásai, az új tanulmány szerzői kijelentik, hogy „a többi ember által fehérnek tekintett emberek jelentős része a CLIP szerint a fehértől eltérő fajhoz kapcsolódik”.

Folytatják:

„Az ellenkezője nem tűnik igaznak, mivel a FairFace adatkészletben más faji vagy etnikai címkékhez tartozó személyeket a CLIP társítja ezekkel a címkékkel. Ez az eredmény azt sugallja, hogy a CLIP megtanulta a társadalomtudósok által leírt „hipodeszenciás” szabályt: a többnemzetiségű felmenőkkel rendelkező egyéneket nagyobb valószínűséggel tekintik és sorolják be a kisebbséghez vagy a kevésbé előnyös szülői csoporthoz, mint az ugyanilyen legitim többséghez. vagy előnyös szülői csoport.

„Más szavakkal, a fekete-fehér szülő gyermekét inkább feketének tekintik, mint fehérnek; és egy ázsiai és egy fehér szülő gyermekét inkább ázsiainak tartják, mint fehérnek.

A tanulmánynak három központi megállapítása van: a CLIP alátámasztást bizonyít azáltal, hogy a többnemzetiségű identitással rendelkező embereket a rájuk vonatkozó kisebbséghez hozzájáruló faji kategóriába „tereli”; hogy „a fehér az alapértelmezett verseny a CLIP-ben”, és a versengő versenyeket a fehér kategóriától való „eltérésük” határozza meg; és az vegyérték torzítás (a „rossz” fogalmakkal való asszociáció) annyiban korrelál, hogy az egyént faji kisebbségbe sorolják.

Módszer és adatok

Annak meghatározására, hogy a CLIP hogyan kezeli a többnemzetiségű alanyokat, a kutatók a korábban elfogadott Morphing technika az egyénekről készült képfajták megváltoztatására. A fényképek a Chicago arcadatbázis, egy készletet faji részvétellel kapcsolatos pszichológiai tanulmányokhoz fejlesztettek ki.

Példák az új cikk kiegészítő anyagában szereplő fajilag átalakított CFD-képekből. Forrás: https://arxiv.org/pdf/2205.10764.pdf

Példák az új cikk kiegészítő anyagában szereplő fajilag átalakított CFD-képekből. Sforrás: https://arxiv.org/pdf/2205.10764.pdf

A kutatók csak a „semleges kifejezés” képeket választották az adatkészletből, hogy konzisztensek maradjanak a korábbi munkával. Használták a Generatív Adversarial Networket StílusGAN2-ADA (edzett tovább FFHQ).

A korábbi munkákkal összhangban a kutatók az önmagukat feketének, ázsiainak és latinnak valló emberek arcát a magukat fehérnek tituláló emberek arcává alakították át. Az eljárás során tizenkilenc köztes szakaszt állítanak elő. Ezzel a módszerrel összesen 21,000 1024x1024px kép készült a projekthez.

A kutatók ezután egy vetített képbeágyazást kaptak a CLIP-hez az egyes faji morfiumkészletek összesen 21 képéhez. Ezt követően a CLIP minden egyes képéhez kértek egy címkét: „többfaji”, „kétfaji”, „vegyes faj” és „személy” (a végső címke, amely kihagyja a fajt).

A CLIP használt verziója a CLIP-ViT-Base-Patch32 végrehajtás. A szerzők megjegyzik, hogy ezt a modellt több mint egymilliószor töltötték le a kutatásuk megírása előtti hónapban, és ez teszi ki a CLIP modellek letöltéseinek 98%-át. Transformers könyvtár.

Tesztek

A CLIP potenciális alászállási hajlamának tesztelésére a kutatók feljegyezték a CLIP által az egyes képekhez rendelt faji címkét az egyes egyedekre vonatkozó morfizált képek gradiensében.

Az eredmények szerint a CLIP hajlamos az embereket a „kisebbségi” kategóriákba csoportosítani az 50%-os átmenet körül.

50%-os keverési arány mellett, ahol az alany egyformán származás/célfaj, a CLIP több 1000 morfizált női képet társít az ázsiai (89.1%), latin (75.8%) és fekete (69.7%) címkékkel, mint egy megfelelővel. Fehér címke.

50%-os keverési arány mellett, ahol az alany egyformán származás/célfaj, a CLIP több 1000 morfizált női képet társít az ázsiai (89.1%), latin (75.8%) és fekete (69.7%) címkékkel, mint egy megfelelővel. Fehér címke.

Az eredmények azt mutatják, hogy a női alanyok hajlamosabbak az alászállásra a CLIP alatt, mint a férfiak, bár a szerzők azt feltételezik, hogy ennek az az oka, hogy a női képeket jellemző web-eredetű és nem kurátoros címkék általában jobban hangsúlyozzák az alany megjelenését, mint a férfiak esetében. és hogy ennek ferde hatása lehet.

50%-os faji átmenet mellett nem figyeltek meg hipodeszenciát az ázsiai-fehér hím vagy latin-fehér hím morfológiai sorozatoknál, míg a CLIP az esetek 67.5%-ában 55%-os keverési arány mellett nagyobb koszinuszos hasonlóságot adott a fekete címkéhez.

A Multiracial, Biracial és Mixed Race címkék átlagos koszinusz hasonlósága. Az eredmények azt mutatják, hogy a CLIP egyfajta „vízválasztó” kategorizálást végez a faji keverék különböző százalékainál, ritkábban rendelve ilyen faji keveréket White-hoz (a kísérletek indoklásában „személy”), mint az etnikai hovatartozáshoz, amelyet a faji keverékben észleltek. a kép.

A Multiracial, Biracial és Mixed Race címkék átlagos koszinusz hasonlósága. Az eredmények azt mutatják, hogy a CLIP egyfajta „vízválasztó” kategorizálást végez a faji keverék különböző százalékainál, ritkábban rendelve ilyen faji keveréket White-hoz (a kísérletek indoklásában „személy”), mint az etnikai hovatartozáshoz, amelyet a faji keverékben észleltek. a kép.

Az újság szerint az ideális cél az, hogy a CLIP pontosan „vegyes fajként” kategorizálja a köztes faji keverékeket, ahelyett, hogy meghatározna egy „fordulópontot”, amelynél az alany oly gyakran teljesen a nem fehér címkéhez tartozik.

A CLIP bizonyos mértékig hozzárendeli a közbenső morfológiai lépéseket a vegyes fajhoz (lásd a fenti grafikont), de végül egy középkategóriás előnyben részesíti az alanyokat a kisebbségben közreműködő fajként.

A vegyérték tekintetében a szerzők megjegyzik CLIP ferde ítéletét:

„Az [átlagos] vegyérték asszociáció (rosszhoz vagy kellemetlenhez, illetve jóhoz vagy kellemeshez való asszociáció) a keverési aránytól függően változik a fekete-fehér férfi morph sorozatban, így a CLIP a kellemetlenséggel kapcsolatos asszociációkat kódolja azon arcok esetében, amelyek leginkább hasonlítanak a CFD önkéntesekhez, akik önmaguk. -Feketének azonosítani.

A vegyértékeredmények – a tesztek azt mutatják, hogy a kisebbségi csoportokat jobban asszociálják negatív fogalmakkal a kép/pár architektúrában, mint a fehér jelzésű alanyoknál. A szerzők azt állítják, hogy egy kép kellemetlen asszociációja növekszik annak valószínűségével, hogy a modell a képet a fekete címkével társítja.

A vegyértékeredmények – a tesztek azt mutatják, hogy a kisebbségi csoportokat jobban asszociálják negatív fogalmakkal a kép/pár architektúrában, mint a fehér jelzésű alanyoknál. A szerzők azt állítják, hogy egy kép kellemetlen asszociációja növekszik annak valószínűségével, hogy a modell a képet a fekete címkével társítja.

A cikk kimondja:

„A bizonyítékok azt mutatják, hogy egy kép vegyértéke korrelál a faji [asszociációval]. Konkrétabban, eredményeink azt mutatják, hogy minél biztosabb a modell abban, hogy egy kép egy fekete egyént tükröz, annál inkább kapcsolódik a kép kellemetlen beágyazóteréhez.

Az eredmények azonban az ázsiai arcok esetében is negatív korrelációt jeleznek. A szerzők azt sugallják, hogy ennek oka lehet az ázsiai emberekről és közösségekről alkotott pozitív amerikai kulturális felfogás (web-alapú adatokon keresztül) átvitele. A szerzők kijelentik*:

„Az ázsiai szövegcímke kellemessége és valószínűsége közötti összefüggés megfigyelése megfelelhet a „minta-kisebbségi” sztereotípiának, amely szerint az ázsiai származású embereket dicsérik felfelé irányuló mobilitásuk és az amerikai kultúrába való asszimilációjuk miatt, sőt a „jó viselkedéshez” kapcsolódik.'

Ami a végső célt illeti, annak vizsgálata, hogy a CLIP szempontjából a fehér az „alapértelmezett identitás”, az eredmények beágyazott polaritásra utalnak, ami arra utal, hogy ebben az architektúrában meglehetősen nehéz „egy kicsit fehérnek” lenni.

Koszinusz hasonlóság a tesztekhez létrehozott 21,000 XNUMX képen.

Koszinusz hasonlóság a tesztekhez létrehozott 21,000 XNUMX képen.

A szerzők megjegyzései:

„A bizonyítékok azt mutatják, hogy a CLIP a White-ot alapértelmezett fajként kódolja. Ezt támasztja alá a fehér koszinusz hasonlóságok és a személyi koszinusz hasonlóságok közötti erősebb korrelációk, mint bármely más faji vagy etnikai csoport esetében.

 

*A szerzők soron belüli idézeteinek átalakítása hiperhivatkozásokká.

Első megjelenés: 24. május 2022.