škrbina Izazov 'rasne kategorizacije' za sustave za sintezu slike temeljene na CLIP-u - Unite.AI
Povežite se s nama

Umjetna inteligencija

Izazov 'rasne kategorizacije' za sustave za sintezu slike temeljene na CLIP-u

mm
Ažurirano on

Novo istraživanje iz SAD-a otkriva da jedan od popularnih modela računalnog vida koji stoji iza toliko hvaljene serije DALL-E, kao i mnogi drugi modeli za generiranje slika i klasifikaciju, pokazuje dokazivu tendenciju prema hipodescent – pravilo kategorizacije rase (poznato i kao pravilo 'jedne kapi') koji osobu s čak i malim opsegom 'mješovite' (tj. ne-bijelce) genetske loze u potpunosti kategorizira u 'manjinsku' rasnu klasifikaciju.

Budući da hipodescent ima naznačen neka od najružnijih poglavlja u ljudskoj povijesti, autori novog rada sugeriraju da bi takve tendencije u istraživanju i implementaciji računalnog vida trebale dobiti veću pozornost, ne samo zato što bi dotični prateći okvir, koji se preuzima gotovo milijun puta mjesečno, mogao dalje širiti i promicati rasnu pristranost u nizvodnim okvirima.

Arhitektura koja se proučava u novom radu je Predtrening za kontrastnu jezičnu sliku (CLIP), multimodalni model strojnog učenja koji uči semantičke asocijacije trenirajući na parovima slike/naslova izvučenim s interneta – polu-nadzirani pristup koji značajno smanjuje troškove označavanja, ali koji će vjerojatno odražavati pristranost ljudi koji stvorio naslove.

Iz rada:

'Naši rezultati pružaju dokaz o hipodescentu u prostoru za ugradnju CLIP-a, pristranosti koja se jače primjenjuje na slike žena. Rezultati dalje pokazuju da CLIP povezuje slike s rasnim ili etničkim oznakama na temelju odstupanja od bijelog, s bijelim kao zadanim.

Rad također otkriva da je valentna asocijacija slike (to je tendencija da se povezuje s 'dobrim' ili 'lošim' stvarima, znatno veća za 'manjinske' rasne oznake nego za bijele rase, i sugerira da CLIP-ove pristranosti odražavaju korpus usmjeren na SAD književnosti (Wikipedia na engleskom jeziku) na kojoj je okvir treniran.

Komentirajući implikacije CLIP-ove očite podrške hipodescentu, autori navode*:

'[Među] prvim upotrebama CLIP-a bilo je treniranje modela generiranja slike bez snimanja DALL-E. U obuci je korištena veća, nejavna verzija CLIP arhitekture DALL-E2. Razmjerno nalazima ovog istraživanja, rizici i ograničenja opisani u kartici modela DALL-E 2 bilješke da “proizvodi slike koje imaju tendenciju da pretjerano predstavljaju ljude koji prolaze kroz bijelo”.

'Takve upotrebe pokazuju potencijal za širenje pristranosti koje je naučio CLIP izvan prostora za ugradnju modela, jer se njegove značajke koriste za usmjeravanje formiranja semantike u drugim najsuvremenijim AI modelima.

Štoviše, djelomično zahvaljujući napretku koji su ostvarili CLIP i slični modeli za povezivanje slika i teksta u zero-shot postavci, multimodalne su arhitekture opisan kao temelj za budućnost široko korištenih internetskih aplikacija, uključujući tražilice.

'Naši rezultati pokazuju da je potrebna dodatna pozornost na ono što takvi modeli uče od nadzora prirodnog jezika'.

Korištenje električnih romobila ističe papir naslovljen je Dokazi za hipodescent u vizualnoj semantičkoj umjetnoj inteligenciji, a dolazi od tri istraživača sa Sveučilišta Washington i Sveučilišta Harvard.

KLIP i loši utjecaji

Iako istraživači potvrđuju da je njihov rad prva analiza hipodescenta u CLIP-u, prijašnji su radovi pokazali da tijek rada CLIP-a, ovisan o uglavnom nenadziranoj obuci od nedovoljno kuriran podaci dobiveni s weba, nedovoljno predstavlja žene, može proizvesti uvredljiv sadržaj, i može pokazati semantička pristranost (kao što je antimuslimansko raspoloženje) u svom koderu slike.

Izvorni rad koji je predstavio CLIP priznao je da u zero-shot postavci, CLIP povezuje samo 58.3% ljudi s bijelom rasnom etiketom u FairFace skup podataka. Primjećujući da su radnici Amazon Mechanical Turk FairFace označili s mogućom pristranošću, autori novog rada navode da je 'značajna manjina ljudi koje drugi ljudi doživljavaju kao bijelce povezana s rasom koja nije bijela prema CLIP-u.'

Nastavljaju:

'Čini se da obrnuto nije točno, budući da su pojedinci za koje se smatra da pripadaju drugim rasnim ili etničkim oznakama u FairFace skupu podataka povezani s tim oznakama putem CLIP-a. Ovaj rezultat sugerira mogućnost da je CLIP naučio pravilo "hipodescencije", kako su ga opisali društveni znanstvenici: vjerojatnije je da će pojedinci s višerasnim podrijetlom biti percipirani i kategorizirani kao pripadnici manjinske ili manje napredne roditeljske skupine nego jednako legitimne većine. ili povlaštena roditeljska skupina.

'Drugim riječima, dijete crnog i bijelog roditelja smatra se više crnim nego bijelim; a dijete roditelja Azijata i Bijelca smatra se većim Azijcem nego Bijelcem.'

Rad ima tri središnja nalaza: da CLIP dokazuje hipodescent, tako što 'svrstava' ljude s multirasnim identitetom u rasnu kategoriju koja doprinosi manjini koja se na njih odnosi; da je 'bijeli zadana rasa u CLIP-u' i da su natjecateljske rase definirane svojim 'odstupanjem' od kategorije bijelih; i to pristranost valence (asocijacija s 'lošim' konceptima) korelira do te mjere da je pojedinac kategoriziran u rasnu manjinu.

Metoda i podaci

Kako bi odredili način na koji CLIP tretira multirasne subjekte, istraživači su koristili a prethodno usvojeni tehnika morphinga za promjenu rase slika pojedinaca. Fotografije su snimljene iz Chicago Face Database, set razvijen za psihološke studije koje uključuju rasu.

Primjeri iz rasno-morfiranih CFD slika prikazanih u dodatnom materijalu novog rada. Izvor: https://arxiv.org/pdf/2205.10764.pdf

Primjeri iz rasno-morfiranih CFD slika prikazanih u dodatnom materijalu novog rada. Sizvor: https://arxiv.org/pdf/2205.10764.pdf

Istraživači su iz skupa podataka odabrali samo slike 'neutralnog izraza' kako bi ostali dosljedni prethodnom radu. Koristili su Generativan Adversarial Network StilGAN2-ADA (treniran na FFHQ) kako bi se postigla promjena rase na slikama lica i stvorene intersticijske slike koje pokazuju napredak iz jedne rase u drugu (pogledajte primjere slika iznad).

U skladu s prethodnim radom, istraživači su pretvorili lica ljudi koji su se u skupu podataka identificirali kao crnci, Azijati i Latinoamerikanci u lica onih koji su se označili kao bijelci. U procesu se proizvodi devetnaest međufaza. Ukupno je ovom metodom za projekt stvoreno 21,000 slika veličine 1024 x 1024 piksela.

Istraživači su zatim dobili projiciranu sliku ugrađenu za CLIP za svaku od ukupno 21 slike u svakom skupu rasnih oblika. Nakon toga, zatražili su oznaku za svaku sliku iz CLIP-a: 'višerasna', 'biracijalna', 'mješovita rasa' i 'osoba' (konačna oznaka bez rase).

Korištena verzija CLIP-a bila je CLIP-ViT-Base-Patch32 implementacija. Autori primjećuju da je ovaj model preuzet više od milijun puta u mjesecu prije pisanja njihovog istraživanja i čini 98% preuzimanja bilo kojeg CLIP modela iz Transformers knjižnica.

Testovi

Kako bi testirali potencijalnu sklonost CLIP-a prema hipodescentu, istraživači su uočili oznaku rase koju je CLIP dodijelio svakoj slici u gradijentu morfiranih slika za svaku osobu.

Prema nalazima, CLIP ima tendenciju grupirati ljude u 'manjinske' kategorije na oko 50% prijelazne oznake.

Pri omjeru miješanja od 50%, gdje je subjekt podrijetla/ciljne rase, CLIP povezuje veći broj od 1000 morfiranih ženskih slika s azijskim (89.1%), latinoameričkim (75.8%) i crnim (69.7%) oznakama nego s ekvivalentom Bijela oznaka.

Pri omjeru miješanja od 50%, gdje je subjekt podrijetla/ciljne rase, CLIP povezuje veći broj od 1000 morfiranih ženskih slika s azijskim (89.1%), latinoameričkim (75.8%) i crnim (69.7%) oznakama nego s ekvivalentom Bijela oznaka.

Rezultati pokazuju da su ispitanice sklonije hipodescentnosti pod CLIP-om nego muškarci, iako autori pretpostavljaju da bi to moglo biti zato što oznake dobivene s weba i neobrađene oznake koje karakteriziraju ženske slike teže naglašavanju izgleda subjekta više nego u slučaju muškaraca, i da to može imati učinak iskrivljenja.

Hipodescent pri rasnoj tranziciji od 50% nije primijećen za azijsko-bijele muške ili latino-bijele muške serije morfa, dok je CLIP dodijelio veću kosinusnu sličnost crnoj oznaci u 67.5% slučajeva pri omjeru miješanja od 55%.

Srednja kosinusna sličnost višerasnih, birasnih i mješovitih rasa. Rezultati pokazuju da CLIP provodi neku vrstu kategorizacije 'razdjelnice' na različitim postocima rasne miješanosti, rjeđe pripisujući takvu rasnu mješavinu bijelcu ('osobi', u obrazloženju eksperimenata) nego etničkoj pripadnosti koja je percipirana u slika.

Srednja kosinusna sličnost višerasnih, birasnih i mješovitih rasa. Rezultati pokazuju da CLIP provodi neku vrstu kategorizacije 'razdjelnice' na različitim postocima rasne miješanosti, rjeđe pripisujući takvu rasnu mješavinu bijelcu ('osobi', u obrazloženju eksperimenata) nego etničkoj pripadnosti koja je percipirana u slika.

Idealan cilj, prema novinama, je da CLIP točno kategorizira srednje rasne mješavine kao 'mješovite rase', umjesto da definira 'točku preokreta' na kojoj se subjekt tako često u potpunosti pripisuje etiketi koja nije bijela.

U određenoj mjeri, CLIP dodijeljuje međukorake transformacije s mješovitom rasom (pogledajte gornji grafikon), ali na kraju pokazuje preferenciju srednjeg raspona za kategoriziranje subjekata kao njihove rase koja doprinosi manjini.

Što se tiče valencije, autori primjećuju CLIP-ovu iskrivljenu prosudbu:

'[Srednja] valentna asocijacija (asocijacija s lošim ili neugodnim naspram s dobrim ili ugodnim) varira s omjerom miješanja u seriji crno-bijelih muških morfa, tako da CLIP kodira asocijacije s neugodnošću za lica najsličnija CFD volonterima koji se -identificirati se kao Crni.'

Rezultati valencije – testovi pokazuju da su manjinske skupine više povezane s negativnim konceptima u arhitekturi slika/par nego za subjekte s bijelom oznakom. Autori tvrde da se neugodna povezanost slike povećava s vjerojatnošću da model povezuje sliku s crnom oznakom.

Rezultati valencije – testovi pokazuju da su manjinske skupine više povezane s negativnim konceptima u arhitekturi slika/par nego za subjekte s bijelom oznakom. Autori tvrde da se neugodna povezanost slike povećava s vjerojatnošću da model povezuje sliku s crnom oznakom.

U radu se navodi:

'Dokazi pokazuju da je vrijednost slike u korelaciji s rasnom [pripadnošću]. Konkretnije, naši rezultati pokazuju da što je model sigurniji da slika odražava crnu osobu, to je ta slika više povezana s neugodnim prostorom za ugradnju.'

Međutim, rezultati također pokazuju negativnu korelaciju u slučaju azijskih lica. Autori sugeriraju da bi to moglo biti posljedica prenošenja (preko podataka s interneta) pozitivnih američkih kulturnih percepcija azijskih ljudi i zajednica. Autori navode*:

'Promatranje korelacije između ugodnosti i vjerojatnosti azijske tekstualne oznake može odgovarati stereotipu "uzorne manjine", prema kojem se ljudi azijskog podrijetla hvale zbog svoje pokretljivosti prema gore i asimilacije u američku kulturu, pa čak i povezan s "dobrim ponašanjem".'

Što se tiče konačnog cilja, ispitati je li bijeli 'zadani identitet' s gledišta CLIP-a, rezultati ukazuju na ugrađeni polaritet, što sugerira da je pod ovom arhitekturom prilično teško biti 'malo bijelac'.

Kosinusna sličnost na 21,000 XNUMX slika stvorenih za testove.

Kosinusna sličnost na 21,000 XNUMX slika stvorenih za testove.

Autori komentiraju:

'Dokazi pokazuju da CLIP kodira bijele kao zadanu rasu. Ovo je podržano jačom korelacijom između sličnosti kosinusa bijelog i sličnosti kosinusa osobe nego za bilo koju drugu rasnu ili etničku skupinu.'

 

*Moja konverzija umetnutih citata autora u hiperveze.

Prvi put objavljeno 24. svibnja 2022.