stubs “Rasu kategorizēšanas” izaicinājums attēlu sintēzes sistēmām, kuru pamatā ir CLIP — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

"Rasu kategorizēšanas" izaicinājums uz CLIP balstītām attēlu sintēzes sistēmām

mm
Atjaunināts on

Jauni pētījumi no ASV atklāj, ka vienam no populārajiem datorredzes modeļiem, kas ir aiz daudz iecienītās DALL-E sērijas, kā arī daudziem citiem attēlu ģenerēšanas un klasifikācijas modeļiem, ir pierādāma tendence hipodescents – rases kategorizēšanas noteikums (pazīstams arī kā “viena piliena” noteikums), kas personu ar pat nelielu “jauktu” (ti, ne-kaukāziešu) ģenētisko izcelsmi pilnībā iedala “mazākumtautības” rasu klasifikācijā.

Kopš hipodescenta ir raksturo Dažas no neglītākajām nodaļām cilvēces vēsturē, jaunā dokumenta autori ierosina, ka šādām tendencēm datorredzes izpētē un ieviešanā jāpievērš lielāka uzmanība, jo īpaši tāpēc, ka attiecīgā atbalsta sistēma, kas tiek lejupielādēta gandrīz miljons reižu mēnesī, varētu turpināt izplatīties. un izplatīt rasu aizspriedumus pakārtotajos ietvaros.

Jaunajā darbā pētāmā arhitektūra ir Kontrastīvās valodas attēla pirmsapmācība (CLIP), multimodāls mašīnmācīšanās modelis, kas apgūst semantiskās asociācijas, apmācot attēlu/titru pārus, kas iegūti no interneta. Tā ir daļēji uzraudzīta pieeja, kas samazina ievērojamās marķēšanas izmaksas, bet kas, iespējams, atspoguļo to cilvēku aizspriedumus, kuri izveidoja parakstus.

No papīra:

"Mūsu rezultāti sniedz pierādījumus par pazemināšanos CLIP iegulšanas telpā, kas ir vairāk piemērota sieviešu attēliem. Rezultāti arī norāda, ka CLIP attēlus saista ar rasu vai etniskām iezīmēm, pamatojoties uz novirzi no baltā, un baltā kā noklusējuma vērtība.

Rakstā arī konstatēts, ka attēla valences asociācija (tā tieksme būt saistīta ar “labām” vai “sliktām” lietām, ir ievērojami augstāka “mazākumtautību” rasu apzīmējumiem nekā kaukāziešu apzīmējumiem, un liecina, ka CLIP novirzes atspoguļo uz ASV orientēto korpusu. literatūras (angļu valodas Wikipedia), kurā tika apmācīts ietvars.

Komentējot ietekmi, ko rada CLIP acīmredzamais atbalsts hipodescentam, autori norāda*:

“[Starp] pirmajiem CLIP lietojumiem bija nulles kadru attēlu ģenerēšanas modeļa apmācība DALL-E. Apmācībā tika izmantota lielāka, nepubliska CLIP arhitektūras versija DALL-E2. Atbilstoši šī pētījuma atklājumiem, riski un ierobežojumi, kas aprakstīti DALL-E 2 modeļa kartē Piezīme ka tas "rada attēlus, kas mēdz pārāk attēlot cilvēkus, kuri ir balti garām".

"Šādi lietojumi parāda CLIP apgūto aizspriedumu potenciālu izplatīties ārpus modeļa iegulšanas telpas, jo tā funkcijas tiek izmantotas, lai vadītu semantikas veidošanos citos vismodernākos AI modeļos.

Turklāt, daļēji pateicoties CLIP un līdzīgu modeļu sasniegumiem attēlu un teksta saistīšanai nulles kadra iestatījumā, multimodālās arhitektūras ir tikušas izmantotas. aprakstīts kā pamatu plaši izmantoto interneta lietojumprogrammu, tostarp meklētājprogrammu, nākotnei.

"Mūsu rezultāti liecina, ka ir nepieciešama papildu uzmanība tam, ko šādi modeļi mācās no dabiskās valodas uzraudzības."

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts Pierādījumi par hipodescentu vizuālajā semantiskajā AI, un nāk no trim Vašingtonas universitātes un Hārvardas universitātes pētniekiem.

KLIP un slikta ietekme

Lai gan pētnieki apliecina, ka viņu darbs ir pirmā hipodescenta analīze CLIP, iepriekšējie darbi ir parādījuši, ka CLIP darbplūsma, jo tā ir atkarīga no lielā mērā neuzraudzītas apmācības no plkst. nepietiekami pārzināts tīmeklī iegūti dati, nepietiekami pārstāv sievietes, var ražot aizskarošu saturu, un var demonstrēt semantiskā novirze (piemēram, pret musulmaņiem vērsts noskaņojums) savā attēla kodētājā.

Sākotnējā dokumentā, kurā tika prezentēts CLIP, tika atzīts, ka nulles gadījumā CLIP tikai 58.3% cilvēku saista ar balto rasi. FairFace datu kopa. Novērojot, ka Amazon Mechanical Turk darbinieki FairFace ir apzīmējuši ar iespējamu neobjektivitāti, jaunā dokumenta autori norāda, ka "liela daļa cilvēku, kurus citi cilvēki uztver kā baltos, CLIP ir saistīti ar citu rasi, nevis balto".

Viņi turpina:

"Šķiet, ka otrādi nav taisnība, jo personas, kuras tiek uzskatītas par piederīgām citām rases vai etniskām iezīmēm FairFace datu kopā, CLIP saista ar šīm iezīmēm. Šis rezultāts liecina par iespēju, ka CLIP ir apguvis sociālo zinātnieku aprakstīto “hipodescenta” likumu: indivīdi ar daudzrasu priekštečiem, visticamāk, tiks uztverti un klasificēti kā piederīgi mazākumtautībai vai mazāk labvēlīgai vecāku grupai, nevis tikpat likumīgam vairākumam. vai labvēlīga vecāku grupa.

Citiem vārdiem sakot, melnbaltu vecāku bērns tiek uztverts vairāk kā melns nekā balts; un aziātu un balto vecāku bērns tiek uzskatīts par vairāk aziātu nekā balts.

Rakstā ir trīs galvenie secinājumi: ka CLIP pierāda hipodescentu, cilvēkus ar daudzrasu identitāti "iespiežot" uz mazākumtautību veicinošo rasu kategoriju, kas uz viņiem attiecas; ka “Baltā ir noklusējuma rase CLIP” un ka konkurējošās sacīkstes tiek definētas pēc to “novirzes” no baltās kategorijas; un tas valences novirze (asociācija ar "sliktajiem" jēdzieniem) korelē tādā mērā, ka indivīds tiek klasificēts rasu minoritātē.

Metode un dati

Lai noteiktu veidu, kā CLIP izturas pret daudzrasu subjektiem, pētnieki izmantoja a iepriekš pieņemts morfēšanas tehnika, lai mainītu indivīdu attēlu rasi. Fotogrāfijas tika uzņemtas no Čikāgas sejas datu bāze, komplekts, kas izstrādāts psiholoģiskiem pētījumiem, kas ietver rasi.

Piemēri no rasistiski morfētiem CFD attēliem, kas parādīti jaunā dokumenta papildu materiālā. Avots: https://arxiv.org/pdf/2205.10764.pdf

Piemēri no rasistiski morfētiem CFD attēliem, kas parādīti jaunā dokumenta papildu materiālā. Savots: https://arxiv.org/pdf/2205.10764.pdf

Pētnieki no datu kopas izvēlējās tikai "neitrālas izteiksmes" attēlus, lai saglabātu atbilstību iepriekšējam darbam. Viņi izmantoja ģeneratīvo pretrunīgo tīklu StilsGAN2-ADA (trenējās uz FFHQ).

Saskaņā ar iepriekšējo darbu pētnieki pārveidoja to cilvēku sejas, kuri datu kopā sevi identificēja kā melnādainie, aziāti un latīņamerikāņi, to cilvēku sejās, kuri sevi apzīmēja kā baltos. Procesā tiek ražoti deviņpadsmit starpposmi. Kopumā ar šo metodi projektam tika izveidoti 21,000 1024 1024xXNUMXpx attēli.

Pēc tam pētnieki ieguva projicētu attēla iegulšanu CLIP katram no 21 attēlam katrā rasu morfu komplektā. Pēc tam viņi pieprasīja etiķeti katram attēlam no CLIP: “daudzrasu”, “divrasu”, “jaukta rase” un “persona” (pēdējā etiķete, kurā nav rases).

Izmantotā CLIP versija bija CLIP-ViT-Base-Patch32 īstenošana. Autori atzīmē, ka šis modelis tika lejupielādēts vairāk nekā miljons reižu mēnesī pirms pētījuma rakstīšanas, un tas veido 98% no jebkura CLIP modeļa lejupielādēm no Transformeru bibliotēka.

Testi

Lai pārbaudītu CLIP potenciālo noslieci uz pazemināšanos, pētnieki atzīmēja rases marķējumu, ko CLIP piešķīris katram attēlam katra indivīda morfēto attēlu gradientā.

Saskaņā ar konstatējumiem, CLIP ir tendence grupēt cilvēkus “mazākumtautību” kategorijās pie aptuveni 50 % pārejas atzīmes.

Ja sajaukšanas attiecība ir 50%, kad subjekts ir vienāds ar izcelsmi/mērķa rasi, CLIP saista lielāku skaitu 1000 morfētu sieviešu attēlu ar Āzijas (89.1%), Latina (75.8%) un Melnās (69.7%) etiķetēm nekā ar līdzvērtīgu. Balta etiķete.

Ja sajaukšanas attiecība ir 50%, kad subjekts ir vienāds ar izcelsmi/mērķa rasi, CLIP saista lielāku skaitu 1000 morfētu sieviešu attēlu ar Āzijas (89.1%), Latina (75.8%) un Melnās (69.7%) etiķetēm nekā ar līdzvērtīgu. Balta etiķete.

Rezultāti liecina, ka sievietēm ir lielāka nosliece uz pazemināšanos saskaņā ar CLIP nekā vīriešiem, lai gan autori izvirza hipotēzi, ka tas varētu būt tāpēc, ka tīmeklī iegūtās un nekurētās etiķetes, kas raksturo sieviešu attēlus, mēdz vairāk uzsvērt subjekta izskatu nekā vīriešu gadījumā. un ka tam var būt šķībs efekts.

Hipodescence pie 50% rases pārejas netika novērota Āzijas-balto vīriešu vai Latīņamerikas-balto vīriešu morfu sērijām, savukārt CLIP piešķīra lielāku kosinusa līdzību melnajam apzīmējumam 67.5% gadījumu pie 55% sajaukšanas attiecības.

Multiracial, biracial un Mixed Race etiķešu vidējā kosinusa līdzība. Rezultāti liecina, ka CLIP izmanto sava veida “ūdensšķirtnes” kategoriju pie dažādiem rasu maisījuma procentiem, retāk šādu rasu sajaukumu piešķirot Vaitam (eksperimentu pamatojumā “personai”), nevis etniskajai piederībai, kas tika uztverta attēls.

Multiracial, biracial un Mixed Race etiķešu vidējā kosinusa līdzība. Rezultāti liecina, ka CLIP izmanto sava veida “ūdensšķirtnes” kategoriju pie dažādiem rasu maisījuma procentiem, retāk šādu rasu sajaukumu piešķirot Vaitam (eksperimentu pamatojumā “personai”), nevis etniskajai piederībai, kas tika uztverta attēls.

Saskaņā ar dokumentu ideālais mērķis ir tas, ka CLIP starprasu sajaukumu precīzi klasificētu kā “jauktu rasi”, tā vietā, lai definētu “krituma punktu”, kurā subjekts tik bieži tiek pilnībā pakļauts nebaltajam apzīmējumam.

Zināmā mērā CLIP piešķir starpposma morfas soļus ar jauktu rasi (skat. diagrammu iepriekš), bet galu galā parāda vidēja diapazona izvēli subjektu klasificēšanai kā mazākuma rase.

Runājot par valenci, autori atzīmē CLIP šķībo spriedumu:

"[Vidējā] valences asociācija (saistība ar slikto vai nepatīkamo pret labo vai patīkamo) atšķiras atkarībā no sajaukšanas attiecības melnbaltajā vīriešu morfoloģiskajā sērijā tā, ka CLIP kodē asociācijas ar nepatīkamām sejām, kas ir vislīdzīgākās CFD brīvprātīgajiem, kuri paši sevi dara. - identificēt kā Black.

Valences rezultāti – testi liecina, ka mazākumtautību grupas ir vairāk saistītas ar negatīviem jēdzieniem attēla/pāra arhitektūrā, nevis ar balto apzīmējumu subjektiem. Autori apgalvo, ka attēla nepatīkamā asociācija palielinās līdz ar iespējamību, ka modelis saista attēlu ar Black etiķeti.

Valences rezultāti – testi liecina, ka mazākumtautību grupas ir vairāk saistītas ar negatīviem jēdzieniem attēla/pāra arhitektūrā, nevis ar balto apzīmējumu subjektiem. Autori apgalvo, ka attēla nepatīkamā asociācija palielinās līdz ar iespējamību, ka modelis saista attēlu ar Black etiķeti.

Darbā teikts:

"Pierādījumi liecina, ka attēla valence korelē ar rasi [asociāciju]. Konkrētāk, mūsu rezultāti liecina, ka, jo drošāks modelis ir tam, ka attēls atspoguļo melnādaino indivīdu, jo vairāk tas ir saistīts ar nepatīkamo iegulšanas vietu.

Tomēr rezultāti liecina arī par negatīvu korelāciju Āzijas seju gadījumā. Autori norāda, ka tas varētu būt saistīts ar pozitīvu ASV kultūras uztveri par Āzijas iedzīvotājiem un kopienām (izmantojot tīmeklī iegūtos datus). Autori norāda*:

"Novērojot korelāciju starp Āzijas teksta etiķetes patīkamību un iespējamību, tas var atbilst stereotipam "modeļa minoritāte", kurā Āzijas izcelsmes cilvēki tiek slavēti par viņu mobilitāti un asimilāciju amerikāņu kultūrā, un pat saistīta ar "labu uzvedību".'

Attiecībā uz galīgo mērķi pārbaudīt, vai baltā krāsa ir “noklusējuma identitāte” no CLIP viedokļa, rezultāti liecina par iegultu polaritāti, kas liecina, ka saskaņā ar šo arhitektūru ir diezgan grūti būt “nedaudz baltam”.

Kosinusa līdzība 21,000 XNUMX attēlu, kas izveidoti testiem.

Kosinusa līdzība 21,000 XNUMX attēlu, kas izveidoti testiem.

Autori komentē:

"Pierādījumi liecina, ka CLIP kodē White kā noklusējuma rasi. To apstiprina spēcīgākās korelācijas starp balto kosinusu līdzībām un personu kosinusa līdzībām nekā jebkurai citai rasu vai etniskajai grupai.

 

*Mana autoru iekļauto citātu pārvēršana par hipersaitēm.

Pirmo reizi publicēts 24. gada 2022. maijā.