Umelá inteligencia

Výzva „Rasová kategorizácia“ pre systémy syntézy obrazu založené na CLIP

Aktualizované on Decembra 9, 2022

Nový výskum z USA zistil, že jeden z populárnych modelov počítačového videnia, ktorý stojí za populárnou sériou DALL-E, ako aj mnohými ďalšími modelmi vytvárania a klasifikácie obrazu, vykazuje preukázateľnú tendenciu k hypodescent – pravidlo rasovej kategorizácie (známe aj ako pravidlo „jednej kvapky“.), ktorý kategorizuje osobu s čo i len malým rozsahom „zmiešanej“ (tj nekaukazskej) genetickej línie úplne do „menšinovej“ rasovej klasifikácie.

Keďže hypodescent má charakterizovaný Niektoré z najškaredších kapitol v histórii ľudstva, autori nového článku navrhujú, aby sa takýmto tendenciám vo výskume a implementácii počítačového videnia venovala väčšia pozornosť, v neposlednom rade preto, že príslušný podporný rámec, stiahnutý takmer miliónkrát za mesiac, by mohol ďalej šíriť a propagovať rasovú zaujatosť v nadväzujúcich rámcoch.

Architektúra študovaná v novom diele je Predtrénovanie kontrastného obrazu jazyka (CLIP), multimodálny model strojového učenia, ktorý sa učí sémantické asociácie trénovaním na pároch obrázkov/titulok čerpaných z internetu – čiastočne kontrolovaný prístup, ktorý znižuje značné náklady na označovanie, ale ktorý pravdepodobne odráža zaujatosť ľudí, ktorí vytvoril titulky.

Z papiera:

„Naše výsledky poskytujú dôkaz o hypodescencii v priestore vkladania CLIP, čo je skreslenie aplikované silnejšie na obrázky žien. Výsledky ďalej naznačujú, že CLIP spája obrázky s rasovými alebo etnickými označeniami na základe odchýlky od bielej, pričom biela je predvolená.

V práci sa tiež zistilo, že valenčná asociácia obrázka (je to tendencia spájať sa s „dobrými“ alebo „zlými“ vecami, je výrazne vyššia pre „menšinové“ rasové označenia ako pre kaukazské označenia, a naznačuje, že predsudky CLIP odrážajú korpus zameraný na USA literatúry (wikipedia v anglickom jazyku), na ktorej bol rámec trénovaný.

V komentári k dôsledkom zjavnej podpory hypodescentu zo strany CLIP autori uvádzajú*:

„[Medzi] prvými použitiami CLIP bolo trénovanie modelu generovania nulového záberu DALL-E. Pri školení bola použitá väčšia, neverejná verzia architektúry CLIP DALL-E2. V súlade so zisteniami súčasného výskumu sú riziká a obmedzenia opísané v modelovej karte DALL-E 2 na vedomie že „produkuje obrazy, ktoré majú tendenciu nadmerne zastupovať ľudí, ktorí prechádzajú cez biele“.

„Takéto použitia demonštrujú potenciál, aby sa predsudky získané pomocou CLIP rozšírili mimo priestoru na vkladanie modelu, pretože jeho vlastnosti sa používajú na usmerňovanie tvorby sémantiky v iných najmodernejších modeloch AI.

„Okrem toho, čiastočne vďaka pokrokom realizovaným pomocou CLIP a podobných modelov pri spájaní obrázkov a textu v nastavení zero-shot, boli vyvinuté multimodálne architektúry. popísané ako základ pre budúcnosť široko používaných internetových aplikácií vrátane vyhľadávačov.

"Naše výsledky naznačujú, že je potrebné venovať zvýšenú pozornosť tomu, čo sa takéto modely učia z dohľadu nad prirodzeným jazykom."

papier je s názvom Dôkaz hypodescentu vo vizuálnej sémantickej AI, a pochádza od troch výskumníkov z University of Washington a Harvard University.

CLIP a zlé vplyvy

Hoci výskumníci potvrdzujú, že ich práca je prvou analýzou hypodescencie v CLIP, predchádzajúce práce ukázali, že pracovný tok CLIP závisí, pretože je do značnej miery od školenia bez dozoru. nedostatočne vyliečený údaje získané z webu, nedostatočne zastupuje ženy, dokáže vyrobiť urážlivý obsaha môže preukázať sémantická zaujatosť (napríklad protimoslimské nálady) vo svojom kódovači obrazu.

Pôvodný dokument, ktorý prezentoval CLIP, pripustil, že v prostredí nulového záberu spája CLIP iba 58.3 % ľudí s bielym rasovým označením v FairFace súbor údajov. Autori nového článku si všimli, že pracovníci Amazon Mechanical Turk označili FairFace za možnou zaujatosť, a uvádzajú, že „podstatná menšina ľudí, ktorých iní ľudia vnímajú ako bielych, je podľa CLIP spojená s inou rasou ako bielymi“.

Pokračujú:

„Opak sa nezdá byť pravdou, pretože jednotlivci, ktorí sú vnímaní ako príslušníci iných rasových alebo etnických označení v súbore údajov FairFace, sú s týmito označeniami spájaní pomocou CLIP. Tento výsledok naznačuje možnosť, že CLIP sa naučil pravidlo „hypodescenta“, ako ho opísali sociálni vedci: jednotlivci s mnohonárodnostným pôvodom budú skôr vnímaní a kategorizovaní ako patriaci k menšine alebo menej zvýhodnenej rodičovskej skupine ako k rovnako legitímnej väčšine. alebo zvýhodnená rodičovská skupina.

„Inými slovami, dieťa čiernobieleho rodiča je vnímané ako viac čierne ako biele; a dieťa ázijského a bieleho rodiča je vnímané ako viac ázijské ako biele.“

Tento dokument má tri hlavné zistenia: že CLIP dokazuje hypodescenciu tým, že „naháňa“ ľudí s multirasovou identitou do rasovej kategórie prispievajúcej k menšine, ktorá sa na nich vzťahuje; že „biela je štandardná rasa v CLIP“ a že súťažné rasy sú definované svojou „odchýlkou“ od bielej kategórie; a to valenčná zaujatosť (spojenie so „zlými“ pojmami) koreluje do tej miery, do akej je jednotlivec kategorizovaný do rasovej menšiny.

Metóda a dáta

Na určenie spôsobu, akým CLIP zaobchádza s multirasovými subjektmi, výskumníci použili a predtým prijaté technika morfovania na zmenu rasy obrazov jednotlivcov. Fotografie boli prevzaté z Databáza tvárí v Chicagu, súbor vyvinutý pre psychologické štúdie zahŕňajúce rasu.

Príklady z rasovo zmenených obrázkov CFD uvedených v doplnkovom materiáli nového článku. Zdroj: https://arxiv.org/pdf/2205.10764.pdf

Príklady z rasovo zmenených obrázkov CFD uvedených v doplnkovom materiáli nového článku. Szdroj: https://arxiv.org/pdf/2205.10764.pdf

Výskumníci si zo súboru údajov vybrali iba obrázky „neutrálneho vyjadrenia“, aby zostali v súlade s predchádzajúcou prácou. Používali sieť Generative Adversarial Network ŠtýlGAN2-ADA (trénovaný na FFHQ) na uskutočnenie zmeny rasy na obrázkoch tváre a vytvorené intersticiálne obrázky, ktoré demonštrujú postup z jednej rasy do druhej (pozri príklady obrázkov vyššie).

V súlade s predchádzajúcou prácou výskumníci premenili tváre ľudí, ktorí sa v súbore údajov identifikovali ako černosi, Ázijci a Latinoameričania, na tváre tých, ktorí sa označili za bielych. V procese sa vyrába devätnásť medzistupňov. Celkovo bolo touto metódou pre projekt vytvorených 21,000 1024 obrázkov 1024xXNUMXpx.

Výskumníci potom získali projektované vloženie obrazu pre CLIP pre každý z celkových 21 obrázkov v každej rasovej morfovej sade. Potom si vyžiadali označenie pre každý obrázok z CLIP: 'mnohonárodnostný', 'biracial', 'zmiešaná rasa' a 'osoba' (posledné označenie bez rasy).

Použitá verzia CLIP bola CLIP-ViT-Base-Patch32 implementáciu. Autori poznamenávajú, že tento model bol stiahnutý viac ako miliónkrát za mesiac pred napísaním ich výskumu a predstavuje 98 % stiahnutí akéhokoľvek modelu CLIP z Knižnica transformátorov.

Skúšky

Na testovanie potenciálnej náchylnosti CLIP k hypodescentu výskumníci zaznamenali označenie rasy priradené CLIP každému obrázku v gradiente morfovaných obrázkov pre každého jednotlivca.

Podľa zistení má CLIP tendenciu zoskupovať ľudí do „menšinových“ kategórií na hranici 50 % prechodu.

Pri 50-percentnom pomere miešania, kde je subjekt rovnako pôvodom/cieľovou rasou, CLIP spája vyšší počet 1000 89.1 morfovaných ženských obrázkov s ázijskými (75.8 %), latinskoamerickými (69.7 %) a čiernymi (XNUMX %) štítkami ako s ekvivalentným Biely štítok.

Výsledky ukazujú, že ženské subjekty sú pri CLIP náchylnejšie na hypodescenciu ako muži, aj keď autori predpokladajú, že to môže byť spôsobené tým, že štítky odvodené z webu a nespracované, ktoré charakterizujú ženské obrázky, majú tendenciu zdôrazňovať vzhľad subjektu viac ako v prípade mužov, a že to môže mať skresľujúci efekt.

Hypodescent pri 50 % rasovom prechode nebol pozorovaný u ázijsko-bielych mužských alebo latinsko-bielych mužských morfových sérií, zatiaľ čo CLIP priradil vyššiu kosínusovú podobnosť s čiernym štítkom v 67.5 % prípadov pri 55 % pomere miešania.

Priemerná kosínusová podobnosť značiek Multiracial, Biracial a Mixed Race. Výsledky naznačujú, že CLIP funguje akousi „rozvodovou“ kategorizáciou pri rôznych percentách rasovej zmesi, pričom menej často priraďuje takúto rasovú zmes bielemu („osoba“ v zdôvodnení experimentov) ako etnickej skupine, ktorá bola vnímaná v obrázok.

Ideálnym cieľom podľa dokumentu je, aby CLIP presne kategorizoval prechodné rasové zmesi ako „zmiešané rasy“, namiesto toho, aby definoval „bod zlomu“, v ktorom je subjekt tak často úplne zaradený do nebieleho označenia.

Do určitej miery CLIP priraďuje prechodné morfovacie kroky zmiešanej rase (pozri graf vyššie), ale nakoniec demonštruje strednú preferenciu kategorizovať subjekty ako ich menšinu prispievajúcu rasu.

Pokiaľ ide o valenciu, autori poznamenávajú skreslený úsudok CLIP:

„[Priemerná] valenčná asociácia (spojenie so zlým alebo nepríjemným vs. s dobrým alebo príjemným) sa mení s pomerom miešania v sérii Black-White mužských morfov, takže CLIP kóduje asociácie s nepríjemnosťou pre tváre, ktoré sa najviac podobajú CFD dobrovoľníkom, ktorí sami -identifikujte sa ako Black.'

Výsledky valencie – testy ukazujú, že menšinové skupiny sú viac spojené s negatívnymi pojmami v architektúre obrazu/páru ako v prípade jedincov označených bielou značkou. Autori tvrdia, že asociácia nepríjemnosti obrázku sa zvyšuje s pravdepodobnosťou, že model spája obrázok s označením Black.

Príspevok uvádza:

„Dôkazy naznačujú, že valencia obrazu koreluje s rasovou [asociáciou]. Konkrétnejšie, naše výsledky naznačujú, že čím je model istejší, že obrázok odráža černocha, tým je obrázok viac spojený s nepríjemným priestorom na začlenenie.“

Výsledky však naznačujú negatívnu koreláciu aj v prípade ázijských tvárí. Autori naznačujú, že to môže byť spôsobené prenosom (prostredníctvom údajov z webu) pozitívneho kultúrneho vnímania ázijských ľudí a komunít v USA. Autori uvádzajú*:

„Pozorovanie korelácie medzi príjemnosťou a pravdepodobnosťou ázijského textového označenia môže zodpovedať stereotypu „modelovej menšiny“, v ktorom sú ľudia ázijského pôvodu chválení za svoju vzostupnú mobilitu a asimiláciu do americkej kultúry, a dokonca spojené s „dobrým správaním“.'

Čo sa týka konečného cieľa, preskúmať, či je biela „predvolená identita“ z pohľadu CLIP, výsledky naznačujú zabudovanú polaritu, čo naznačuje, že v tejto architektúre je dosť ťažké byť „trochu biely“.

Kosínusová podobnosť v rámci 21,000 XNUMX obrázkov vytvorených pre testy.

Autori komentujú:

„Dôkazy naznačujú, že CLIP kóduje bieleho ako predvolenú rasu. Toto je podporené silnejšími koreláciami medzi bielymi kosínusovými podobnosťami a kosínusovými podobnosťami osôb ako u akejkoľvek inej rasovej alebo etnickej skupiny.“

*Moja konverzia vložených citácií autorov na hypertextové odkazy.

Prvýkrát uverejnené 24. mája 2022.