výhonek Výzva „Rasová kategorizace“ pro systémy syntézy obrazu založené na CLIP – Unite.AI
Spojte se s námi

Umělá inteligence

Výzva „Rasová kategorizace“ pro systémy syntézy obrazu založené na CLIP

mm
aktualizováno on

Nový výzkum z USA zjistil, že jeden z populárních modelů počítačového vidění, který stojí za velmi oblíbenou řadou DALL-E, stejně jako mnoho dalších modelů generování a klasifikace obrazu, vykazuje prokazatelnou tendenci k hypodescent – pravidlo rasové kategorizace (také známé jako pravidlo „jedné kapky“.), který kategorizuje osobu i s malým rozsahem „smíšené“ (tj. nekavkazské) genetické linie zcela do „menšinové“ rasové klasifikace.

Vzhledem k tomu, hypodescent má charakterizováno některé z nejošklivějších kapitol v historii lidstva, autoři nového článku navrhují, že takovým tendencím ve výzkumu a implementaci počítačového vidění by měla být věnována větší pozornost, v neposlední řadě proto, že dotyčný podpůrný rámec, stahovaný téměř milionkrát za měsíc, by mohl dále šířit a propagovat rasovou zaujatost v navazujících rámcích.

Architektura studovaná v novém díle je Předtrénování kontrastního obrazu jazyka (CLIP), multimodální model strojového učení, který se učí sémantické asociace trénováním na párech obrázek/titulek čerpaných z internetu – přístup napůl pod dohledem, který snižuje značné náklady na označování, ale který pravděpodobně odráží zaujatost lidí, kteří vytvořil titulky.

Z papíru:

„Naše výsledky poskytují důkaz pro hypodescent v prostoru pro vkládání CLIP, což je zkreslení aplikované silněji na snímky žen. Výsledky dále naznačují, že CLIP spojuje obrázky s rasovými nebo etnickými štítky na základě odchylky od bílé, přičemž bílá je výchozí.

Práce také zjistila, že valenční asociace obrázku (je to tendence být spojována s „dobrými“ nebo „špatnými“ věcmi, je výrazně vyšší u „menšinových“ rasových štítků než u kavkazských štítků, a naznačuje, že předsudky CLIP odrážejí korpus zaměřený na USA literatury (anglická Wikipedie), na které byl rámec trénován.

V komentáři k důsledkům zjevné podpory hypodescentu ze strany CLIP autoři uvádějí*:

„[Mezi] prvními způsoby použití CLIP bylo trénování modelu generování nulových snímků DALL-E. Při školení byla použita větší, neveřejná verze architektury CLIP DALL-E2. V souladu se zjištěními současného výzkumu jsou rizika a omezení popsaná na kartě modelu DALL-E 2 na vědomí že „produkuje obrazy, které mají tendenci přehnaně reprezentovat lidi, kteří procházejí bílými“.

„Taková použití demonstrují potenciál, aby se předsudky získané pomocí CLIP rozšířily mimo prostor pro vkládání modelu, protože jeho vlastnosti se používají k vedení utváření sémantiky v jiných nejmodernějších modelech umělé inteligence.

„Navíc, částečně díky pokrokům realizovaným pomocí CLIP a podobných modelů pro sdružování obrázků a textu v nastavení zero-shot, byly multimodální architektury popsáno jako základ pro budoucnost široce používaných internetových aplikací, včetně vyhledávačů.

"Naše výsledky naznačují, že je třeba věnovat zvýšenou pozornost tomu, co se takové modely naučí díky supervizi přirozeného jazyka."

Projekt papír je s názvem Důkaz pro hypodescent ve vizuální sémantické umělé inteligenci, a pochází od tří výzkumníků z University of Washington a Harvard University.

CLIP a špatné vlivy

Ačkoli výzkumníci potvrzují, že jejich práce je první analýzou hypodescentu v CLIP, předchozí práce prokázaly, že pracovní postup CLIP závisí, protože je z velké části na školení bez dozoru. nedostatečně vyléčený data odvozená z webu, nedostatečně zastupuje ženy, může vyrábět urážlivý obsaha může demonstrovat sémantické zkreslení (jako je protimuslimský sentiment) ve svém kodéru obrazu.

Původní dokument, který prezentoval CLIP, připustil, že v nastavení nulového záběru spojuje CLIP pouze 58.3 % lidí s bílou rasovou nálepkou v FairFace datový soubor. Autoři nového článku zjistili, že pracovníci Amazon Mechanical Turk označili FairFace za možnou zaujatost, a uvádějí, že „podstatná menšina lidí, kteří jsou ostatními lidmi vnímáni jako bílé, je podle CLIP spojena s jinou rasou než bílou“.

Pokračují:

„Opak se nezdá být pravdou, protože jednotlivci, kteří jsou vnímáni jako osoby, které patří k jiným rasovým nebo etnickým štítkům v datovém souboru FairFace, jsou s těmito štítky spojeny pomocí CLIP. Tento výsledek naznačuje možnost, že se CLIP naučilo pravidlo „hypodescenta“, jak jej popisují sociální vědci: jedinci s multirasovým původem budou s větší pravděpodobností vnímáni a kategorizováni jako členové menšiny nebo méně zvýhodněné rodičovské skupiny než stejně legitimní většiny. nebo zvýhodněná rodičovská skupina.

„Jinými slovy, dítě černo-bílého rodiče je vnímáno jako více černé než bílé; a dítě asijského a bílého rodiče je vnímáno jako více Asiat než bílé.“

Tento dokument má tři hlavní zjištění: že CLIP dokazuje hypodescenci tím, že „nahání“ lidi s multirasovou identitou do rasové kategorie přispívající k menšině, která se na ně vztahuje; že „bílá je výchozí rasa v CLIP“ a že konkurenční rasy jsou definovány svou „odchylkou“ od bílé kategorie; a to valenční zkreslení (spojení se „špatnými“ koncepty) koreluje do té míry, do jaké je jedinec kategorizován do rasové menšiny.

Metoda a data

Aby vědci určili způsob, jakým CLIP zachází s multirasovými subjekty, použili a dříve přijaté technika morfování ke změně rasy obrazů jednotlivců. Fotografie byly pořízeny z Databáze tváří v Chicagu, sada vyvinutá pro psychologické studie zahrnující rasu.

Příklady z rasově přeměněných obrázků CFD uvedených v doplňkovém materiálu nového článku. Zdroj: https://arxiv.org/pdf/2205.10764.pdf

Příklady z rasově přeměněných obrázků CFD uvedených v doplňkovém materiálu nového článku. Szdroj: https://arxiv.org/pdf/2205.10764.pdf

Vědci si ze souboru dat vybrali pouze obrázky s „neutrálním výrazem“, aby zůstali v souladu s předchozí prací. Používali Generative Adversarial Network StylGAN2-ADA (trénoval na FFHQ), aby se dosáhlo změny rasy na snímcích obličeje, a vytvořili se intersticiální obrazy, které demonstrují postup z jedné rasy do druhé (viz ukázkové obrázky výše).

V souladu s předchozí prací vědci přeměnili tváře lidí, kteří se v datovém souboru identifikovali jako černoši, Asiaté a Latinoameričanky, na tváře těch, kteří se označili za bílé. V procesu se vyrábí devatenáct mezistupňů. Celkem bylo touto metodou pro projekt vytvořeno 21,000 1024 obrázků 1024xXNUMXpx.

Výzkumníci poté získali promítaný obraz vložení pro CLIP pro každý z celkových 21 obrázků v každé sadě rasových morfů. Poté si vyžádali označení pro každý obrázek z CLIP: 'multiracial', 'biracial', 'smíšená rasa' a 'person' (konečné označení bez rasy).

Použitá verze CLIP byla CLIP-ViT-Base-Patch32 implementace. Autoři poznamenávají, že tento model byl stažen více než milionkrát za měsíc před sepsáním jejich výzkumu a představuje 98 % stažení jakéhokoli modelu CLIP z webu Knihovna transformátorů.

Zkoušky

Pro testování potenciální náchylnosti CLIP k hypodescentu vědci zaznamenali označení rasy přiřazené CLIP každému obrázku v gradientu morfovaných obrázků pro každého jednotlivce.

Podle zjištění má CLIP tendenci seskupovat lidi do „menšinových“ kategorií na hranici přechodu kolem 50 %.

Při 50% směšovacím poměru, kde je subjekt stejně původem/cílovou rasou, CLIP spojuje vyšší počet 1000 morfovaných ženských obrázků s asijskými (89.1 %), latinskými (75.8 %) a černošskými (69.7 %) štítky než s ekvivalentem Bílý štítek.

Při 50% směšovacím poměru, kde je subjekt stejně původem/cílovou rasou, CLIP spojuje vyšší počet 1000 morfovaných ženských obrázků s asijskými (89.1 %), latinskými (75.8 %) a černošskými (69.7 %) štítky než s ekvivalentem Bílý štítek.

Výsledky ukazují, že ženské subjekty jsou při CLIP náchylnější k hypodescenci než muži, ačkoli autoři předpokládají, že to může být způsobeno tím, že z webu odvozené a nekurované štítky, které charakterizují ženské obrázky, mají tendenci zdůrazňovat vzhled subjektu více než v případě mužů, a že to může mít zkreslený efekt.

Hypodescent při 50% rasovém přechodu nebyl pozorován u asijsko-bílých samců nebo latinsko-bílých samců morfových sérií, zatímco CLIP přiřadil vyšší kosinusovou podobnost s černou značkou v 67.5 % případů při 55% směšovacím poměru.

Střední kosinusová podobnost značek Multiracial, Biracial a Mixed Race. Výsledky naznačují, že CLIP provozuje jakousi „předělovou“ kategorizaci při různém procentu rasové směsi, méně často přiřazuje takovou rasovou směs bílé („osobě“, v odůvodnění experimentů) než etnicitě, která byla vnímána v obrázek.

Střední kosinusová podobnost značek Multiracial, Biracial a Mixed Race. Výsledky naznačují, že CLIP provozuje jakousi „předělovou“ kategorizaci při různém procentu rasové směsi, méně často přiřazuje takovou rasovou směs bílé („osobě“, v odůvodnění experimentů) než etnicitě, která byla vnímána v obrázek.

Ideálním cílem podle dokumentu je, aby CLIP kategorizoval přechodné rasové mixy přesně jako „smíšené rasy“, místo aby definoval „bod zvratu“, ve kterém je subjekt tak často zcela zařazován do nebílého označení.

CLIP do určité míry přiřazuje přechodné morfovací kroky smíšené rase (viz graf výše), ale nakonec ukazuje střední preferenci kategorizovat subjekty jako jejich menšinu přispívající rasu.

Pokud jde o valenci, autoři si všímají zkresleného úsudku CLIP:

„[Průměrná] valenční asociace (asociace se špatným nebo nepříjemným vs. s dobrým nebo příjemným) se mění s poměrem míšení v sérii černo-bílých mužských morfů, takže CLIP kóduje asociace s nepříjemností pro tváře, které se nejvíce podobají CFD dobrovolníkům, kteří sami -identifikuj se jako Černý.'

Výsledky valence – testy ukazují, že menšinové skupiny jsou více spojovány s negativními koncepty v architektuře obrazu/páru než u jedinců označených bíle. Autoři tvrdí, že asociace nepříjemnosti obrázku se zvyšuje s pravděpodobností, že si model spojí obrázek s označením Black.

Výsledky valence – testy ukazují, že menšinové skupiny jsou více spojovány s negativními koncepty v architektuře obrazu/páru než u jedinců označených bíle. Autoři tvrdí, že asociace nepříjemnosti obrázku se zvyšuje s pravděpodobností, že si model spojí obrázek s označením Black.

Článek uvádí:

„Důkazy naznačují, že valence obrazu koreluje s rasovou [asociací]. Konkrétněji řečeno, naše výsledky naznačují, že čím je model jistější, že obrázek odráží černošského jedince, tím více souvisí s nepříjemným prostorem pro vložení obrázku.“

Výsledky však naznačují negativní korelaci i v případě asijských tváří. Autoři naznačují, že to může být způsobeno předáváním (prostřednictvím údajů z webu) pozitivního vnímání asijských lidí a komunit z kultury USA. Autoři uvádějí*:

„Pozorování korelace mezi příjemností a pravděpodobností asijského textového štítku může odpovídat stereotypu „modelové menšiny“, v němž jsou lidé asijského původu chváleni za svou vzestupnou mobilitu a asimilaci do americké kultury, a dokonce spojené s "dobré chování".'

Pokud jde o konečný cíl, prozkoumat, zda je bílá z pohledu CLIP „výchozí identita“, výsledky naznačují vnořenou polaritu, což naznačuje, že v této architektuře je poměrně obtížné být „trochu bílý“.

Kosinová podobnost napříč 21,000 XNUMX obrázky vytvořenými pro testy.

Kosinová podobnost napříč 21,000 XNUMX obrázky vytvořenými pro testy.

Autoři komentují:

„Důkazy naznačují, že CLIP kóduje bílé jako výchozí rasu. To je podpořeno silnějšími korelacemi mezi bílými kosinovými podobnostmi a lidskými kosinovými podobnostmi než u jakékoli jiné rasové nebo etnické skupiny.“

 

*Můj převod inline citací autorů na hypertextové odkazy.

Poprvé publikováno 24. května 2022.