stub L-Isfida tal-'Kategorizzazzjoni Razzjali' għal Sistemi ta' Sintesi tal-Immaġini bbażati fuq CLIP - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

L-Isfida tal-'Kategorizzazzjoni Razzjali' għal Sistemi ta' Sintesi tal-Immaġini bbażati fuq CLIP

mm
Aġġornata on

Riċerka ġdida mill-Istati Uniti ssib li wieħed mill-mudelli popolari ta’ viżjoni bil-kompjuter wara s-serje DALL-E, kif ukoll ħafna mudelli oħra ta’ ġenerazzjoni u klassifikazzjoni ta’ immaġini, juri tendenza li tista’ tiġi ppruvata lejn ipodixxenti – ir-regola tal-kategorizzazzjoni tar-razza (magħrufa wkoll bħala l- ir-regola ta' 'qatra waħda') li jikkategorizza persuna b'livell żgħir ta' nisel ġenetiku 'mħallat' (jiġifieri mhux Kawkasi) kompletament fi klassifikazzjoni razzjali 'minoranza'.

Peress ipodexxenti għandu ikkaratterizzat uħud mill-aktar kapitoli ikrah fl-istorja tal-bniedem, l-awturi tad-dokument il-ġdid jissuġġerixxu li tendenzi bħal dawn fir-riċerka u l-implimentazzjoni tal-viżjoni bil-kompjuter għandhom jirċievu attenzjoni akbar, mhux l-inqas minħabba li l-qafas ta 'appoġġ inkwistjoni, imniżżel kważi miljun darba fix-xahar, jista' jkompli jxerred u jippromulga preġudizzju razzjali f'oqfsa downstream.

L-arkitettura li qed tiġi studjata fix-xogħol il-ġdid hija Taħriġ minn qabel tal-Immaġni tal-Lingwa Kontrastanti (CLIP), mudell ta’ tagħlim tal-magni multimodali li jitgħallem assoċjazzjonijiet semantiċi billi jitħarreġ fuq pari immaġini/caption meħuda mill-internet – approċċ semi-superviżjoni li jnaqqas l-ispiża sinifikanti tat-tikkettar, iżda li x’aktarx jirrifletti l-preġudizzju tan-nies li ħoloq il-titoli.

Mill-karta:

"Ir-riżultati tagħna jipprovdu evidenza għal ipodexxenti fl-ispazju ta 'inkorporazzjoni ta' CLIP, preġudizzju applikat b'mod aktar qawwi għal stampi tan-nisa. Ir-riżultati jindikaw ukoll li CLIP jassoċja immaġini ma 'tikketti razzjali jew etniċi bbażati fuq devjazzjoni mill-Abjad, bl-Abjad bħala default.

Id-dokument sab ukoll li l-assoċjazzjoni ta’ valenza ta’ immaġini (t-tendenza li tkun assoċjata ma’ affarijiet ‘tajbin’ jew ‘ħżiena’, hija notevolment ogħla għal tikketti razzjali ‘minoranza’ milli għal tikketti Kawkasi, u jissuġġerixxi li l-preġudizzji ta’ CLIP jirriflettu l-korpus iċċentrat fl-Istati Uniti. tal-letteratura (Wikipedija bil-lingwa Ingliża) li fuqha tħarreġ il-qafas.

F'kumment dwar l-implikazzjonijiet tal-appoġġ apparenti ta 'CLIP ta' ipodexxenti, l-awturi jiddikjaraw *:

'[Fost] l-ewwel użi ta 'CLIP kien li jħarreġ il-mudell ta' ġenerazzjoni ta 'immaġni zero-shot BLATA. Verżjoni akbar, mhux pubblika tal-arkitettura CLIP intużat fit-taħriġ ta' DALL-E2. Jikproporzjonat mas-sejbiet tar-riċerka preżenti, ir-Riskji u l-Limitazzjonijiet deskritti fil-karta tal-mudell DALL-E 2 jinnota li “jipproduċi immaġini li għandhom it-tendenza li jirrapreżentaw żżejjed nies li huma White-passing”.

“Użi bħal dawn juru l-potenzjal li l-preġudizzji mitgħallma minn CLIP jinfirxu lil hinn mill-ispazju ta’ inkorporazzjoni tal-mudell, peress li l-karatteristiċi tiegħu jintużaw biex jiggwidaw il-formazzjoni tas-semantika f’mudelli AI avvanzati oħra.

“Barra minn hekk, parzjalment minħabba l-avvanzi realizzati minn CLIP u mudelli simili għall-assoċjar ta’ immaġini u test fl-ambjent zero-shot, l-arkitetturi multimodali ġew deskritti bħala l-pedament għall-futur ta’ applikazzjonijiet tal-internet użati ħafna, inklużi magni tat-tiftix.

"Ir-riżultati tagħna jindikaw li attenzjoni addizzjonali għal dak li mudelli bħal dawn jitgħallmu mis-superviżjoni tal-lingwa naturali hija ġġustifikata."

il karta huwa intitolat Evidenza għal Ipodexxenti fl-AI Semantika Viżwali, u ġej minn tliet riċerkaturi fl-Università ta 'Washington u l-Università ta' Harvard.

CLIP u Influwenzi Ħżiena

Għalkemm ir-riċerkaturi jixhdu li x-xogħol tagħhom huwa l-ewwel analiżi tal-ipodexxenti fil-CLIP, xogħlijiet preċedenti wrew li l-fluss tax-xogħol tal-CLIP, jiddependi peress li huwa fil-biċċa l-kbira tiegħu fuq taħriġ mhux sorveljat minn taħt kura data derivata mill-web, jirrappreżenta biżżejjed lin-nisa, jistgħu jipproduċu kontenut offensiv, u jistgħu juru preġudizzju semantiku (bħal sentiment anti-Musulmani) fl-encoder tal-immaġni tiegħu.

Id-dokument oriġinali li ppreżenta CLIP ammettiet li f'ambjent ta' żero-shot, CLIP jassoċja biss 58.3% tan-nies bit-tikketta razzjali White fil- FairFace sett tad-dejta. Meta josservaw li FairFace kien ittikkettat bi preġudizzju possibbli mill-ħaddiema tal-Amazon Mechanical Turk, l-awturi tad-dokument il-ġdid jiddikjaraw li 'minoranza sostanzjali ta' nies li huma pperċepiti minn bnedmin oħra bħala White huma assoċjati ma' razza oħra għajr White minn CLIP.'

Huma jkomplu:

'Il-maqlub ma jidhirx li hu minnu, peress li individwi li huma pperċepiti li jappartjenu għal tikketti razzjali jew etniċi oħra fis-sett tad-dejta FairFace huma assoċjati ma' dawk it-tikketti minn CLIP. Dan ir-riżultat jissuġġerixxi l-possibbiltà li CLIP tgħallem ir-regola ta '"ipodexxenti", kif deskritt minn xjentisti soċjali: individwi b'antenati multirazzjali huma aktar probabbli li jiġu pperċepiti u kategorizzati bħala li jappartjenu għall-minoranza jew grupp ta' ġenituri inqas vantaġġjati milli għall-maġġoranza ugwalment leġittima. jew grupp ġenitur vantaġġjat.

'Fi kliem ieħor, it-tifel ta' ġenitur Iswed u Abjad huwa pperċepit li huwa aktar Iswed milli Abjad; u t-tifel ta' ġenitur Asjatiku u Abjad huwa pperċepit li huwa aktar Asjatiku minn Abjad.'

Id-dokument għandu tliet sejbiet ċentrali: li CLIP juri ipodexxenti, billi 'jgħaqqad' nies b'identitajiet multirazzjali fil-kategorija razzjali li tikkontribwixxi minoranza li tapplika għalihom; li 'l-Abjad hija t-tiġrija awtomatika fil-CLIP', u li t-tiġrijiet li jikkompetu huma definiti bid-'devjazzjoni' tagħhom minn kategorija White; u dak preġudizzju ta' valenza (assoċjazzjoni ma 'kunċetti 'ħżiena') tikkorrelata sal-punt li l-individwu huwa kategorizzat f'minoranza razzjali.

Metodu u Dejta

Sabiex jiġi ddeterminat il-mod kif CLIP tittratta suġġetti multirazzjali, ir-riċerkaturi użaw a adottata qabel teknika ta 'morphing biex tbiddel ir-razza ta' immaġini ta 'individwi. Ir-ritratti ttieħdu mill- Chicago Face Database, sett żviluppat għal studji psikoloġiċi li jinvolvu razza.

Eżempji mill-immaġini CFD b'mod razzjali li jidhru fil-materjal supplimentari tal-karta l-ġdida. Sors: https://arxiv.org/pdf/2205.10764.pdf

Eżempji mill-immaġini CFD b'mod razzjali li jidhru fil-materjal supplimentari tal-karta l-ġdida. Source: https://arxiv.org/pdf/2205.10764.pdf

Ir-riċerkaturi għażlu biss immaġini ta' 'espressjoni newtrali' mis-sett tad-dejta, sabiex jibqgħu konsistenti max-xogħol preċedenti. Huma użaw in-Netwerk Avversarju Ġenerattiv StyleGAN2-ADA (mħarreġ fuq FFHQ) biex iwettaq it-tibdil tar-razza tal-immaġini tal-wiċċ, u ħoloq immaġini interstizjali li juru l-progressjoni minn razza għal oħra (ara l-istampi ta' eżempju hawn fuq).

B'mod konsistenti max-xogħol preċedenti, ir-riċerkaturi biddel uċuħ ta 'nies li identifikaw lilhom infushom bħala Iswed, Asjatiċi u Latini fis-sett tad-dejta f'uċuħ ta' dawk li ttikkettaw lilhom infushom bħala Abjad. Fil-proċess jiġu prodotti dsatax-il stadju intermedju. B'kollox, inħolqu 21,000 immaġini 1024x1024px għall-proġett b'dan il-metodu.

Ir-riċerkaturi mbagħad kisbu inkorporazzjoni ta 'immaġni proġettata għal CLIP għal kull waħda mill-21 immaġini totali f'kull sett ta' morph razzjali. Wara dan, huma talbu tikketta għal kull immaġini minn CLIP: 'multirazjali', 'biracial', 'razza mħallta', u 'persuna' (it-tikketta finali li tħalli barra r-razza).

Il-verżjoni tal-CLIP użata kienet il- CLIP-ViT-Base-Patch32 implimentazzjoni. L-awturi jinnotaw li dan il-mudell ġie mniżżel aktar minn miljun darba fix-xahar qabel ma nkitbu r-riċerka tagħhom, u jammonta għal 98% tat-tniżżil ta' kwalunkwe mudell CLIP mill- Librerija tat-trasformaturi.

Testijiet

Biex tittestja l-proclivity potenzjali ta 'CLIP lejn ipodexxenti, ir-riċerkaturi nnutaw it-tikketta tar-razza assenjata minn CLIP għal kull immaġini fil-gradjent ta' immaġini morphed għal kull individwu.

Skont is-sejbiet, CLIP għandu t-tendenza li jiġbor in-nies fil-kategoriji 'minoranza' għal madwar il-marka ta' tranżizzjoni ta' 50%.

Bi proporzjon ta' taħlit ta' 50%, fejn is-suġġett huwa ugwalment oriġini/razza fil-mira, CLIP jassoċja numru ogħla ta' 1000 immaġini femminili morphed ma' tikketti Asjatiċi (89.1%), Latina (75.8%) u Iswed (69.7%) milli ma 'ekwivalenti. Tikketta bajda.

Bi proporzjon ta' taħlit ta' 50%, fejn is-suġġett huwa ugwalment oriġini/razza fil-mira, CLIP jassoċja numru ogħla ta' 1000 immaġini femminili morphed ma' tikketti Asjatiċi (89.1%), Latina (75.8%) u Iswed (69.7%) milli ma 'ekwivalenti. Tikketta bajda.

Ir-riżultati juru li s-suġġetti nisa huma aktar suxxettibbli għall-ipodexxenza taħt CLIP milli l-irġiel, għalkemm l-awturi ipotesi li dan jista 'jkun minħabba li t-tikketti derivati ​​mill-web u mhux ikkurati li jikkaratterizzaw immaġini femminili għandhom it-tendenza li jenfasizzaw id-dehra tas-suġġett aktar milli fil-każ tal-irġiel, u li dan jista' jkollu effett distort.

Ipodexxenti fi tranżizzjoni razzjali ta '50% ma ġietx osservata għas-serje morph maskili Asjatiċi-Abjad jew Latino-Abjad, filwaqt li CLIP assenjat xebh ta' cosine ogħla mat-tikketta Iswed f'67.5% tal-każijiet f'proporzjon ta 'taħlit ta' 55%.

Ix-xebh medju tal-cosine tat-tikketti Multiracial, Biracial u Mixed Race. Ir-riżultati jindikaw li CLIP topera tip ta’ kategorizzazzjoni ta’ ‘watershed’ f’perċentwali varji ta’ taħlita razzjali, anqas ta’ spiss tassenja tali taħlita razzjali lill-White (“persuna”, fir-raġunament tal-esperimenti) milli lill-etniċità li ġiet pperċepita f’ l-immaġini.

Ix-xebh medju tal-cosine tat-tikketti Multiracial, Biracial u Mixed Race. Ir-riżultati jindikaw li CLIP topera tip ta’ kategorizzazzjoni ta’ ‘watershed’ f’perċentwali varji ta’ taħlita razzjali, anqas ta’ spiss tassenja tali taħlita razzjali lill-White (“persuna”, fir-raġunament tal-esperimenti) milli lill-etniċità li ġiet pperċepita f’ l-immaġini.

L-għan ideali, skont id-dokument, huwa li CLIP jikkategorizza t-taħlitiet razzjali intermedji b'mod preċiż bħala 'razza mħallta', minflok tiddefinixxi 'punt ta' tmiem' li fih is-suġġett ta' spiss jiġi kkonsenjat kompletament għat-tikketta mhux White.

Sa ċertu punt, CLIP jassenja l-passi intermedji tal-morphing ma' Razza Imħallta (ara l-graff ta' hawn fuq), iżda eventwalment juri preferenza ta' medda medja biex jikkategorizza s-suġġetti bħala r-razza li tikkontribwixxi tal-minoranza tagħhom.

F'termini ta' valenza, l-awturi jinnotaw il-ġudizzju distort ta' CLIP:

'Assoċjazzjoni ta' valenza [medja] (assoċjazzjoni ma 'ħażin jew spjaċevoli vs. ma' tajjeb jew pjaċevoli) tvarja bil-proporzjon tat-taħlit fuq is-serje morph maskili Iswed-White, b'tali mod li CLIP jikkodifika assoċjazzjonijiet bi spjaċevoli għall-uċuħ l-aktar simili għal voluntiera CFD li awto -identifika bħala Iswed.'

Ir-riżultati tal-valenza - it-testijiet juru li l-gruppi minoritarji huma aktar assoċjati ma 'kunċetti negattivi fl-arkitettura tal-immaġni/par milli għal suġġetti b'tikketta White. L-awturi jsostnu li l-assoċjazzjoni unpleasantness ta 'immaġni tiżdied bil-probabbiltà li l-mudell jassoċja l-immaġni mat-tikketta Iswed.

Ir-riżultati tal-valenza - it-testijiet juru li l-gruppi minoritarji huma aktar assoċjati ma 'kunċetti negattivi fl-arkitettura tal-immaġni/par milli għal suġġetti b'tikketta White. L-awturi jsostnu li l-assoċjazzjoni unpleasantness ta 'immaġni tiżdied bil-probabbiltà li l-mudell jassoċja l-immaġni mat-tikketta Iswed.

Il-karta tgħid:

'L-evidenza tindika li l-valenza ta' immaġni tikkorrelata ma' [assoċjazzjoni] razzjali. B'mod aktar konkret, ir-riżultati tagħna jindikaw li aktar ma jkun ċert il-mudell li immaġini tirrifletti individwu Iswed, aktar tkun assoċjata mal-ispazju ta' inkorporazzjoni spjaċevoli l-immaġni.'

Madankollu, ir-riżultati jindikaw ukoll korrelazzjoni negattiva fil-każ ta 'uċuħ Asjatiċi. L-awturi jissuġġerixxu li dan jista 'jkun dovut għal pass-through (permezz tad-dejta li ġejja mill-web) ta' perċezzjonijiet kulturali pożittivi tal-Istati Uniti ta 'nies u komunitajiet Asjatiċi. L-awturi jgħidu*:

“L-osservazzjoni ta’ korrelazzjoni bejn il-pjaċevoli u l-probabbiltà tat-tikketta tat-test Ażjatiku tista’ tikkorrispondi għall-isterjotip ta’ “minoranza mudell”, fejn in-nies ta’ antenati Ażjatiċi huma mfaħħrin għall-mobilità 'l fuq u l-assimilazzjoni tagħhom fil-kultura Amerikana, u anke assoċjati ma '"imġieba tajba".'

Rigward l-għan finali, biex jiġi eżaminat jekk l-Abjad huwiex l-'identità awtomatika' mill-perspettiva ta 'CLIP, ir-riżultati jindikaw polarità inkorporata, li jissuġġerixxu li taħt din l-arkitettura, huwa pjuttost diffiċli li tkun 'ftit abjad'.

Xebh tal-kosinju tul 21,000 immaġini maħluqa għat-testijiet.

Xebh tal-kosinju tul 21,000 immaġini maħluqa għat-testijiet.

L-awturi jikkummentaw:

“L-evidenza tindika li CLIP tikkodifika l-White bħala razza awtomatika. Dan huwa sostnut mill-korrelazzjonijiet aktar b'saħħithom bejn ix-xebh tal-cosine abjad u x-xebh tal-cosine tal-persuna milli għal kwalunkwe grupp razzjali jew etniku ieħor.'

 

*Il-konverżjoni tiegħi taċ-ċitazzjonijiet inline tal-awturi għal hyperlinks.

Ippublikat għall-ewwel darba fit-24 ta' Mejju 2022.