Connect with us

Sztuczna inteligencja

Wyzwanie ‘Klasyfikacji Rasowej’ dla Systemów Syntezy Obrazu opartych na CLIP

mm

Nowe badania z USA wykazały, że jeden z popularnych modeli widzenia komputerowego, który jest podstawą słynnej serii DALL-E, a także wielu innych modeli generowania i klasyfikacji obrazów, wykazuje tendencję do hipodescentu – reguły klasyfikacji rasowej (znanej również jako ‘jedna kropla’ reguły), która klasyfikuje osobę z nawet niewielkim udziałem „mieszanego” (tj. nie-kaukaskiego) pochodzenia genetycznego całkowicie do kategorii rasowej „mniejszościowej”.

Ponieważ hipodescent charakteryzował niektóre z najbrzydszych rozdziałów w historii ludzkości, autorzy nowego artykułu sugerują, że takie tendencje w badaniach i wdrożeniach widzenia komputerowego powinny zostać poddane większej uwadze, nie tylko dlatego, że wspierający framework, który jest pobierany prawie milion razy w miesiącu, mógłby dalej rozpowszechniać i utrwalać uprzedzenia rasowe w dalszych frameworkach.

Architektura badana w nowej pracy to Contrastive Language Image Pretraining (CLIP), wielomodalny model uczenia maszynowego, który uczy się skojarzeń semantycznych poprzez trening na parach obraz/caption pobranych z internetu – półnadzorowany podejście, które redukuje znaczne koszty etykietowania, ale które prawdopodobnie odzwierciedla uprzedzenia osób, które stworzyły podpisów.

Z artykułu:

‘Nasze wyniki dostarczają dowodów na hipodescent w przestrzeni CLIP, uprzedzenie stosowane bardziej silnie do obrazów kobiet. Wyniki wskazują ponadto, że CLIP kojarzy obrazy z etykietami rasowymi lub etnicznymi na podstawie odchylenia od białego, z białym jako domyślnym.

Artykuł również stwierdza, że skojarzenie walencyjne obrazu (jego tendencja do kojarzenia się z „dobrymi” lub „złymi” rzeczami) jest znacznie wyższe dla etykiet rasowych „mniejszościowych” niż dla etykiet kaukaskich, i sugeruje, że uprzedzenia CLIP odzwierciedlają amerykańsko-centryczny korpus literatury (angielskojęzycznej Wikipedii) na którym framework został wytrenowany.

Komentując implikacje pozornego poparcia hipodescentu przez CLIP, autorzy stwierdzają*:

‘[Jednym] z pierwszych zastosowań CLIP było wytrenowanie modelu generowania obrazu zero-shot DALL-E. Większa, niepubliczna wersja architektury CLIP została użyta w treningu DALL-E 2. Zgodnie z wynikami niniejszych badań, Ryzyko i Ograniczenia opisane w karcie modelu DALL-E 2 zauważają, że „produkuje obrazy, które tendencję do nadreprezentowania osób, które są białe”.

‘Takie zastosowania demonstrują potencjał dla uprzedzeń nauczonego przez CLIP, aby rozprzestrzenić się poza przestrzeń modelu, ponieważ jego funkcje są używane do kierowania tworzeniem semantyki w innych modelach AI.

‘Ponadto, dzięki postępom osiągniętym przez CLIP i podobne modele do skojarzenia obrazów i tekstu w ustawieniu zero-shot, architektury wielomodalne zostały opisanymi jako podstawa przyszłości szeroko używanych aplikacji internetowych, w tym wyszukiwarek.

‘Nasze wyniki wskazują, że dodatkowa uwaga do tego, czego takie modele uczą się z nadzoru językowego, jest uzasadniona.’

Artykuł artykuł nosi tytuł Dowody na hipodescent w AI semantyce wizualnej, i pochodzi od trzech badaczy z Uniwersytetu Waszyngtonu i Uniwersytetu Harvarda.

CLIP i złe wpływy

Chociaż badacze potwierdzają, że ich praca jest pierwszą analizą hipodescentu w CLIP, wcześniejsze prace wykazały, że przepływ pracy CLIP, zależny od niezdyscyplinowanego treningu z niezdyscyplinowanych danych pochodzących z sieci, nie reprezentuje kobiet, może produkować obraźliwe treści, i może wykazywać sesyjną stronniczość (tj. antymuzułmańskie nastawienie) w swoim kodowaniu obrazu.

Oryginalny artykuł, który przedstawił CLIP, przyznał, że w ustawieniu zero-shot, CLIP kojarzy tylko 58,3% ludzi z etykietą rasową białą w FairFace dataset. Obserwując, że FairFace został oznaczony z możliwym uprzedzeniem przez pracowników Amazon Mechanical Turk, autorzy nowego artykułu stwierdzają, że ‘znaczna mniejszość ludzi, którzy są postrzegani przez innych ludzi jako biali, są kojarzeni z rasą inną niż biała przez CLIP.’

Stwierdzają oni dalej:

‘Odwrotność nie wydaje się być prawdą, ponieważ osoby, które są postrzegane jako należące do innych rasowych lub etnicznych etykiet w FairFace dataset, są kojarzone z tymi etykietami przez CLIP. To wynik sugeruje możliwość, że CLIP nauczył się reguły “hipodescentu”, jak opisują ją naukowcy społeczni: osoby z wielorasowym pochodzeniem są bardziej prawdopodobne, aby być postrzeganymi i klasyfikowanymi jako należące do mniejszościowej lub mniej uprzywilejowanej grupy rodzicielskiej niż do równie uzasadnionej grupy większościowej lub uprzywilejowanej.’

‘Innymi słowy, dziecko czarnego i białego rodzica jest postrzegane jako bardziej czarne niż białe; i dziecko azjatyckiego i białego rodzica jest postrzegane jako bardziej azjatyckie niż białe.’

Artykuł ma trzy główne ustalenia: że CLIP wykazuje hipodescent, „pędząc” ludzi z wielorasowymi tożsamościami do kategorii rasowej mniejszościowej, która ma zastosowanie do nich; że „biały jest domyślną rasą w CLIP”, i że konkurencyjne rasy są definiowane przez ich „odchylenie” od kategorii białej; i że sesyjna stronniczość (skojarzenie z „złymi” pojęciami) koreluje z tym, jak bardzo osoba jest sklasyfikowana do mniejszościowej grupy rasowej.

Metoda i Dane

Aby określić sposób, w jaki CLIP traktuje osoby wielorasowe, badacze użyli wcześniej przyjętej techniki morfowania, aby zmienić rasę obrazów osób. Zdjęcia pochodziły z Chicago Face Database, zestawu opracowanego do badań psychologicznych związanych z rasą.

Przykłady z morfowanych obrazów CFD przedstawionych w dodatkowym materiale nowego artykułu. Źródło: https://arxiv.org/pdf/2205.10764.pdf

Przykłady z morfowanych obrazów CFD przedstawionych w dodatkowym materiale nowego artykułu. Źródło: https://arxiv.org/pdf/2205.10764.pdf

Badacze wybrali tylko obrazy z „neutralnym wyrazem” z datasetu, aby zachować spójność z poprzednimi badaniami. Użyli sieci Generative Adversarial Network StyleGAN2-ADA (wytrenowanej na FFHQ) do wykonania zmiany rasy twarzy, i stworzyli obrazy pośrednie, które demonstrują postęp od jednej rasy do drugiej (zobacz przykładowe obrazy powyżej).

Zgodnie z poprzednimi badaniami, badacze zmorfowali twarze osób, które określiły się jako czarne, azjatyckie i latynoskie w dataset, w twarze osób, które określiły się jako białe. W procesie powstało 19 pośrednich etapów. Łącznie 21 000 obrazów 1024x1024px zostało stworzonych dla projektu tą metodą.

Badacze następnie uzyskali projekcję obrazu dla CLIP dla każdego z 21 obrazów w każdym zestawie morfologicznym. Po tym, poprosili o etykietę dla każdego obrazu z CLIP: „wielorasowy”, „dwurasowy”, „mieszany” i „osoba” (ostatnia etykieta pomija rasę).

Wersja CLIP użyta była CLIP-ViT-Base-Patch32 implementacja. Autorzy zauważają, że ten model został pobrany ponad milion razy w miesiącu poprzedzającym napisanie ich badań, i stanowi 98% pobranych modeli CLIP z Transformers library.

Testy

Aby przetestować potencjalną tendencję CLIP do hipodescentu, badacze zauważyli etykietę rasową przypisaną przez CLIP do każdego obrazu w gradientzie morfowanych obrazów dla każdej osoby.

Zgodnie z wynikami, CLIP tendencję do grupowania ludzi w kategoriach „mniejszościowych” wokół 50% punktu przejścia.

W punkcie 50% mieszania, gdzie podmiot jest równie pochodzenia/ docelową rasą, CLIP kojarzy wyższą liczbę 1000 morfowanych obrazów kobiet z etykietami azjatyckimi (89,1%), latynoskimi (75,8%) i czarnymi (69,7%) niż z równoważną etykietą białą.

W punkcie 50% mieszania, gdzie podmiot jest równie pochodzenia/ docelową rasą, CLIP kojarzy wyższą liczbę 1000 morfowanych obrazów kobiet z etykietami azjatyckimi (89,1%), latynoskimi (75,8%) i czarnymi (69,7%) niż z równoważną etykietą białą.

Wyniki pokazują, że osoby płci żeńskiej są bardziej podatne na hipodescent pod CLIP niż mężczyźni, chociaż autorzy hipotezują, że może to być spowodowane tym, że etykiety pochodzące z sieci i niezdyscyplinowane tendencję do podkreślania wyglądu podmiotu bardziej niż w przypadku mężczyzn, i że to może mieć efekt zniekształcający.

Hipodescent w 50% przejścia rasowego nie został zaobserwowany dla azjatycko-białych mężczyzn lub latynosko-białych mężczyzn, podczas gdy CLIP przypisał wyższą podobieństwo kosinusowe do etykiety czarnej w 67,5% przypadków w punkcie 55% mieszania.

Średnie podobieństwo kosinusowe etykiet Wielorasowych, Dwurasowych i Mieszanych. Wyniki wskazują, że CLIP działa w sposób „wodo- rozdzielający” w różnych procentach mieszania rasowego, rzadziej przypisując takie mieszanie rasowe do białego („osoba” w racjonalizacji eksperymentów) niż do etniczności, która została postrzegana w obrazie.

Średnie podobieństwo kosinusowe etykiet Wielorasowych, Dwurasowych i Mieszanych. Wyniki wskazują, że CLIP działa w sposób „wodo- rozdzielający” w różnych procentach mieszania rasowego, rzadziej przypisując takie mieszanie rasowe do białego („osoba” w racjonalizacji eksperymentów) niż do etniczności, która została postrzegana w obrazie.

Idealnym celem, zgodnie z artykułem, jest to, aby CLIP klasyfikował pośrednie mieszania rasowe dokładnie jako „mieszane”, zamiast definiowania „punktu przełomowego”, w którym podmiot jest tak często przypisywany całkowicie do nie-białej etykiety.

Do pewnego stopnia CLIP przypisuje pośrednie kroki morfologiczne jako Mieszane (zobacz wykres powyżej), ale ostatecznie demonstruje preferencję w średnim zakresie do klasyfikowania podmiotów jako ich mniejszościowej rasy przyczyniającej się.

W kwestii walencji, autorzy zauważają skrzywiony osąd:

‘[Średnia] walencja skojarzenia (skojarzenie z nieprzyjemnymi vs. z przyjemnymi) zmienia się z mieszanym stosunkiem w czarno-białym morfie mężczyzn, tak że CLIP koduje skojarzenia z nieprzyjemnością dla twarzy najbardziej podobnych do CFD wolontariuszy, którzy określają się jako czarni.’

Wyniki walencji – testy pokazują, że grupy mniejszościowe są bardziej skojarzone z negatywnymi pojęciami w architekturze obrazu/parze niż dla podmiotów oznaczonych jako biali. Autorzy twierdzą, że nieprzyjemne skojarzenie obrazu wzrasta wraz z prawdopodobieństwem, że model skojarzy obraz z etykietą czarną.

Wyniki walencji – testy pokazują, że grupy mniejszościowe są bardziej skojarzone z negatywnymi pojęciami w architekturze obrazu/parze niż dla podmiotów oznaczonych jako biali. Autorzy twierdzą, że nieprzyjemne skojarzenie obrazu wzrasta wraz z prawdopodobieństwem, że model skojarzy obraz z etykietą czarną.

Artykuł stwierdza:

‘Dowody wskazują, że walencja obrazu koreluje z kojarzeniem rasowym. Konkretnie, nasze wyniki wskazują, że im bardziej model jest pewien, że obraz odzwierciedla osobę czarną, tym bardziej skojarzony z nieprzyjemną przestrzenią obrazu jest.’

Jednak wyniki również wskazują na negatywną korelację w przypadku azjatyckich twarzy. Autorzy sugerują, że może to być spowodowane przeniesieniem (poprzez dane pochodzące z sieci) pozytywnych amerykańskich percepcji ludzi i społeczności azjatyckich. Autorzy stwierdzają*:

‘Obserwowanie korelacji między przyjemnością a prawdopodobieństwem etykiety azjatyckiej może odpowiadać stereotypowi „modelu mniejszości”, w którym ludzie azjatyckiego pochodzenia są chwaleni za ich mobilność i asymilację do amerykańskiej kultury, i nawet skojarzeni z „dobrym zachowaniem”.’

W odniesieniu do ostatecznego celu, aby zbadać, czy biały jest „domyślną tożsamością” z punktu widzenia CLIP, wyniki wskazują na wbudowaną polarność, sugerując, że pod tą architekturą jest dość trudno być „trochę białym”.

Podobieństwo kosinusowe w 21 000 obrazach stworzonych do testów.

Podobieństwo kosinusowe w 21 000 obrazach stworzonych do testów.

Autorzy komentują:

‘Dowody wskazują, że CLIP koduje biały jako domyślną rasę. To jest wspierane przez silniejsze korelacje między podobieństwem kosinusowym białym a podobieństwem kosinusowym osoby niż dla jakiejkolwiek innej grupy rasowej lub etnicznej.’

 

*Moja konwersja cytowań wstawianych autorów do linków.

Pierwotnie opublikowane 24 maja 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.