stomp De 'Raciale categorisatie'-uitdaging voor op CLIP gebaseerde beeldsynthesesystemen - Unite.AI
Verbind je met ons

Artificial Intelligence

De 'Raciale categorisatie'-uitdaging voor op CLIP gebaseerde beeldsynthesesystemen

mm
Bijgewerkt on

Uit nieuw onderzoek uit de VS blijkt dat een van de populaire computer vision-modellen achter de veelgeprezen DALL-E-serie, evenals vele andere modellen voor het genereren en classificeren van beelden, een aantoonbare neiging vertoont tot hypodescent – de rasindelingsregel (ook bekend als de 'one drop'-regel) die een persoon met zelfs maar een klein beetje 'gemengde' (dwz niet-blanke) genetische afstamming volledig categoriseert in een 'minderheids' raciale classificatie.

Sinds hypodescent heeft gekarakteriseerde enkele van de lelijkste hoofdstukken in de geschiedenis van de mensheid, suggereren de auteurs van het nieuwe artikel dat dergelijke tendensen in computer vision-onderzoek en -implementatie meer aandacht zouden moeten krijgen, niet in de laatste plaats omdat het ondersteunende kader in kwestie, dat bijna een miljoen keer per maand wordt gedownload, verder zou kunnen worden verspreid en raciale vooroordelen verkondigen in stroomafwaartse kaders.

De architectuur die in het nieuwe werk wordt bestudeerd, is Contrastieve taalbeeldvoortraining (CLIP), een multimodaal machinaal leermodel dat semantische associaties leert door te trainen op afbeelding/bijschriftparen afkomstig van internet – een semi-gecontroleerde aanpak die de aanzienlijke kosten van etikettering verlaagt, maar die waarschijnlijk de vooroordelen weerspiegelt van de mensen die heeft de onderschriften gemaakt.

Uit de krant:

'Onze resultaten leveren bewijs voor hypodescentie in de CLIP-inbeddingsruimte, een vooroordeel dat sterker wordt toegepast op afbeeldingen van vrouwen. De resultaten geven verder aan dat CLIP afbeeldingen associeert met raciale of etnische labels op basis van afwijking van blank, met blank als standaard.

De paper constateert ook dat de valentie-associatie van een afbeelding (de neiging om geassocieerd te worden met 'goede' of 'slechte' dingen, met name hoger is voor 'minderheids'-raciale labels dan voor blanke labels, en suggereert dat de vooroordelen van CLIP het op de VS gerichte corpus weerspiegelen. literatuur (Engelstalige Wikipedia) waarop het raamwerk is getraind.

In reactie op de implicaties van CLIP's schijnbare ondersteuning van hypodescent, verklaren de auteurs*:

'[Een van] de eerste toepassingen van CLIP was het trainen van het zero-shot beeldgeneratiemodel DALL-E. Bij de training van werd een grotere, niet-openbare versie van de CLIP-architectuur gebruikt DALL-E2. Overeenkomstig de bevindingen van het huidige onderzoek, de risico's en beperkingen beschreven in de DALL-E 2-modelkaart nota dat het "beelden produceert die de neiging hebben om mensen die White-passing zijn te overrepresenteren".

'Dergelijke toepassingen tonen aan dat de door CLIP geleerde vooroordelen zich buiten de inbeddingsruimte van het model kunnen verspreiden, aangezien de functies ervan worden gebruikt om de vorming van semantiek in andere geavanceerde AI-modellen te begeleiden.

'Bovendien zijn multimodale architecturen, mede dankzij de vooruitgang die is gerealiseerd door CLIP en vergelijkbare modellen voor het associëren van beeld en tekst in de zero-shot-setting, beschreven als basis voor de toekomst van veelgebruikte internettoepassingen, waaronder zoekmachines.

'Onze resultaten geven aan dat extra aandacht voor wat dergelijke modellen leren van natuurlijke-taalsupervisie gerechtvaardigd is.'

De papier is getiteld Bewijs voor hypodescent in visuele semantische AI, en is afkomstig van drie onderzoekers van de University of Washington en Harvard University.

CLIP en slechte invloeden

Hoewel de onderzoekers bevestigen dat hun werk de eerste analyse is van hypodescent in CLIP, hebben eerdere werken aangetoond dat de CLIP-workflow, afhankelijk van grotendeels ongecontroleerde training van ondergecureerd web-afgeleide gegevens, vrouwen ondervertegenwoordigd, kan produceren aanstootgevende inhoud, en kan aantonen semantische vooringenomenheid (zoals anti-moslimsentiment) in de afbeeldingsencoder.

De originele krant die CLIP presenteerde, gaf toe dat in een zero-shot setting, CLIP slechts 58.3% van de mensen associeert met het blanke raciale label in de Eerlijk gezicht gegevensset. Toen ze opmerkten dat FairFace door werknemers van Amazon Mechanical Turk met mogelijke vooringenomenheid werd bestempeld, stellen de auteurs van het nieuwe artikel dat 'een substantiële minderheid van mensen die door andere mensen als blank worden beschouwd, door CLIP wordt geassocieerd met een ander ras dan blank.'

Ze gaan door:

'Het omgekeerde lijkt niet waar te zijn, aangezien personen waarvan wordt aangenomen dat ze behoren tot andere raciale of etnische labels in de FairFace-dataset, door CLIP met die labels worden geassocieerd. Dit resultaat suggereert de mogelijkheid dat CLIP de regel van 'hypodescent' heeft geleerd, zoals beschreven door sociale wetenschappers: individuen met een multiraciale afkomst worden eerder gezien en gecategoriseerd als behorend tot de minderheid of minder bevoordeelde oudergroep dan tot de even legitieme meerderheid of bevoordeelde oudergroep.

'Met andere woorden, het kind van een zwarte en een blanke ouder wordt gezien als meer zwart dan wit; en het kind van een Aziatische en een blanke ouder wordt gezien als meer Aziatisch dan blank.'

De paper heeft drie centrale bevindingen: dat CLIP bewijst van hypodescentie, door mensen met multiraciale identiteiten te 'hoeden' in de raciale minderheidscategorie die op hen van toepassing is; dat 'wit de standaardrace is in CLIP', en dat concurrerende rassen worden bepaald door hun 'afwijking' van een witte categorie; en dat valentie vooringenomenheid (een associatie met 'slechte' concepten) hangt samen met de mate waarin het individu wordt ingedeeld in een raciale minderheid.

Methode en gegevens

Om te bepalen op welke manier CLIP multiraciale proefpersonen behandelt, gebruikten de onderzoekers een eerder aangenomen morphing-techniek om het ras van afbeeldingen van individuen te veranderen. De foto's zijn genomen vanaf de Chicago Face-database, een set ontwikkeld voor psychologische studies met betrekking tot ras.

Voorbeelden van de raciaal veranderde CFD-afbeeldingen in het aanvullende materiaal van de nieuwe krant. Bron: https://arxiv.org/pdf/2205.10764.pdf

Voorbeelden van de raciaal veranderde CFD-afbeeldingen in het aanvullende materiaal van de nieuwe krant. Sonze bron: https://arxiv.org/pdf/2205.10764.pdf

De onderzoekers kozen alleen afbeeldingen met 'neutrale expressie' uit de dataset om consistent te blijven met het eerdere werk. Ze gebruikten het Generative Adversarial Network StijlGAN2-ADA (doorgetraind FFHQ) om de gezichtsafbeeldingen van ras te veranderen en interstitiële afbeeldingen te maken die de voortgang van het ene ras naar het andere laten zien (zie voorbeeldafbeeldingen hierboven).

In overeenstemming met het eerdere werk veranderden de onderzoekers gezichten van mensen die zichzelf identificeerden als zwart, Aziatisch en latino in de dataset in gezichten van degenen die zichzelf als blank bestempelden. In het proces worden negentien tussenstappen geproduceerd. Op deze manier zijn in totaal 21,000 afbeeldingen van 1024 x 1024 px voor het project gemaakt.

De onderzoekers verkregen vervolgens een geprojecteerde beeldinbedding voor CLIP voor elk van de in totaal 21 afbeeldingen in elke raciale morph-set. Hierna vroegen ze CLIP om een ​​label voor elke afbeelding: 'multiraciaal', 'biraciaal', 'gemengd ras' en 'persoon' (het laatste label laat ras weg).

De gebruikte versie van CLIP was de CLIP-ViT-Base-Patch32 implementatie. De auteurs merken op dat dit model meer dan een miljoen keer is gedownload in de maand voorafgaand aan het schrijven van hun onderzoek, en goed is voor 98% van de downloads van elk CLIP-model van de Transformers bibliotheek.

Tests

Om te testen op CLIP's potentiële neiging tot hypodescentie, noteerden de onderzoekers het raslabel dat door CLIP aan elk beeld was toegekend in de gradiënt van vervormde beelden voor elk individu.

Volgens de bevindingen heeft CLIP de neiging om mensen in de 'minderheids'-categorieën te groeperen rond de overgangsgrens van 50%.

Bij een mengverhouding van 50%, waarbij het onderwerp gelijk is aan afkomst/doelras, associeert CLIP een hoger aantal van 1000 gemorphte vrouwelijke afbeeldingen met Aziatische (89.1%), Latina (75.8%) en zwarte (69.7%) labels dan met een equivalent Wit label.

Bij een mengverhouding van 50%, waarbij het onderwerp gelijk is aan afkomst/doelras, associeert CLIP een hoger aantal van 1000 gemorphte vrouwelijke afbeeldingen met Aziatische (89.1%), Latina (75.8%) en zwarte (69.7%) labels dan met een equivalent Wit label.

De resultaten laten zien dat vrouwelijke proefpersonen meer vatbaar zijn voor hypodescentie onder CLIP dan mannen, hoewel de auteurs veronderstellen dat dit kan komen doordat de van het web afgeleide en niet-gecureerde labels die vrouwelijke afbeeldingen kenmerken, de neiging hebben om het uiterlijk van de proefpersoon meer te benadrukken dan in het geval van mannen. en dat dit een scheeftrekkend effect kan hebben.

Hypodescent bij een raciale overgang van 50% werd niet waargenomen voor de Aziatisch-blanke mannelijke of Latino-blanke mannelijke morph-serie, terwijl CLIP in 67.5% van de gevallen een hogere cosinusovereenkomst toekende aan het zwarte label bij een mengverhouding van 55%.

De gemiddelde cosinusovereenkomst van Multiraciale, Biraciale en Mixed Race-labels. De resultaten geven aan dat CLIP een soort 'keerpunt'-categorisering hanteert bij variërende percentages van raciale mix, waarbij een dergelijke raciale mix minder vaak wordt toegeschreven aan Blank ('persoon', in de grondgedachte van de experimenten) dan aan de etniciteit die is waargenomen in De afbeelding.

De gemiddelde cosinusovereenkomst van Multiraciale, Biraciale en Mixed Race-labels. De resultaten geven aan dat CLIP een soort 'keerpunt'-categorisering hanteert bij variërende percentages van raciale mix, waarbij een dergelijke raciale mix minder vaak wordt toegeschreven aan Blank ('persoon', in de grondgedachte van de experimenten) dan aan de etniciteit die is waargenomen in De afbeelding.

Het ideale doel, volgens de krant, is dat CLIP de intermediaire raciale vermengingen nauwkeurig zou categoriseren als 'gemengd ras', in plaats van een 'omslagpunt' te definiëren waarop het onderwerp zo vaak volledig wordt verwezen naar het niet-witte label.

Tot op zekere hoogte kent CLIP de tussenliggende morph-stappen wel toe aan Mixed Race (zie grafiek hierboven), maar toont uiteindelijk een middenklasse voorkeur om proefpersonen te categoriseren als hun bijdragende minderheidsras.

In termen van valentie merken de auteurs het scheve oordeel van CLIP op:

'[Gemiddelde] valentie-associatie (associatie met slecht of onaangenaam vs. met goed of prettig) varieert met de mengverhouding over de zwart-witte mannelijke morph-reeks, zodat CLIP associaties met onaangenaamheden codeert voor de gezichten die het meest lijken op CFD-vrijwilligers die zelf -identificeren als zwart.'

De valentieresultaten – de tests tonen aan dat minderheidsgroepen meer geassocieerd worden met negatieve concepten in de beeld/paar-architectuur dan voor proefpersonen met een wit label. De auteurs beweren dat de onaangename associatie van een afbeelding toeneemt met de kans dat het model de afbeelding associeert met het zwarte label.

De valentieresultaten – de tests tonen aan dat minderheidsgroepen meer geassocieerd worden met negatieve concepten in de beeld/paar-architectuur dan voor proefpersonen met een wit label. De auteurs beweren dat de onaangename associatie van een afbeelding toeneemt met de kans dat het model de afbeelding associeert met het zwarte label.

In de krant staat:

'Het bewijs geeft aan dat de valentie van een afbeelding correleert met raciale [associatie]. Meer concreet geven onze resultaten aan dat hoe zekerder het model is dat een afbeelding een zwarte persoon weerspiegelt, hoe meer geassocieerd met de onplezierige inbeddingsruimte die de afbeelding is.'

De resultaten wijzen echter ook op een negatieve correlatie in het geval van Aziatische gezichten. De auteurs suggereren dat dit te wijten kan zijn aan het doorgeven (via de web-sourced data) van positieve Amerikaanse culturele percepties van Aziatische mensen en gemeenschappen. De auteurs stellen*:

'Het observeren van een correlatie tussen aangenaamheid en waarschijnlijkheid van het Aziatische tekstlabel kan overeenkomen met het stereotype "modelminderheid", waarin mensen van Aziatische afkomst worden geprezen om hun opwaartse mobiliteit en assimilatie in de Amerikaanse cultuur, en zelfs geassocieerd met "goed gedrag".'

Wat betreft het uiteindelijke doel, om te onderzoeken of wit de 'standaardidentiteit' is vanuit het standpunt van CLIP, wijzen de resultaten op een ingebedde polariteit, wat suggereert dat het onder deze architectuur nogal moeilijk is om 'een beetje wit' te zijn.

Cosinusovereenkomst tussen 21,000 afbeeldingen die voor de tests zijn gemaakt.

Cosinusovereenkomst tussen 21,000 afbeeldingen die voor de tests zijn gemaakt.

De auteurs geven commentaar:

'Het bewijs geeft aan dat CLIP wit codeert als een standaardras. Dit wordt ondersteund door de sterkere correlaties tussen blanke cosinusovereenkomsten en persoonscosinusovereenkomsten dan voor enige andere raciale of etnische groep.'

 

*Mijn conversie van de inline citaten van de auteurs naar hyperlinks.

Voor het eerst gepubliceerd op 24 mei 2022.