Artificiell intelligens

‘Ras-kategoriseringens’ utmaning för CLIP-baserade bildsyntes-system

Published May 24, 2022

Updated April 5, 2026

Martin Anderson

Ny forskning från USA visar att en av de populära datorseende-modellerna bakom den mycket omtalade DALL-E-serien, samt många andra bildgenererings- och klassificeringsmodeller, uppvisar en bevisbar tendens till hypodescent – ras-kategoriseringsregeln (även känd som ‘en drop’-regeln) som kategoriserar en person med även en liten utsträckning av ‘blandad’ (dvs icke-kaukasisk) genetisk bakgrund helt till en ‘minoritets’ ras-kategorisering.

Eftersom hypodescent har karakteriserat några av de fulaste kapitlen i mänsklighetens historia, föreslår författarna till den nya artikeln att sådana tendenser i datorseende-forskning och implementering bör få större uppmärksamhet, inte minst för att den underliggande ramen i fråga, som laddats ner nästan en miljon gånger i månaden, kan ytterligare sprida och förmedla ras-bias i nedströms-ramar.

Arkitekturen som studeras i det nya arbetet är Contrastive Language Image Pretraining (CLIP), en multimodal maskinlärningsmodell som lär sig semantiska associationer genom att träna på bild/kapitelpar från internet – en semi-övervakad ansats som minskar den betydande kostnaden för märkning, men som sannolikt kommer att återspegla biasen hos de personer som skapade kapitlen.

Från artikeln:

‘Våra resultat tillhandahåller bevis för hypodescent i CLIP-inbäddningen, en bias som tillämpas mer kraftfullt på bilder av kvinnor. Resultaten indikerar vidare att CLIP associerar bilder med ras- eller etniska etiketter baserat på avvikelse från vit, med vit som standard.

Artikeln finner också att en bilds valens-förening (dess tendens att associeras med ‘bra’ eller ‘dåliga’ saker, är betydligt högre för ‘minoritets’ ras-etiketter än för kaukasiska etiketter, och föreslår att CLIP:s bias återspeglar den USA-centrerade korpusen av litteratur (engelska Wikipedia) som ramen tränades på.

I kommentar till implikationerna av CLIP:s uppenbara stöd för hypodescent, säger författarna*:

‘[Bland] de första användningarna av CLIP var att träna den zero-shot-bildgenereringsmodellen DALL-E. En större, icke-offentlig version av CLIP-arkitekturen användes i utbildningen av DALL-E 2. I överensstämmelse med resultaten från den aktuella forskningen, noterar Risks and Limitations i DALL-E 2-modellkortet anteckningar att det “producerar bilder som tenderar att överrepresentera personer som är vit-passande”.

‘Sådana användningar demonstrerar potentialen för de bias som lärs av CLIP att sprida sig bortom modellens inbäddningsutrymme, eftersom dess funktioner används för att vägleda bildandet av semantik i andra state-of-the-art-AI-modeller.

‘Dessutom, till följd av framstegen som realiserats av CLIP och liknande modeller för att associera bilder och text i zero-shot-inställningen, har multimodala arkitekturer beskrivits som grunden för framtiden för allmänt använda internet-applikationer, inklusive sökmotorer.

‘Våra resultat indikerar att ytterligare uppmärksamhet på vad sådana modeller lär sig från naturlig språkstyrning är motiverat.’

Den artikeln har titeln Bevis för hypodescent i visuell semantisk AI, och kommer från tre forskare vid University of Washington och Harvard University.

CLIP och dåliga influenser

Även om forskarna intygar att deras arbete är den första analysen av hypodescent i CLIP, har tidigare arbeten visat att CLIP-arbetsflödet, som är beroende av i huvudsak ostrukturerad utbildning från under-kuraterad web-derivat data, under-representerar kvinnor, kan producera stötande innehåll, och kan demonstrera semantisk bias (såsom anti-muslimsk sentiment) i dess bild-kodare.

Den ursprungliga artikeln som presenterade CLIP medgav att i en zero-shot-inställning, associerar CLIP endast 58,3% av personer med den vita ras-etiketten i FairFace-dataseten. Observerande att FairFace var märkt med möjlig bias av Amazon Mechanical Turk-arbetare, säger författarna till den nya artikeln att ‘en betydande minoritet av personer som uppfattas av andra människor som vita är associerade med en ras annan än vit av CLIP.’

De fortsätter:

‘Inversen verkar inte vara sann, eftersom individer som uppfattas tillhöra andra ras- eller etniska etiketter i FairFace-datasetet är associerade med dessa etiketter av CLIP. Detta resultat antyder möjligheten att CLIP har lärt sig regeln om “hypodescent”, som beskrivs av samhällsvetare: individer med multiracial bakgrund är mer benägna att uppfattas och kategoriseras som tillhörande den minoritets- eller mindre fördelaktiga föräldragruppen än den lika legitima majoritets- eller fördelaktiga föräldragruppen.

‘Med andra ord, barnet till en svart och en vit förälder uppfattas som mer svart än vit; och barnet till en asiat och en vit förälder uppfattas som mer asiat än vit.’

Related Topics:AI bias Bias image synthesis research

Martin Anderson

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.

Unite.AI

‘Ras-kategoriseringens’ utmaning för CLIP-baserade bildsyntes-system

CLIP och dåliga influenser

You may like