Artificiell intelligens
Ändra kön och ras i bildsökningsresultat med maskininlärning

Ett forskningssamarbete mellan UC San Diego och Adobe Research har föreslagit en innovativ och proaktiv lösning på bristen på ras- och könsdiversitet i bildsökresultat för traditionellt WASP-dominerade yrken: användningen av Generative Adversarial Networks (GAN) för att skapa icke-verkliga bilder av "partiska" yrken, där subjektets kön och/eller ras förändras.

I det här exemplet från den nya uppsatsen har forskarna ingångsegenskaper för ett önskat foto som antingen inte är representerat i en typisk korpus av tillgängligt bildmaterial, eller så är det representerat på ett olämpligt sätt (dvs. sexualiserat eller i en annars olämplig representation). Källa
I en ny papper betitlad Generera och kontrollera mångfald i bildsökning, föreslår författarna att det finns en gräns i den utsträckning som omgradera kan fixa obalansen i partiska bild/funktionsklasser som t.ex rörmokare, maskinoperatör, mjukvaruingenjör, och många andra – och att ökad ras- och könsmångfald med syntetisk data kan vara vägen framåt för denna utmaning.
"Strävan efter en utopisk värld kräver att innehållsanvändare får en möjlighet att presentera vilket yrke som helst med olika ras- och könsegenskaper. Det begränsade urvalet av befintligt innehåll för vissa kombinationer av yrke, ras och kön utgör en utmaning för innehållsleverantörer. Aktuell forskning som handlar om bias i sökningar fokuserar mest på omrangering av algoritmer.
"Men dessa metoder kan inte skapa nytt innehåll eller ändra den övergripande distributionen av skyddade attribut i foton. För att åtgärda dessa problem föreslår vi en ny uppgift med högfientlig bildgenereringskonditionering på flera attribut från obalanserade datamängder. '
För detta ändamål har författarna experimenterat med en mängd olika GAN-baserade bildsyntessystem, och slutligen belysning på en arkitektur baserad på StyleGan2.

Från det kompletterande materialet till uppsatsen, två exempel på "utjämning" av bildbaserade representationer av partiska yrken, i dessa fall "snickare" och "maskinförare". Källa
Otillräckligt eller olämpligt representerat
Forskarna ramar in utmaningen i termer av en verklig värld sökresultat för 'rörmokare'* på Googles bildsökning, observerar att bildresultaten domineras av unga vita män.

Från tidningen, välj resultat för 'rörmokare' i Googles bildsökning, januari 2021.
Författarna noterar att liknande tecken på partiskhet förekommer för en rad yrken, såsom "administrativ assistent", "städare" och "maskinoperatör", med motsvarande partiskhet för ålder, kön och etnicitet.
"Föga överraskande, på grund av sådan samhällelig partiskhet, kan vissa kombinationer av ras och kön ha få eller inga bilder i ett innehållsarkiv. Till exempel, när vi sökte "kvinnlig svart (eller afroamerikansk) maskinoperatör" eller "manlig asiatisk administrativ assistent", hittade vi inte relevanta bilder på [Google Bildsökning].
Dessutom, i sällsynta fall, kan speciella kombinationer av kön och ras leda till att individer framställs på ett olämpligt sätt. Vi observerade detta beteende för sökfrågor som "kvinnlig asiatisk rörmokare" eller "kvinnlig svart (eller afroamerikansk) säkerhetsvakt."
Uppsatsen citerar ett annat akademiskt samarbete från 2014, där forskare samlade de 400 bästa bildsökningsresultaten för 96 yrken. Det arbetet visade att kvinnor endast representerade 37 % av resultaten och antistereotypa bilder endast 22 %. A 2019 studie från Yale fann att fem år hade fört upp dessa procentsatser till endast 45 % respektive 30 %.
Dessutom klassificerade studien från 2014 sexualiseringen av individer i vissa yrken i bildsökningsresultat som Sexigt snickarproblem, med sådana olämpliga klassificeringar som potentiellt snedvrider resultaten för yrkeserkännande.
Den övergripande bilden
Den primära utmaningen för författarna var att producera ett GAN-baserat bildsyntessystem som kan mata ut 1024×1024 upplösning, eftersom 512×512 är ganska bra i GAN- och kodar/avkodarbaserade bildsyntessystem. lyxig. Allt högre skulle tendera att erhållas genom att skala upp den slutliga produktionen, till en viss kostnad för tid och bearbetningsresurser, och med en viss risk för de genererade bildernas äkthet.
Men författarna konstaterar att lägre upplösningar inte kunde förvänta sig att få dragkraft i bildsökning, och experimenterade med en mängd olika GAN-ramverk som kunde vara kapabla att mata ut högupplösta bilder på begäran, på en acceptabel nivå av autenticitet.
När beslutet togs att anta StyleGan2 blev det uppenbart att projektet skulle behöva större kontroll över underfunktioner i den genererade produktionen (som ras, yrke och kön), än vad en standardinstallation tillåter. Därför använde författarna multi-class conditioning för att förstärka generationsprocessen.

Arkitekturen för den specificerande bildgeneratorn, som författarna uppger inte är specifik för StyleGAN2, men skulle kunna tillämpas på en rad generatorramar.
För att kontrollera faktorerna ras, kön och yrke, injicerar arkitekturen en engångskodning av dessa sammanlänkade egenskaper i y vektor. Efter detta används ett feedforward-nätverk för att bädda in dessa funktioner, så att de inte kommer att ignoreras vid genereringstidpunkten.
Författarna konstaterar att det finns hårda begränsningar i den mån StyleGAN2 kan manipuleras på detta sätt, och att mer finkorniga försök att förändra resultaten resulterade i sämre bildkvalitet, och till och med läge kollaps.
Dessa lösningar löser dock inte implicita biasproblem i arkitekturen, som forskarna var tvungna att ta itu med genom att översampla underrepresenterade enheter från datasetet, men utan att riskera att överanpassa, vilket skulle påverka flexibiliteten hos de genererade bildströmmarna.
Därför anpassade författarna sig StyleGAN2-ADA, som använder Adaptive Discriminator Augmentation (ADA), för att förhindra att diskriminatorn överanpassas.
Datagenerering och utvärdering
Eftersom målet med projektet är att generera ny, syntetiserad data, anammade forskarna metoden från 2014 års projekt och valde ett antal målyrken som uppvisar en hög ras- och könsfördom. De yrken som valdes var 'verkställande chef', 'administrativ assistent', 'sköterska', 'bonde', 'militär', 'väktare', 'lastbilschaufför', 'städare', 'snickare', 'rörmokare', ' maskinoperatör', 'teknisk supportperson', 'programvaruingenjör' och 'skribent'.
Författarna valde dessa yrken inte bara baserat på omfattningen av upplevd fördom i bildsökningsresultat, utan för att de flesta av dem innehåller någon form av visuell komponent som är kodifierad till yrket, till exempel en uniform, eller förekomsten av specifik utrustning eller miljöer. .
Datauppsättningen drevs av 10,000 95 bilder från Adobe Stock-biblioteket, som vanligtvis fick en poäng på XNUMX % eller bättre när man försökte klassificera ett yrke.
Eftersom många av bilderna inte var till hjälp för måluppgiften (dvs. de innehöll inga personer), var manuell filtrering nödvändig. Efter detta, a ResNet32-baserad klassificerare förutbildad på FairFace användes för att märka bilderna för kön och ras, och erhöll en genomsnittlig noggrannhet på 95.7 % för kön och 81.5 % för ras. Således fick forskarna bildetiketter för attributen Kön: Man, Kvinna, Ras: Vit, Svart, Asiatisk och andra raser.
Modeller byggdes i TensorFlow med StyleGAN2 och StyleGAN2-ADA som kärnnätverk. Förträning gjordes med StyleGAN2s förtränade vikter på NVIDIAs Flickr-Faces-HQ-dataset (FFHQ) dataset, utökat med 34,000 XNUMX yrkesspecifika bilder som författarna samlade till en separat datauppsättning som de döpte till Uncurated Stock-Occupation HQ (U-SOHQ).

Ett exempel på HIT från Amazon Mechanical Turk mänsklig utvärdering.
Bilder genererades under fyra konfigurationer av arkitektur, där Uniform+ slutligen fick de bästa poängen både i FID (automatiserad utvärdering) och i efterföljande utvärdering av Amazon Mechanical Turk-arbetare. I kombination med klassificeringsnoggrannhet använde författarna detta som ett kärnmått för sitt eget mått, med titeln Attribute Matching Score.

Mänsklig utvärdering av bilder som genererats med olika metoder, med Uniform+-metoden som den mest övertygande, och därefter grunden för en ny datamängd.
Tidningen anger inte om Stock-Occupation-HQ, den fullständiga datamängden som härrör från Uniform+, kommer att göras allmänt tillgänglig, men anger att den innehåller 8,113 1024 HQ (1024×XNUMX) bilder.
Diffusion
Den nya artikeln behandlar inte explicit hur syntetiserade, "ombalanserade" bilder skulle kunna introduceras i omlopp. Förmodligen skulle det lösa problemet med partiskhet att införa nya (kostnadsfria) datorseendedataset med korrigerade bilder av den typ som författarna har skapat, men det skulle också kunna skapa hinder för andra typer av forskning som syftar till att utvärdera köns- och rasintegration i "verkliga" scenarier, i en situation där syntetiska bilder blandas med verkliga bilder.
Syntetiska databaser som den som producerats av forskarna skulle förmodligen kunna göras tillgängliga utan kostnad som lagerbilder med rimligt hög upplösning, med hjälp av detta kostnadsbesparande incitament som en spridningsmotor.
Projektet tar inte upp åldersbaserad bias, förmodligen ett potentiellt ämne av intresse i framtida forskning.
* Sökningen genomfördes den 5 januari 2022, författarnas sökning som citeras i artikeln genomfördes i januari 2021.
Första gången publicerad 5 januari 2022.