Umělá inteligence
Změna pohlaví a rasy ve výsledcích vyhledávání obrázků pomocí strojového učení

Výzkumná spolupráce mezi Kalifornskou univerzitou v San Diegu a společností Adobe Research navrhla inovativní a proaktivní řešení nedostatku rasové a genderové rozmanitosti ve výsledcích vyhledávání obrázků u tradičně washingtonských a antropofilních profesí: využití generativních adversarialních sítí (GAN) k vytváření nereálných obrázků „zaujatých“ profesí, kde je změněno pohlaví a/nebo rasa subjektu.

V tomto příkladu z nového článku mají výzkumníci vstupní charakteristiky pro požadovanou fotografii, která buď není zastoupena v typickém korpusu dostupného obrazového materiálu, nebo je zastoupena nevhodným způsobem (tj. sexualizovaná či jinak nevhodná reprezentace). Zdroj
V novém papír název Vytváření a řízení rozmanitosti ve vyhledávání obrázků, autoři naznačují, že do té míry existuje limit přeřazení může opravit nerovnováhu zkreslených tříd obrázků/funkcí, jako je např instalatér, obsluha stroje, softwarový inženýra mnoho dalších – a že zvyšování rasové a genderové diverzity pomocí syntetických dat může být cestou vpřed k této výzvě.
„Snaha o utopický svět vyžaduje poskytnout uživatelům obsahu příležitost prezentovat jakoukoli profesi s různými rasovými a genderovými charakteristikami. Omezený výběr existujícího obsahu pro určité kombinace povolání, rasy a pohlaví představuje pro poskytovatele obsahu výzvu. Současný výzkum zabývající se zkreslením ve vyhledávání se většinou zaměřuje na algoritmy re-ranking.
„Tyto metody však nemohou vytvářet nový obsah ani měnit celkové rozložení chráněných atributů ve fotografiích. Abychom tyto problémy napravili, navrhujeme nový úkol podmíněného generování vysoce věrného obrazu na více atributech z nevyvážených datových sad. '
Za tímto účelem autoři experimentovali s různými systémy syntézy obrazu na bázi GAN, nakonec osvětlení na architektuře založené na StyleGan2.

Z doplňkových materiálů k článku uvádíme dva příklady „vyrovnávacích“ obrazových reprezentací zaujatých profesí, v těchto případech „tesař“ a „obsluha stroje“. Zdroj
Nedostatečně nebo nevhodně zastoupeno
Výzkumníci formulují výzvu z hlediska reálného světa výsledek vyhledávání pro „instalatér“* ve vyhledávání obrázků Google, přičemž ve výsledcích vyhledávání obrázků dominují mladí běloši.

Z novin vyberte výsledky pro „instalatér“ ve Vyhledávání obrázků Google, leden 2021.
Autoři poznamenávají, že podobné náznaky zkreslení se vyskytují u řady profesí, jako je „administrativní asistent/ka“, „uklízečka/uklízečka“ a „obsluha/obsluha strojů“, s odpovídajícími zkresleními z hlediska věku, pohlaví a rasy.
„Není překvapením, že kvůli takové společenské zaujatosti mohou mít některé kombinace rasy a pohlaví v úložišti obsahu málo obrázků nebo žádné. Když jsme například hledali „černoška (nebo Afroameričanka) strojní operátorka“ nebo „muž asijský administrativní asistent“, nenašli jsme relevantní obrázky ve službě [Vyhledávání obrázků Google].
„Kromě toho mohou ve vzácných případech určité kombinace pohlaví a rasy vést k tomu, že jednotlivci jsou zobrazováni nevhodně. Toto chování jsme pozorovali u vyhledávacích dotazů jako „asijská instalatérka“ nebo „černošská (nebo afroamerická) ostraha.“
Článek uvádí další akademickou spolupráci z 2014, kde vědci shromáždili 400 nejlepších výsledků vyhledávání obrázků pro 96 povolání. Tato práce zjistila, že ženy představovaly pouze 37 % výsledků a antistereotypické obrázky pouze 22 %. A 2019 studie z Yale zjistili, že pět let zvýšilo tato procenta pouze na 45 % a 30 %.
Studie z roku 2014 navíc klasifikovala sexualizaci jedinců v určitých povoláních ve výsledcích vyhledávání obrázků jako Sexy Carpenter probléms takovými nevhodnými klasifikacemi, které potenciálně zkreslují výsledky pro uznání povolání.
Big Picture
Primární výzvou pro autory bylo vytvořit systém pro syntézu obrazu na bázi GAN, který by byl schopen poskytovat výstup v rozlišení 1024×1024, protože při současném stavu techniky v GAN a systémech pro syntézu obrazu na bázi kodéru/dekodéru je 512×512 pěkný. luxusní. Cokoli vyššího by bylo možné získat zvýšením rozlišení konečného výstupu, za určitou cenu času a zdrojů zpracování a s určitým rizikem pro autentičnost generovaných obrázků.
Autoři však uvádějí, že nižší rozlišení nemohlo očekávat, že při vyhledávání obrázků získají trakci, a experimentovali s řadou GAN frameworků, které by mohly být schopné na vyžádání vydávat obrázky ve vysokém rozlišení na přijatelné úrovni autenticity.
Když bylo přijato rozhodnutí o přijetí StyleGan2, ukázalo se, že projekt bude potřebovat větší kontrolu nad dílčími funkcemi generovaného výstupu (jako je rasa, povolání a pohlaví), než dovoluje výchozí nasazení. Proto autoři použili vícetřídní podmiňování k rozšíření procesu generování.

Architektura určujícího generátoru obrázků, kterou autoři uvádějí, není specifická pro StyleGAN2, ale mohla by být použita v celé řadě rámců generátorů.
Aby bylo možné řídit faktory rasy, pohlaví a povolání, architektura vkládá jednorázové kódování těchto zřetězených charakteristik do y vektor. Poté se k vložení těchto funkcí použije dopředná síť, takže nebudou při generování ignorovány.
Autoři pozorují, že existují tvrdá omezení v rozsahu, v jakém lze StyleGAN2 manipulovat tímto způsobem, a že jemnější pokusy o změnu výsledků vedly k horší kvalitě obrazu a dokonce kolaps režimu.
Tato nápravná opatření však neřeší implicitní problémy zkreslení v architektuře, které museli výzkumníci řešit převzorkováním nedostatečně zastoupených entit z datové sady, ale bez rizika přeplnění, které by ovlivnilo flexibilitu generovaných obrazových toků.
Proto se autoři přizpůsobili StylGAN2-ADA, který používá Adaptive Discriminator Augmentation (ADA), aby se zabránilo přesazení diskriminátoru.
Generování a vyhodnocování dat
Protože cílem projektu je generovat nová, syntetizovaná data, přijali výzkumníci metodologii projektu z roku 2014 a vybrali si řadu cílových profesí, které vykazují vysokou rasovou a genderovou zaujatost. Vybrány byly profese „výkonný manažer“, „administrativní asistent“, „zdravotní sestra“, „zemědělec“, „vojenská osoba“, „ochranka“, „řidič kamionu“, „uklízeč“, „tesař“, „instalatér“, operátor stroje“, „osoba technické podpory“, „softwarový inženýr“ a „spisovatel“.
Autoři vybírali tyto profese nejen na základě míry vnímané zaujatosti ve výsledcích vyhledávání obrázků, ale také proto, že většina z nich obsahuje jakousi vizuální složku, která je k profesi kodifikována, jako je uniforma nebo přítomnost specifického vybavení či prostředí. .
Datovou sadu pohánělo 10,000 95 obrázků z knihovny Adobe Stock, které při pokusu o klasifikaci povolání obvykle získaly XNUMX% skóre nebo lepší.
Protože mnoho obrázků nebylo pro cílovou úlohu užitečné (tj. neobsahovaly osoby), bylo nutné ruční filtrování. Po tomto, a ResNet32-založený klasifikátor předtrénovaný na FairFace byla použita k označení obrázků pro pohlaví a rasu, přičemž průměrná přesnost byla 95.7 % pro pohlaví a 81.5 % pro rasu. Vědci tak získali obrázkové štítky pro atributy Pohlaví: Muž, Žena, Rasa: Bílá, Černá, Asijská a jiné rasy.
Modely byly vytvořeny v TensorFlow s využitím StyleGAN2 a StyleGAN2-ADA jako jádrových sítí. Předtrénování bylo provedeno s předtrénovanými váhami StyleGAN2 na datové sadě Flickr-Faces-HQ od NVIDIA (FFHQ) datový soubor rozšířený o 34,000 XNUMX obrázků specifických pro povolání, které autoři shromáždili do samostatného souboru dat, který pojmenovali Uncurated Stock-Occupation HQ (U-SOHQ).

Ukázka HIT z lidského hodnocení Amazon Mechanical Turk.
Snímky byly generovány ve čtyřech konfiguracích architektury, přičemž Uniform+ nakonec získal nejlepší skóre jak ve FID (automatizované hodnocení), tak v následném hodnocení pracovníky Amazon Mechanical Turk. V kombinaci s přesností klasifikace to autoři použili jako základní metriku pro vlastní metriku s názvem Skóre shody atributů.

Lidské hodnocení obrázků generovaných různými metodami, přičemž nejpřesvědčivější se ukázala metoda Uniform+ a následně základ pro nový datový soubor.
Dokument neuvádí, zda bude Stock-Occupation-HQ, úplný datový soubor odvozený z Uniform+, zpřístupněn veřejnosti, ale uvádí, že obsahuje 8,113 1024 HQ (1024×XNUMX) snímků.
vysílání
Nová práce se explicitně nezabývá způsobem, jakým by se syntetizované, „vyvážené“ obrazy mohly dostat do oběhu. Pravděpodobně by zavedení nových (bezplatných) datových sad počítačového vidění s upravenými obrazy, jaké autoři vytvořili, vyřešilo problém zkreslení, ale mohlo by také představovat překážky pro jiné typy výzkumu, které se snaží vyhodnotit genderovou a rasovou inkluzi v „reálných“ scénářích, za okolností, kdy jsou syntetické obrazy smíchány se obrazy z reálného světa.
Syntetické databáze, jako jsou databáze vytvořené výzkumníky, by pravděpodobně mohly být zdarma zpřístupněny jako snímky zásob s přiměřeným vysokým rozlišením, s využitím této pobídky pro úsporu nákladů jako motoru šíření.
Projekt neřeší předsudky založené na věku, pravděpodobně potenciální téma zájmu budoucího výzkumu.
* Vyhledávání provedené pomocí Captured 5. ledna 2022, vyhledávání autorů citovaných v článku bylo provedeno v lednu 2021.
Poprvé publikováno 5. ledna 2022.