Suivez nous sur

Changer le genre et la race dans les résultats de recherche d'images avec l'apprentissage automatique

Intelligence Artificielle

Changer le genre et la race dans les résultats de recherche d'images avec l'apprentissage automatique

mm

Une collaboration de recherche entre l'UC San Diego et Adobe Research a proposé une solution innovante et proactive au manque de diversité raciale et de genre dans les résultats de recherche d'images pour les professions traditionnellement dominées par les WASP : l'utilisation de réseaux antagonistes génératifs (GAN) pour créer des images non réelles de professions « biaisées », où le sexe et/ou la race du sujet sont modifiés.

Dans cet exemple du nouvel article, les chercheurs ont des caractéristiques d'entrée pour une photo souhaitée qui n'est pas représentée dans un corpus typique de matériel d'image disponible, ou qui est représentée de manière inappropriée (c'est-à-dire sexualisée ou dans une représentation autrement inappropriée). Source

Dans cet exemple du nouvel article, les chercheurs ont des caractéristiques d'entrée pour une photo souhaitée qui n'est pas représentée dans un corpus typique de matériel d'image disponible, ou qui est représentée de manière inappropriée (c'est-à-dire sexualisée ou dans une représentation autrement inappropriée). Source

Dans un nouveau papier titré Générer et contrôler la diversité dans la recherche d'images, les auteurs suggèrent qu'il y a une limite à la mesure dans laquelle reclassement peut corriger le déséquilibre des classes d'images/fonctionnalités biaisées telles que plombier, opérateur, ingénieur logiciel, et bien d’autres – et que l’augmentation de la diversité raciale et de genre grâce à des données synthétiques pourrait être la voie à suivre pour relever ce défi.

«La poursuite d'un monde utopique exige de fournir aux utilisateurs de contenu la possibilité de présenter n'importe quelle profession avec des caractéristiques raciales et de genre diverses. Le choix limité de contenu existant pour certaines combinaisons de profession, de race et de sexe présente un défi pour les fournisseurs de contenu. Les recherches actuelles traitant des biais dans la recherche se concentrent principalement sur les algorithmes de reclassement.

"Cependant, ces méthodes ne peuvent pas créer de nouveau contenu ni modifier la distribution globale des attributs protégés dans les photos. Pour remédier à ces problèmes, nous proposons une nouvelle tâche de génération d'images haute fidélité conditionnée sur plusieurs attributs à partir de jeux de données déséquilibrés. '

À cette fin, les auteurs ont expérimenté une variété de systèmes de synthèse d'images basés sur GAN, s'éclairant finalement sur une architecture basée sur StyleGan2.

À partir des documents supplémentaires de l'article, deux exemples de représentations 'égalisantes' basées sur l'image de professions biaisées, dans ces cas, 'menuisier' et 'opérateur de machine'. Source

À partir des documents complémentaires de l'article, deux exemples de représentations « égalisatrices » basées sur des images de professions biaisées, dans ces cas, « charpentier » et « opérateur de machine ». Source

Représentation inadéquate ou inappropriée

Les chercheurs définissent le défi en termes de monde réel résultat de recherche pour « plombier »* sur Google Image search, constatant que les résultats d'images sont dominés par de jeunes hommes blancs.

Dans l'article, sélectionnez les résultats pour "plombier" dans la recherche d'images Google, janvier 2021.

À partir du document, sélectionnez les résultats pour « plombier » dans la recherche d'images Google, janvier 2021.

Les auteurs notent que des indications similaires de biais se produisent pour une série de professions, telles que « assistant administratif », « agent de nettoyage » et « opérateur de machine », avec des biais correspondants pour l’âge, le sexe et la race.

« Sans surprise, en raison de tels préjugés sociétaux, certaines combinaisons de race et de sexe peuvent avoir peu ou pas d'images dans un référentiel de contenu. Par exemple, lorsque nous avons recherché « opératrice de machine noire (ou afro-américaine) » ou « assistant administratif masculin asiatique », nous n'avons pas trouvé d'images pertinentes sur [recherche d'images Google].

«En outre, dans de rares cas, des combinaisons particulières de sexe et de race peuvent conduire à une représentation inappropriée des individus. Nous avons observé ce comportement pour des requêtes de recherche telles que "plombier asiatique" ou "agent de sécurité noir (ou afro-américain)".

L'article cite une autre collaboration universitaire À partir de 2014 ans, où les chercheurs ont recueilli les 400 meilleurs résultats de recherche d'images pour 96 professions. Ce travail a révélé que les femmes ne représentaient que 37% des résultats et les images anti-stéréotypiques seulement 22%. UN Étude 2019 de Yale ont constaté que cinq ans avaient porté ces pourcentages à seulement 45 % et 30 % respectivement.

De plus, l'étude de 2014 a classé la sexualisation des individus dans certaines professions dans les résultats de recherche d'images comme le Problème de charpentier sexy, avec de telles classifications inappropriées pouvant fausser les résultats pour la reconnaissance de la profession.

The Big Picture

Le principal défi pour les auteurs était de produire un système de synthèse d'images basé sur GAN capable de produire une résolution de 1024 × 1024, car, dans l'état actuel de la technique des systèmes de synthèse d'images basés sur GAN et sur encodeur / décodeur, 512 × 512 est assez luxueux. Tout ce qui est supérieur aurait tendance à être obtenu en mettant à l'échelle la sortie finale, moyennant un certain coût en temps et en ressources de traitement, et au risque de compromettre l'authenticité des images générées.

Cependant, les auteurs déclarent que les résolutions inférieures ne pouvaient pas s'attendre à gagner du terrain dans la recherche d'images et ont expérimenté une variété de cadres GAN qui pourraient être capables de produire des images haute résolution à la demande, à un niveau d'authenticité acceptable.

Lorsque la décision a été prise d'adopter StyleGan2, il est devenu évident que le projet aurait besoin d'un plus grand contrôle sur les sous-caractéristiques de la sortie générée (telles que la race, la profession et le sexe), qu'un déploiement par défaut ne le permet. Par conséquent, les auteurs ont utilisé le conditionnement multi-classes pour augmenter le processus de génération.

L'architecture du générateur d'images de spécification, qui, selon les auteurs, n'est pas spécifique à StyleGAN2, mais pourrait être appliquée à une gamme de frameworks de générateurs.

L'architecture du générateur d'images de spécification, qui, selon les auteurs, n'est pas spécifique à StyleGAN2, mais pourrait être appliquée à une gamme de frameworks de générateurs.

Pour contrôler les facteurs de race, de sexe et de profession, l'architecture injecte un codage unique de ces caractéristiques concaténées dans le y vecteur. Après cela, un réseau d'anticipation est utilisé pour intégrer ces fonctionnalités, afin qu'elles ne soient pas ignorées au moment de la génération.

Les auteurs observent qu'il existe des limitations strictes dans la mesure où StyleGAN2 peut être manipulé de cette manière, et que des tentatives plus fines pour modifier les résultats ont entraîné une qualité d'image inférieure, et même effondrement de mode.

Ces remèdes ne résolvent cependant pas les problèmes de biais implicites dans l'architecture, que les chercheurs ont dû résoudre en suréchantillonnant les entités sous-représentées de l'ensemble de données, mais sans risquer de surajuster, ce qui affecterait la flexibilité des flux d'images générés.

Les auteurs ont donc adapté StyleGAN2-ADA, qui utilise l'Adaptive Discriminator Augmentation (ADA) pour empêcher le surajustement du discriminateur.

Génération et évaluation de données

Étant donné que l'objectif du projet est de générer de nouvelles données synthétisées, les chercheurs ont adopté la méthodologie du projet de 2014, en choisissant un certain nombre de professions cibles qui présentent un fort préjugé racial et sexiste. Les professions choisies étaient 'directeur exécutif', 'assistant administratif', 'infirmier', 'agriculteur', 'militaire', 'agent de sécurité', 'chauffeur de camion', 'nettoyeur', 'menuisier', 'plombier', ' 'opérateur de machine', 'personne de support technique', 'ingénieur logiciel' et 'écrivain'.

Les auteurs ont sélectionné ces professions non seulement en fonction de l'ampleur du biais perçu dans les résultats de recherche d'images, mais parce que la plupart d'entre elles contiennent une sorte de composant visuel codifié à la profession, comme un uniforme ou la présence d'équipements ou d'environnements spécifiques. .

L'ensemble de données a été alimenté par 10,000 95 images de la bibliothèque Adobe Stock, obtenant généralement un score de XNUMX % ou mieux lors de la tentative de classification d'une profession.

Étant donnĂ© que de nombreuses images n'Ă©taient pas utiles pour la tâche cible (c'est-Ă -dire qu'elles ne contenaient pas de personnes), un filtrage manuel Ă©tait nĂ©cessaire. Après cela, un ResNet32classificateur basĂ© sur Visage juste a Ă©tĂ© utilisĂ© pour Ă©tiqueter les images pour le sexe et la race, obtenant une prĂ©cision moyenne de 95.7 % pour le sexe et de 81.5 % pour la race. Ainsi, les chercheurs ont obtenu des Ă©tiquettes d'image pour les attributs Sexe : masculin, fĂ©minin, race : blanc, noir, asiatique et autres races.

Les modèles ont été construits dans TensorFlow en utilisant StyleGAN2 et StyleGAN2-ADA comme réseaux centraux. Le pré-entraînement a été réalisé avec les pondérations pré-entraînées de StyleGAN2 sur le jeu de données Flickr-Faces-HQ de NVIDIA (FFHQ) ensemble de données, complété par 34,000 XNUMX images spécifiques à la profession que les auteurs ont rassemblées dans un ensemble de données distinct qu'ils ont nommé Uncurated Stock-Occupation HQ (U-SOHQ).

Un exemple de HIT de l'évaluation humaine d'Amazon Mechanical Turk.

Un exemple de HIT de l'évaluation humaine d'Amazon Mechanical Turk.

Les images ont été générées sous quatre configurations d'architecture, Uniform+ obtenant finalement les meilleurs scores à la fois en FID (évaluation automatisée) et lors de l'évaluation ultérieure par les employés d'Amazon Mechanical Turk. Combiné avec la précision de la classification, les auteurs l'ont utilisé comme métrique de base pour leur propre métrique, intitulée Attribute Matching Score.

Évaluation humaine des images générées par diverses méthodes, la méthode Uniform+ s'avérant la plus convaincante, et par la suite la base d'un nouvel ensemble de données.

Évaluation humaine des images générées par diverses méthodes, la méthode Uniform+ s'avérant la plus convaincante, et par la suite la base d'un nouvel ensemble de données.

Le document n'indique pas si Stock-Occupation-HQ, l'ensemble de données complet dérivé d'Uniform+, sera rendu public, mais indique qu'il contient 8,113 1024 images HQ (1024 × XNUMX).

La diffusion

Le nouvel article n'aborde pas explicitement la manière dont des images synthĂ©tisĂ©es et « rééquilibrĂ©es Â» pourraient ĂŞtre mises en circulation. L'intĂ©gration (gratuite) de nouveaux ensembles de donnĂ©es de vision par ordinateur avec des images corrigĂ©es, comme celles créées par les auteurs, rĂ©soudrait vraisemblablement le problème des biais, mais pourrait Ă©galement constituer un obstacle Ă  d'autres types de recherche visant Ă  Ă©valuer l'inclusion des genres et des races dans des scĂ©narios rĂ©els, dans le cas oĂą des images de synthèse seraient mĂ©langĂ©es Ă  des images rĂ©elles.

Des bases de données synthétiques telles que celles produites par les chercheurs pourraient vraisemblablement être mises à disposition gratuitement sous forme d'images de stock à résolution raisonnablement élevée, en utilisant cette incitation à la réduction des coûts comme moteur de diffusion.

Le projet n'aborde pas les biais liés à l'âge, vraisemblablement un sujet d'intérêt potentiel dans les recherches futures.

 

* Recherche capturée effectuée le 5 janvier 2022, la recherche des auteurs cités dans l'article a été effectuée en janvier 2021.

 

Première publication le 5 janvier 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai