talon Le défi de la 'catégorisation raciale' pour les systèmes de synthèse d'images basés sur CLIP - Unite.AI
Suivez nous sur

Intelligence artificielle

Le défi de la « catégorisation raciale » pour les systèmes de synthèse d'images basés sur CLIP

mm
Le kit de préparation mis à jour on

Une nouvelle recherche menée aux États-Unis révèle que l'un des modèles de vision par ordinateur les plus populaires derrière la très célèbre série DALL-E, ainsi que de nombreux autres modèles de génération et de classification d'images, présente une tendance prouvable vers hypodescente – la règle de catégorisation raciale (aussi appelée règle "une goutte") qui catégorise une personne avec même une petite étendue de lignée génétique «mixte» (c'est-à-dire non caucasienne) entièrement dans une classification raciale «minoritaire».

Étant donné que l'hypodescence a caractérisé certains des chapitres les plus laids de l'histoire humaine, les auteurs du nouvel article suggèrent que de telles tendances dans la recherche et la mise en œuvre de la vision par ordinateur devraient recevoir une plus grande attention, notamment parce que le cadre de support en question, téléchargé près d'un million de fois par mois, pourrait diffuser davantage et propager les préjugés raciaux dans les cadres en aval.

L'architecture étudiée dans le nouvel ouvrage est Préformation d'image de langage contrastif (CLIP), un modèle d'apprentissage automatique multimodal qui apprend les associations sémantiques en s'entraînant sur des paires image/légende tirées d'Internet – une approche semi-supervisée qui réduit le coût important de l'étiquetage, mais qui est susceptible de refléter les préjugés des personnes qui créé les légendes.

Du papier:

«Nos résultats fournissent des preuves d'hypodescence dans l'espace d'intégration CLIP, un biais appliqué plus fortement aux images de femmes. Les résultats indiquent en outre que CLIP associe les images à des étiquettes raciales ou ethniques basées sur l'écart par rapport au blanc, avec le blanc par défaut.

L'article constate également que l'association de valence d'une image (elle a tendance à être associée à des choses «bonnes» ou «mauvaises», est nettement plus élevée pour les étiquettes raciales «minoritaires» que pour les étiquettes caucasiennes, et suggère que les biais de CLIP reflètent le corpus centré sur les États-Unis. de la littérature (Wikipédia en anglais) sur laquelle le cadre a été formé.

Commentant les implications du soutien apparent de CLIP à l'hypodescence, les auteurs déclarent* :

'[Parmi] les premières utilisations de CLIP étaient de former le modèle de génération d'image zéro-shot DALL-E. Une version plus grande et non publique de l'architecture CLIP a été utilisée dans la formation des DALL-E2. En rapport avec les résultats de la présente recherche, les risques et limites décrits dans la carte modèle DALL-E 2 noter qu'il "produit des images qui ont tendance à surreprésenter les personnes de passage blanc".

«Ces utilisations démontrent le potentiel des biais appris par CLIP à se propager au-delà de l'espace d'intégration du modèle, car ses fonctionnalités sont utilisées pour guider la formation de la sémantique dans d'autres modèles d'IA de pointe.

«De plus, en partie grâce aux progrès réalisés par CLIP et des modèles similaires pour associer des images et du texte dans le cadre du tir zéro, des architectures multimodales ont été décrit comme base pour l'avenir des applications Internet largement utilisées, y compris les moteurs de recherche.

"Nos résultats indiquent qu'une attention supplémentaire à ce que ces modèles apprennent de la supervision du langage naturel est justifiée."

Les papier est intitulé Preuve d'hypodescence dans l'IA sémantique visuelle, et vient de trois chercheurs de l'Université de Washington et de l'Université de Harvard.

CLIP et mauvaises influences

Bien que les chercheurs attestent que leur travail est la première analyse de l'hypodescence dans CLIP, des travaux antérieurs ont démontré que le flux de travail CLIP, dépendant d'une formation largement non supervisée de sous-organisé données dérivées du Web, sous-représente les femmes, peut produire contenu offensant, et peut démontrer biais sémantique (comme le sentiment anti-musulman) dans son encodeur d'image.

L'article original qui présentait le CLIP concédait que dans un cadre de tir zéro, le CLIP n'associait que 58.3 % des personnes à l'étiquette raciale blanche dans le Visage juste base de données. Observant que FairFace a été étiqueté avec un parti pris possible par les travailleurs d'Amazon Mechanical Turk, les auteurs du nouvel article déclarent qu '"une minorité substantielle de personnes qui sont perçues par d'autres humains comme blanches sont associées à une race autre que blanche par CLIP".

Ils continuent:

«L'inverse ne semble pas être vrai, car les individus qui sont perçus comme appartenant à d'autres étiquettes raciales ou ethniques dans l'ensemble de données FairFace sont associés à ces étiquettes par CLIP. Ce résultat suggère la possibilité que le CLIP ait appris la règle de « l'hypodescence », telle que décrite par les spécialistes des sciences sociales : les individus d'ascendance multiraciale sont plus susceptibles d'être perçus et catégorisés comme appartenant au groupe parental minoritaire ou moins favorisé qu'à la majorité tout aussi légitime. ou groupe de parents favorisés.

« En d'autres termes, l'enfant d'un parent noir et d'un parent blanc est perçu comme étant plus noir que blanc ; et l'enfant d'un parent asiatique et blanc est perçu comme étant plus asiatique que blanc.

L'article a trois conclusions centrales : que CLIP met en évidence l'hypodescence, en « rassemblant » les personnes ayant des identités multiraciales dans la catégorie raciale contribuant à la minorité qui s'applique à elles ; que « Blanc est la race par défaut dans CLIP », et que les courses concurrentes sont définies par leur « écart » par rapport à une catégorie Blanche ; et cela biais de valence (une association avec de «mauvais» concepts) est corrélé à la mesure dans laquelle l'individu est classé dans une minorité raciale.

Méthode et données

Afin de déterminer la manière dont le CLIP traite les sujets multiraciaux, les chercheurs ont utilisé un précédemment adopté technique de morphing pour modifier la race des images des individus. Les photos ont été prises du Base de données de visages de Chicago, un ensemble développé pour les études psychologiques impliquant la race.

Exemples d'images CFD de morphologie raciale présentées dans le matériel supplémentaire du nouveau document. Source : https://arxiv.org/pdf/2205.10764.pdf

Exemples d'images CFD de morphologie raciale présentées dans le matériel supplémentaire du nouveau document. SSource : https://arxiv.org/pdf/2205.10764.pdf

Les chercheurs n'ont choisi que des images "d'expression neutre" dans l'ensemble de données, afin de rester cohérents avec les travaux antérieurs. Ils ont utilisé le réseau antagoniste génératif StyleGAN2-ADA (formé sur FFHQ) pour accomplir le changement de race des images faciales, et créé des images interstitielles qui démontrent la progression d'une race à l'autre (voir les exemples d'images ci-dessus).

Conformément aux travaux précédents, les chercheurs ont transformé les visages de personnes qui se sont identifiées comme noires, asiatiques et latinos dans l'ensemble de données en visages de ceux qui se sont étiquetés comme blancs. Dix-neuf étapes intermédiaires sont produites dans le processus. Au total, 21,000 1024 images 1024xXNUMXpx ont été créées pour le projet par cette méthode.

Les chercheurs ont ensuite obtenu une image projetée intégrant CLIP pour chacune des 21 images au total dans chaque ensemble de morphes raciaux. Après cela, ils ont sollicité une étiquette pour chaque image de CLIP : "multiracial", "biracial", "métis" et "personne" (l'étiquette finale omettant la race).

La version de CLIP utilisée était la CLIP-ViT-Base-Patch32 mise en œuvre. Les auteurs notent que ce modèle a été téléchargé plus d'un million de fois au cours du mois précédant la rédaction de leurs recherches et représente 98 % des téléchargements de tout modèle CLIP à partir du Bibliothèque de transformateurs.

Tests

Pour tester la propension potentielle de CLIP à l'hypodescence, les chercheurs ont noté l'étiquette de race attribuée par CLIP à chaque image dans le gradient d'images transformées pour chaque individu.

Selon les résultats, le CLIP a tendance à regrouper les personnes dans les catégories «minoritaires» autour de la barre des 50% de transition.

À un ratio de mélange de 50 %, où le sujet est à parts égales origine/race cible, CLIP associe un plus grand nombre d'images féminines morphées de 1000 89.1 avec des étiquettes Asiatiques (75.8 %), Latines (69.7 %) et Noires (XNUMX %) qu'avec un équivalent Marque blanche.

À un ratio de mélange de 50 %, où le sujet est à parts égales origine/race cible, CLIP associe un plus grand nombre d'images féminines morphées de 1000 89.1 avec des étiquettes Asiatiques (75.8 %), Latines (69.7 %) et Noires (XNUMX %) qu'avec un équivalent Marque blanche.

Les résultats montrent que les sujets féminins sont plus enclins à l'hypodescence sous CLIP que les hommes, bien que les auteurs émettent l'hypothèse que cela peut être dû au fait que les étiquettes dérivées du Web et non curées qui caractérisent les images féminines ont tendance à mettre davantage l'accent sur l'apparence du sujet que dans le cas des hommes, et que cela peut avoir un effet biaisant.

L'hypodescence à une transition raciale de 50% n'a pas été observée pour les séries de morphes masculins asiatiques-blancs ou latino-blancs, tandis que CLIP a attribué une similitude cosinus plus élevée à l'étiquette noire dans 67.5% des cas à un rapport de mélange de 55%.

La similarité cosinus moyenne des étiquettes Multiracial, Biracial et Mixed Race. Les résultats indiquent que le CLIP opère une sorte de catégorisation de « bassin versant » à des pourcentages variables de mélange racial, attribuant moins souvent un tel mélange racial au Blanc (« personne », dans la logique des expériences) qu'à l'ethnicité qui a été perçue dans l'image.

La similarité cosinus moyenne des étiquettes Multiracial, Biracial et Mixed Race. Les résultats indiquent que le CLIP opère une sorte de catégorisation de « bassin versant » à des pourcentages variables de mélange racial, attribuant moins souvent un tel mélange racial au Blanc (« personne », dans la logique des expériences) qu'à l'ethnicité qui a été perçue dans l'image.

L'objectif idéal, selon l'article, est que le CLIP classerait avec précision les mélanges raciaux intermédiaires dans la catégorie "race mixte", au lieu de définir un "point de basculement" auquel le sujet est si souvent entièrement relégué à l'étiquette non blanche.

Dans une certaine mesure, CLIP attribue les étapes de morphing intermédiaires avec Mixed Race (voir graphique ci-dessus), mais démontre finalement une préférence de milieu de gamme pour catégoriser les sujets comme leur race contributive minoritaire.

En termes de valence, les auteurs notent le jugement biaisé de CLIP :

« L'association de valence [moyenne] (association avec mauvais ou désagréable par rapport à bon ou agréable) varie avec le rapport de mélange sur la série de morphes masculins Noir-Blanc, de sorte que CLIP encode les associations avec désagrément pour les visages les plus similaires aux volontaires CFD qui s'auto - s'identifier comme Noir.'

Les résultats de valence - les tests montrent que les groupes minoritaires sont plus associés à des concepts négatifs dans l'architecture image/paire que pour les sujets en marque blanche. Les auteurs affirment que l'association désagréable d'une image augmente avec la probabilité que le modèle associe l'image à l'étiquette noire.

Les résultats de valence - les tests montrent que les groupes minoritaires sont plus associés à des concepts négatifs dans l'architecture image/paire que pour les sujets en marque blanche. Les auteurs affirment que l'association désagréable d'une image augmente avec la probabilité que le modèle associe l'image à l'étiquette noire.

Le papier déclare:

« Les preuves indiquent que la valence d'une image est en corrélation avec [l'association] raciale. Plus concrètement, nos résultats indiquent que plus le modèle est certain qu'une image reflète un individu noir, plus l'image est associée à l'espace d'encastrement désagréable.

Cependant, les résultats indiquent également une corrélation négative dans le cas des visages asiatiques. Les auteurs suggèrent que cela pourrait être dû à la transmission (via les données provenant du Web) des perceptions culturelles américaines positives des peuples et des communautés asiatiques. Les auteurs précisent* :

'Observer une corrélation entre l'agrément et la probabilité de l'étiquette de texte asiatique peut correspondre au stéréotype de la "minorité modèle", dans lequel les personnes d'ascendance asiatique sont louées pour leur mobilité ascendante et leur assimilation à la culture américaine, et même associé à un « bon comportement ».'

En ce qui concerne l'objectif final, pour examiner si le blanc est « l'identité par défaut » du point de vue de CLIP, les résultats indiquent une polarité intégrée, suggérant que sous cette architecture, il est plutôt difficile d'être « un peu blanc ».

Similitude cosinus sur 21,000 XNUMX images créées pour les tests.

Similitude cosinus sur 21,000 XNUMX images créées pour les tests.

Les auteurs commentent :

'Les preuves indiquent que CLIP code White comme race par défaut. Ceci est soutenu par les corrélations plus fortes entre les similitudes du cosinus blanc et les similitudes du cosinus de la personne que pour tout autre groupe racial ou ethnique.

 

*Ma conversion des citations en ligne des auteurs en hyperliens.

Première publication le 24 mai 2022.