Suivez nous sur

Le défi de la « catégorisation raciale » pour les systèmes de synthèse d'images basés sur CLIP

Intelligence Artificielle

Le défi de la « catégorisation raciale » pour les systèmes de synthèse d'images basés sur CLIP

mm

Une nouvelle recherche menée aux États-Unis révèle que l'un des modèles de vision par ordinateur les plus populaires derrière la très célèbre série DALL-E, ainsi que de nombreux autres modèles de génération et de classification d'images, présente une tendance prouvable vers hypodescente – la règle de catégorisation raciale (aussi appelée règle de la « goutte unique ») qui catégorise une personne ayant même une petite étendue de lignée génétique « mixte » (c'est-à-dire non caucasienne) entièrement dans une classification raciale « minoritaire ».

Étant donné que l'hypodescence a caractérisé certains des chapitres les plus laids de l'histoire humaine, les auteurs du nouvel article suggèrent que de telles tendances dans la recherche et la mise en œuvre de la vision par ordinateur devraient recevoir une plus grande attention, notamment parce que le cadre de support en question, téléchargé près d'un million de fois par mois, pourrait diffuser davantage et propager les préjugés raciaux dans les cadres en aval.

L'architecture étudiée dans le nouvel ouvrage est Préformation d'image de langage contrastif (CLIP), un modèle d'apprentissage automatique multimodal qui apprend les associations sémantiques en s'entraînant sur des paires image/légende tirées d'Internet – une approche semi-supervisée qui réduit le coût important de l'étiquetage, mais qui est susceptible de refléter les préjugés des personnes qui créé les légendes.

Du papier:

«Nos résultats fournissent des preuves d'hypodescence dans l'espace d'intégration CLIP, un biais appliqué plus fortement aux images de femmes. Les résultats indiquent en outre que CLIP associe les images à des étiquettes raciales ou ethniques basées sur l'écart par rapport au blanc, avec le blanc par défaut.

L'étude révèle également que l'association de valence d'une image (sa tendance à être associée à des choses « bonnes » ou « mauvaises ») est nettement plus élevée pour les étiquettes raciales « minoritaires » que pour les étiquettes caucasiennes, et suggère que les biais de CLIP reflètent le corpus de littérature centré sur les États-Unis (Wikipédia en anglais) sur lequel le cadre a été formé.

Commentant les implications du soutien apparent du CLIP à l’hypodescente, les auteurs déclarent* :

'[Parmi] les premières utilisations de CLIP étaient de former le modèle de génération d'image zéro-shot DALL-E. Une version plus grande et non publique de l'architecture CLIP a été utilisée dans la formation des DALL-E2. En rapport avec les résultats de la présente recherche, les risques et limites décrits dans la carte modèle DALL-E 2 noter qu'il "produit des images qui ont tendance à surreprésenter les personnes de passage blanc".

«Ces utilisations démontrent le potentiel des biais appris par CLIP à se propager au-delà de l'espace d'intégration du modèle, car ses fonctionnalités sont utilisées pour guider la formation de la sémantique dans d'autres modèles d'IA de pointe.

«De plus, en partie grâce aux progrès réalisés par CLIP et des modèles similaires pour associer des images et du texte dans le cadre du tir zéro, des architectures multimodales ont été décrit comme base pour l'avenir des applications Internet largement utilisées, y compris les moteurs de recherche.

« Nos résultats indiquent qu’une attention supplémentaire à ce que ces modèles apprennent de la supervision du langage naturel est justifiée. »

Le papier est intitulé Preuve d'hypodescence dans l'IA sémantique visuelle, et vient de trois chercheurs de l'Université de Washington et de l'Université de Harvard.

CLIP et mauvaises influences

Bien que les chercheurs attestent que leur travail est la première analyse de l'hypodescence dans CLIP, des travaux antérieurs ont démontré que le flux de travail CLIP, dépendant d'une formation largement non supervisée de sous-organisé données dérivées du Web, sous-représente les femmes, peut produire contenu offensant, et peut démontrer biais sémantique (comme le sentiment anti-musulman) dans son encodeur d'image.

L'article original qui présentait le CLIP concédait que dans un cadre de tir zéro, le CLIP n'associait que 58.3 % des personnes à l'étiquette raciale blanche dans le Visage juste Observant que FairFace a été étiqueté comme potentiellement biaisé par les travailleurs d'Amazon Mechanical Turk, les auteurs du nouvel article déclarent qu'« une minorité substantielle de personnes perçues par d'autres humains comme blanches sont associées à une race autre que blanche par CLIP ».

Ils continuent:

«L'inverse ne semble pas être vrai, car les individus qui sont perçus comme appartenant à d'autres étiquettes raciales ou ethniques dans l'ensemble de données FairFace sont associés à ces étiquettes par CLIP. Ce résultat suggère la possibilité que le CLIP ait appris la règle de « l'hypodescence », telle que décrite par les spécialistes des sciences sociales : les individus d'ascendance multiraciale sont plus susceptibles d'être perçus et catégorisés comme appartenant au groupe parental minoritaire ou moins favorisé qu'à la majorité tout aussi légitime. ou groupe de parents favorisés.

« En d’autres termes, l’enfant d’un parent noir et d’un parent blanc est perçu comme étant plus noir que blanc ; et l’enfant d’un parent asiatique et d’un parent blanc est perçu comme étant plus asiatique que blanc. »

L'article présente trois conclusions principales : que le CLIP met en évidence l'hypodescendance, en « regroupant » les personnes ayant des identités multiraciales dans la catégorie raciale contributive minoritaire qui s'applique à elles ; que « le blanc est la race par défaut dans le CLIP » et que les races concurrentes sont définies par leur « déviation » par rapport à une catégorie blanche ; et que biais de valence (une association avec des concepts « mauvais ») est corrélée à la mesure dans laquelle l’individu est catégorisé dans une minorité raciale.

Méthode et données

Afin de déterminer la manière dont le CLIP traite les sujets multiraciaux, les chercheurs ont utilisé un précédemment adopté technique de morphing pour modifier la race des images des individus. Les photos ont été prises du Base de données de visages de Chicago, un ensemble développé pour les études psychologiques impliquant la race.

Exemples d'images CFD de morphologie raciale présentées dans le matériel supplémentaire du nouveau document. Source : https://arxiv.org/pdf/2205.10764.pdf

Exemples d'images CFD à morphologie raciale présentées dans le matériel supplémentaire du nouveau document. SSource : https://arxiv.org/pdf/2205.10764.pdf

Les chercheurs ont sélectionné uniquement des images à « expression neutre » dans l'ensemble de données, afin de rester cohérents avec les travaux antérieurs. Ils ont utilisé le réseau antagoniste génératif. StyleGAN2-ADA (formé sur FFHQ) pour accomplir le changement de race des images faciales, et créé des images interstitielles qui démontrent la progression d'une race à l'autre (voir les exemples d'images ci-dessus).

Conformément aux travaux précédents, les chercheurs ont transformé les visages de personnes qui se sont identifiées comme noires, asiatiques et latinos dans l'ensemble de données en visages de ceux qui se sont étiquetés comme blancs. Dix-neuf étapes intermédiaires sont produites dans le processus. Au total, 21,000 1024 images 1024xXNUMXpx ont été créées pour le projet par cette méthode.

Les chercheurs ont ensuite obtenu une projection d'images intégrées pour CLIP pour chacune des 21 images de chaque ensemble de morphings raciaux. Ils ont ensuite demandé une étiquette pour chaque image CLIP : « multiracial », « biracial », « métis » et « personne » (l'étiquette finale omettant la race).

La version de CLIP utilisée était la CLIP-ViT-Base-Patch32 mise en œuvre. Les auteurs notent que ce modèle a été téléchargé plus d'un million de fois au cours du mois précédant la rédaction de leurs recherches et représente 98 % des téléchargements de tout modèle CLIP à partir du Bibliothèque de transformateurs.

Tests

Pour tester la propension potentielle de CLIP à l'hypodescente, les chercheurs ont noté l'étiquette de race attribuée par CLIP à chaque image dans le gradient d'images morphées pour chaque individu.

Selon les résultats, le CLIP tend à regrouper les personnes dans les catégories « minoritaires » autour de la barre des 50 % de transition.

À un ratio de mélange de 50 %, où le sujet est à parts égales origine/race cible, CLIP associe un plus grand nombre d'images féminines morphées de 1000 89.1 avec des étiquettes Asiatiques (75.8 %), Latines (69.7 %) et Noires (XNUMX %) qu'avec un équivalent Marque blanche.

À un ratio de mélange de 50 %, où le sujet est à parts égales origine/race cible, CLIP associe un plus grand nombre d'images féminines morphées de 1000 89.1 avec des étiquettes Asiatiques (75.8 %), Latines (69.7 %) et Noires (XNUMX %) qu'avec un équivalent Marque blanche.

Les résultats montrent que les sujets féminins sont plus enclins à l'hypodescendance sous CLIP que les hommes, bien que les auteurs émettent l'hypothèse que cela pourrait être dû au fait que les étiquettes dérivées du Web et non organisées qui caractérisent les images féminines ont tendance à mettre davantage l'accent sur l'apparence du sujet que dans le cas des hommes, et que cela peut avoir un effet de distorsion.

L'hypodescence à une transition raciale de 50% n'a pas été observée pour les séries de morphes masculins asiatiques-blancs ou latino-blancs, tandis que CLIP a attribué une similitude cosinus plus élevée à l'étiquette noire dans 67.5% des cas à un rapport de mélange de 55%.

La similarité cosinus moyenne des étiquettes Multiracial, Biracial et Mixed Race. Les résultats indiquent que le CLIP opère une sorte de catégorisation de « bassin versant » à des pourcentages variables de mélange racial, attribuant moins souvent un tel mélange racial au Blanc (« personne », dans la logique des expériences) qu'à l'ethnicité qui a été perçue dans l'image.

Similitude cosinus moyenne des étiquettes multiraciales, biraciales et métisses. Les résultats indiquent que CLIP opère une catégorisation par « bassin versant » à différents pourcentages de mixité raciale, attribuant moins souvent cette mixité raciale à la personne blanche (« personne », selon la logique des expériences) qu'à l'ethnicité perçue dans l'image.

L'objectif idéal, selon l'article, est que le CLIP catégorise précisément les mélanges raciaux intermédiaires comme « métisses », au lieu de définir un « point de basculement » à partir duquel le sujet est si fréquemment entièrement relégué à l'étiquette de non-blanc.

Dans une certaine mesure, CLIP attribue les étapes de morphing intermédiaires avec Mixed Race (voir graphique ci-dessus), mais démontre finalement une préférence de milieu de gamme pour catégoriser les sujets comme leur race contributive minoritaire.

En termes de valence, les auteurs notent le jugement biaisé de CLIP :

« L'association de valence [moyenne] (association avec le mauvais ou le désagréable par rapport au bon ou l'agréable) varie en fonction du rapport de mélange sur la série de morphologies masculines noires-blanches, de sorte que CLIP code les associations avec le désagrément pour les visages les plus similaires aux volontaires CFD qui s'identifient comme noirs. »

Les résultats de valence - les tests montrent que les groupes minoritaires sont plus associés à des concepts négatifs dans l'architecture image/paire que pour les sujets en marque blanche. Les auteurs affirment que l'association désagréable d'une image augmente avec la probabilité que le modèle associe l'image à l'étiquette noire.

Les résultats de valence - les tests montrent que les groupes minoritaires sont plus associés à des concepts négatifs dans l'architecture image/paire que pour les sujets en marque blanche. Les auteurs affirment que l'association désagréable d'une image augmente avec la probabilité que le modèle associe l'image à l'étiquette noire.

Le papier déclare:

« Les données indiquent que la valence d'une image est corrélée à l'association raciale. Plus concrètement, nos résultats indiquent que plus le modèle est certain qu'une image reflète un individu noir, plus elle est associée à l'espace d'intégration désagréable. »

Cependant, les résultats indiquent également une corrélation négative dans le cas des visages asiatiques. Les auteurs suggèrent que cela pourrait être dû à la transmission (via les données provenant du Web) des perceptions culturelles américaines positives des peuples et des communautés asiatiques. Les auteurs précisent* :

'Observer une corrélation entre l'agrément et la probabilité de l'étiquette de texte asiatique peut correspondre au stéréotype de la "minorité modèle", dans lequel les personnes d'ascendance asiatique sont louées pour leur mobilité ascendante et leur assimilation à la culture américaine, et même associé à un « bon comportement ».

Concernant l'objectif final, qui est d'examiner si le blanc est « l'identité par défaut » du point de vue de CLIP, les résultats indiquent une polarité intégrée, suggérant que dans cette architecture, il est plutôt difficile d'être « un peu blanc ».

Similitude cosinus sur 21,000 XNUMX images créées pour les tests.

Similitude cosinus sur 21,000 XNUMX images créées pour les tests.

Les auteurs commentent :

« Les données indiquent que le CLIP encode la race blanche comme race par défaut. Ceci est confirmé par les corrélations plus fortes entre les similarités cosinus blanches et les similarités cosinus individuelles que pour tout autre groupe racial ou ethnique. »

 

*Ma conversion des citations en ligne des auteurs en hyperliens.

Première publication le 24 mai 2022.

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai