Connect with us

Intelligence artificielle

Le défi de la ‘catégorisation raciale’ pour les systèmes de synthèse d’images basés sur CLIP

mm

De nouvelles recherches menées aux États-Unis révèlent qu’un des modèles de vision par ordinateur populaires à l’origine de la série DALL-E, ainsi que de nombreux autres modèles de génération et de classification d’images, présente une tendance prouvée vers l’hypodescence – la règle de catégorisation raciale (également connue sous le nom de ‘règle d’une goutte’) qui catégorise une personne ayant même une petite quantité de lignée génétique ‘mixte’ (c’est-à-dire non caucasienne) entièrement dans une catégorie raciale ‘minoritaire’.

Puisque l’hypodescence a caractérisé certains des chapitres les plus sombres de l’histoire de l’humanité, les auteurs de la nouvelle étude suggèrent que de telles tendances dans la recherche et la mise en œuvre de la vision par ordinateur devraient recevoir une attention accrue, ne serait-ce que parce que le cadre sous-jacent, téléchargé près d’un million de fois par mois, pourrait encore disséminer et promouvoir les préjugés raciaux dans les cadres en aval.

L’architecture étudiée dans le nouveau travail est Contrastive Language Image Pretraining (CLIP), un modèle d’apprentissage automatique multimodal qui apprend des associations sémantiques en s’entraînant sur des paires d’images et de légendes provenant d’Internet – une approche semi-supervisée qui réduit le coût important de l’étiquetage, mais qui reflète probablement les préjugés des personnes qui ont créé les légendes.

D’après l’article :

‘Nos résultats fournissent des preuves d’hypodescence dans l’espace d’intégration de CLIP, un biais appliqué plus fortement aux images de femmes. Les résultats indiquent en outre que CLIP associe des images avec des étiquettes raciales ou ethniques en fonction de l’écart par rapport aux Blancs, avec les Blancs comme valeur par défaut.

L’article constate également qu’une association de valence d’une image (sa tendance à être associée à des choses ‘bonnes’ ou ‘mauvaises’) est nettement plus élevée pour les étiquettes raciales ‘minoritaires’ que pour les étiquettes caucasiennes, et suggère que les préjugés de CLIP reflètent le corpus de littérature centré sur les États-Unis (Wikipédia en anglais) sur lequel le cadre a été formé.

En commentant les implications de l’apparent soutien de CLIP à l’hypodescence, les auteurs déclarent* :

‘[Parmi] les premières utilisations de CLIP était de former le modèle de génération d’images à zéro tir DALL-E. Une version plus grande, non publique, de l’architecture CLIP a été utilisée pour la formation de DALL-E 2. Conformément aux résultats de la présente recherche, les Risques et Limitations décrits dans la carte de modèle de DALL-E 2 note que celui-ci “produit des images qui tendent à surreprésenter les personnes qui sont blanches”.

‘De telles utilisations démontrent le potentiel pour que les préjugés appris par CLIP se propagent au-delà de l’espace d’intégration du modèle, dans la mesure où ses fonctionnalités sont utilisées pour guider la formation de la sémantique dans d’autres modèles d’IA de pointe.

‘De plus, en partie grâce aux progrès réalisés par CLIP et des modèles similaires pour associer des images et du texte dans le paramètre à zéro tir, les architectures multimodales ont été décrites comme la base pour l’avenir des applications Internet largement utilisées, y compris les moteurs de recherche.

‘Nos résultats indiquent qu’une attention supplémentaire à ce que de tels modèles apprennent de la supervision du langage naturel est justifiée.’

L’article s’intitule Preuves d’hypodescence dans l’IA sémantique visuelle, et provient de trois chercheurs de l’Université de Washington et de l’Université Harvard.

CLIP et mauvaises influences

Bien que les chercheurs attestent que leur travail est la première analyse de l’hypodescence dans CLIP, des travaux antérieurs ont démontré que le flux de travail CLIP, qui dépend de la formation largement non supervisée à partir de données Web sous-curées, sous-représente les femmes, peut produire un contenu offensant, et peut démontrer un biais sémantique (comme un sentiment anti-musulman) dans son encodeur d’image.

L’article original qui a présenté CLIP a concédé que dans un paramètre à zéro tir, CLIP n’associe que 58,3 % des personnes avec l’étiquette raciale blanche dans l’ensemble de données FairFace. Observant que FairFace a été étiqueté avec un biais possible par des travailleurs d’Amazon Mechanical Turk, les auteurs de la nouvelle étude déclarent que ‘une proportion substantielle de personnes qui sont perçues par d’autres humains comme blanches sont associées à une race autre que blanche par CLIP.’

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.