Intelligence artificielle

Les voix des minorités "filtrées" des modèles de traitement du langage naturel de Google

Le kit de préparation mis à jour on 9 décembre 2022

Selon une nouvelle recherche, l'un des plus grands ensembles de données de traitement du langage naturel (NLP) disponibles a été largement « filtré » pour supprimer les auteurs noirs et hispaniques, ainsi que les documents liés aux identités gays et lesbiennes, et les données sources traitant d'un certain nombre d'auteurs. d’autres identités marginales ou minoritaires.

L'ensemble de données a été utilisé pour former Google Transformateur de commutation ainsi que le modèle T5, et a été organisé par Google AI lui-même.

Le rapport affirme que le Corpus rampant propre et colossal ('C4'), qui contient 156 milliards de jetons extraits de plus de 365 millions de domaines Internet, et est un sous-ensemble de l'énorme base de données de Common Crawl extraite, a été largement (algorithmiquement) filtré pour exclure le contenu "offensant" et "toxique" , et que les filtres utilisés pour distiller C4 ont ciblé efficacement le contenu et la discussion des groupes minoritaires.

Le rapport indique:

"Notre examen des données exclues suggère que les documents associés à des auteurs noirs et hispaniques et les documents mentionnant des orientations sexuelles sont significativement plus susceptibles d'être exclus par le filtrage de la liste de blocage de C4.EN, et que de nombreux documents exclus contenaient un contenu non offensant ou non sexuel ( ex., discussions législatives sur le mariage entre personnes de même sexe, contenu scientifique et médical).

Le travail note que les résultats exacerbent les inégalités raciales existantes basées sur la langue dans le secteur de la PNL, ainsi que la stigmatisation des identités LGBTQ+. Il continue:

"En outre, une conséquence directe de la suppression de ce texte des ensembles de données utilisés pour former des modèles linguistiques est que les modèles fonctionneront mal lorsqu'ils seront appliqués à du texte provenant de et concernant des personnes ayant une identité minoritaire, les excluant effectivement des avantages de la technologie comme la traduction automatique ou la recherche. .'

Organiser le Common Crawl

Les rapport, Intitulé Documenter de grands corpus de textes Web : une étude de cas sur le corpus colossal propre et exploré, est une collaboration entre des chercheurs de l'Allen Institute for Artificial Intelligence, de la Paul G. Allen School of Computer Science & Engineering de l'Université de Washington, Hugging Face, et Queer en IA.

À partir du rapport, un index de la probabilité que les mentions d'identité et les documents soient filtrés par des listes de blocage qui distillent C4 de la plus grande base de données Common Crawl. Le graphique représente un indice d'information mutuelle ponctuelle (PMI) pour les identités, les identités gaies et lesbiennes ayant les plus grandes chances d'être filtrées. Source : https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

Le modèle C4 est une version soignée et réduite du Exploration commune corpus Web, qui extrait les données textuelles d'Internet de manière plus arbitraire, en tant que ressource de base pour les chercheurs en PNL. Common Crawl n'applique pas le même type de listes de blocage que C4, car il est souvent utilisé comme référentiel de données neutre pour la recherche NLP sur le discours de haine, et pour d'autres études sociologiques/psychologiques où la censure de la matière première serait contre-productive.

Filtrage sous-documenté

Étant donné que la détermination de C4 à supprimer le contenu "toxique" inclut le contenu pornographique, il n'est peut-être pas surprenant que l'identité "lesbienne" soit la plus exclue de l'ensemble de données raffiné (voir l'image ci-dessus).

Les auteurs de l'article critiquent le manque de documentation et de métadonnées dans C4, préconisant que les filtres laissent derrière eux des enregistrements plus complets, des informations de fond et des motifs concernant les données qu'ils suppriment, ce qui, dans le cas de C4 (et des modèles de langage développés à partir de celui-ci) est autrement introuvable, sauf par une recherche universitaire concertée.

Ils observent :

"Certains filtres sont relativement simples, comme la suppression Lorem ipsum texte d'espace réservé. Cependant, nous constatons qu'un autre filtre qui supprime les documents contenant un jeton d'une liste de mots interdits, supprime de manière disproportionnée les documents dans les dialectes de l'anglais associés aux identités minoritaires (par exemple, texte en anglais afro-américain, texte discutant des identités LGBTQ+).

Pour rendre l'étendue du filtrage de C4 plus explicable, les chercheurs sont héberger trois versions des données avec différents niveaux de filtrage appliqués, ainsi que une version consultable (disponible jusqu'au 31 décembre 2021).

Cela est nécessaire car il n'est pas facile de recréer le scénario dans lequel C4 a vu le jour : même si, comme le note l'article, les auteurs originaux de C4 ont fourni un script utilisateur qui recréera la base de données à partir de Common Crawl, l'exécution du script est si gourmand en machine que cela coûterait des milliers de dollars. De plus, les auteurs de l'article sont hébergement les données brutes de C4.

Texte récursif généré par la machine

La nouvelle recherche révèle également que l'ensemble de données C4 filtré contient du texte généré par la machine à partir d'ensembles de données, et que ceux-ci ont soit échappé à des filtres conçus pour les exclure (le manque de métadonnées de filtre le rend difficile à dire), soit sont activement accueillis dans C4.

C'est assez incestueux, en termes de portée des bases de données NLP, qui cherchent à étudier et à reproduire la façon dont les humains communiquent. En effet, C4 envoie du texte généré par la machine (sans étiquette) aux systèmes qui génèrent du texte généré par la machine.

Les sources de ce texte, les notes papier, incluent les demandes de brevet traduites automatiquement et les enregistrements de patent.google.com, qui convertit automatiquement les demandes de brevet mondiales (non anglaises) en anglais. Le rapport estime qu'environ 10 % du matériel de brevet inclus dans la base de données provient d'offices de brevets non anglais – un pourcentage suffisamment important pour générer des caractéristiques dans un modèle de langage formé.

Les auteurs ont également observé que le texte de nombreux brevets est initialement obtenu via des exemples imparfaits de reconnaissance optique de caractères (OCR), les erreurs d'accompagnement en anglais pouvant être transmises aux données C4 avec peu ou pas d'annotations qui les distingueraient de l'anglais acceptable.

Déterminer le biais

Pour évaluer l'étendue du biais dans C4, les chercheurs ont généré 294,000 15 questions couvrant XNUMX ethnies différentes, chaque question traitant de deux ethnies, telles que « Une femme arabe suivait des cours avec une femme juive. Qui était un mauvais conducteur ?, un exemple de sentiment négatif. Pour éviter les accusations d'"appâter" ou de provoquer C4 dans des réponses négatives, chaque question a été associée à une version conçue pour susciter une réponse positive autour des deux mêmes ethnies.

Le journal constate :

« Nous constatons que « juif » et « arabe » sont parmi les ethnies les plus polarisées, avec un biais positif vers « juif » et un biais négatif vers « arabe ».

La proportion d'occasions où chaque origine ethnique, telle que représentée dans C4, a été associée à un sentiment positif par UnifiedQA.

La proportion d'occasions où chaque ethnie, telle que représentée dans C4, était associée à un sentiment positif par AQ unifiée.

Critères pour les documents exclus

En cherchant à comprendre l'agressivité du schéma de filtrage de C4, les chercheurs ont utilisé le clustering K-Means pour analyser un échantillon aléatoire de 100,000 4 documents dans Common Crawl qui sont interdits par les listes de blocage de C16. Ils ont constaté que seuls 31 groupes de documents exclus étaient de nature « largement sexuelle » – environ 4 % du total des données interdites de CXNUMX. De ce qui reste des données exclues, les chercheurs ont trouvé « des groupes de documents liés à la science, à la médecine et à la santé, ainsi que des groupes liés à des documents juridiques et politiques ».

Avec 5,000 100,000 résultats affichés pour plus de clarté, il s'agit du regroupement général des K-means pour XNUMX XNUMX documents exclus étudiés. L'illustration donne cinq des principaux mots-clés examinés.

En termes de blocage des données liées aux identités gay et lesbienne, les auteurs ont constaté que les mentions d'identité sexuelle (telles que lesbienne, gay, homosexuel et bisexuel) ont le plus de chances d'être filtrées pour C4, et que les mentions non offensantes et les documents non sexuels représentent respectivement 22 % et 36 % des informations de cette catégorie qui sont exclues de C4.

Exclusion de dialecte et anciennes données

De plus, les chercheurs ont utilisé un modèle de sujet sensible au dialecte pour estimer dans quelle mesure le langage familier et spécifique à l'ethnie a été exclu de C4, en constatant que "L'anglais afro-américain et l'anglais hispanique sont affectés de manière disproportionnée par le filtrage de la liste de blocage".

De plus, l'article note qu'un pourcentage important du corpus dérivé de C4 est obtenu à partir de matériel de plus de dix ans, dont certains datent de plusieurs décennies, et la plupart proviennent de nouvelles, de brevets et du site Web Wikipedia. Les chercheurs admettent qu'estimer l'âge exact en identifiant la première sauvegarde sur Internet Archive n'est pas une méthode exacte (puisque les URL peuvent prendre des mois pour être archivées), mais ont utilisé cette approche en l'absence d'alternatives raisonnables.

Conclusions

Le document préconise des systèmes de documentation plus stricts pour les ensembles de données dérivés d'Internet destinés à contribuer à la recherche en PNL, notant «Lors de la création d'un ensemble de données à partir d'un grattage du Web, le signalement des domaines à partir desquels le texte est gratté fait partie intégrante de la compréhension de l'ensemble de données; le processus de collecte de données peut conduire à une répartition des domaines Internet sensiblement différente de ce à quoi on pourrait s'attendre.

Ils observent également que la contamination de référence, où les données de la machine sont incluses avec les données humaines (voir ci-dessus) s'est déjà avérée être un problème avec le développement de GPT-3, qui a également inclus accidentellement de telles données lors de sa formation approfondie et très coûteuse (en fin de compte, il s'est avéré moins coûteux de quantifier et d'exclure l'influence des données de référence que de recycler GPT-3, et le papier source atteste d'un « impact négligeable sur les performances »).

Le rapport conclut* :

« Nos analyses conﬁrment que déterminer si un document a un contenu toxique ou obscène est une entreprise plus nuancée qui va au-delà de la détection de « mauvais » mots ; le contenu haineux et obscène peut être exprimé sans mots clés négatifs (par exemple, microagressions, insinuations).

Il est important de noter que la signification de mots apparemment « mauvais » dépend fortement du contexte social (par exemple, l'impolitesse peut servir fonctions prosociales, et qui prononce certains mots influence son caractère offensant (par exemple, l'insulte récupérée "n*gga" est considérée comme moins offensante lorsqu'elle est prononcée par un Haut-parleur noir que par un haut-parleur blanc.

"Nous vous déconseillons d'utiliser le ﬁltrage [liste de blocage] lors de la construction d'ensembles de données à partir de données explorées sur le Web."

* Ma conversion des citations en ligne en hyperliens

Rubriques connexes:Biais AI biais informatique google traitement du langage naturel nlp un article

Une nouvelle IA pourrait révéler les points de basculement du changement climatique

Ne manquez pas

Adobe fait de nouvelles annonces clés concernant les capacités alimentées par l'IA

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai