Intelligence artificielle

La main-d'œuvre «invisible», souvent malheureuse, qui décide de l'avenir de l'IA

Le kit de préparation mis à jour on 9 décembre 2022

Deux nouveaux rapports, dont un article dirigé par Google Research, expriment leur inquiétude quant au fait que la tendance actuelle consistant à s'appuyer sur un pool mondial de travailleurs aléatoires, bon marché et souvent impuissants, pour créer une vérité terrain pour les systèmes d'apprentissage automatique pourrait avoir des implications majeures en aval pour l'IA.

Parmi une série de conclusions, l'étude de Google révèle que les propres préjugés des crowdworkers sont susceptibles de s'intégrer dans les systèmes d'IA dont les vérités fondamentales seront basées sur leurs réponses ; que les pratiques de travail déloyales répandues (y compris aux États-Unis) sur les plateformes de travail participatif sont susceptibles de dégrader la qualité des réponses ; et que le système de « consensus » (en fait une « mini-élection » pour une vérité de terrain qui influencera les systèmes d'IA en aval) qui résout actuellement les différends peut en fait jeter les réponses les meilleures et/ou les plus éclairées.

C'est la mauvaise nouvelle; la pire nouvelle est que pratiquement tous les remèdes sont coûteux, prennent du temps ou les deux.

Insécurité, rejet aléatoire et rancœur

La première papier, de cinq chercheurs de Google, s'appelle À qui la vérité fondamentale ? Prise en compte des identités individuelles et collectives sous-jacentes à l'annotation des ensembles de données; la seconde, de deux chercheurs de l'Université de Syracuse à New York, s'appelle L'origine et la valeur du désaccord entre les étiqueteurs de données : une étude de cas sur les différences individuelles dans l'annotation du discours de haine.

L'article de Google note que les crowd-workers - dont les évaluations constituent souvent la base déterminante des systèmes d'apprentissage automatique qui peuvent éventuellement affecter nos vies - opèrent fréquemment sous une gamme de contraintes qui peuvent affecter la façon dont ils répondent aux missions expérimentales.

Par exemple, les politiques actuelles d'Amazon Mechanical Turk permettent aux demandeurs (ceux qui attribuent les attributions) de rejeter le travail d'un annotateur sans responsabilité* :

'[Une] grande majorité de crowdworkers (94%) ont eu un travail qui a été rejeté ou pour lequel ils n'ont pas été payés. Pourtant, les demandeurs conservent tous les droits sur les données qu'ils reçoivent, qu'ils les acceptent ou non ; Robert (2016) décrit ce système comme celui qui «permet le vol de salaire».

«De plus, refuser un travail et retenir un salaire est douloureux car les refus sont souvent causés par des instructions peu claires et le manque de canaux de retour d'information significatifs; de nombreux crowdworkers rapportent qu'une mauvaise communication affecte négativement leur travail.

Les auteurs recommandent aux chercheurs qui utilisent des services externalisés pour développer des ensembles de données de réfléchir à la manière dont une plateforme de travail participatif traite ses employés. Ils notent en outre qu'aux États-Unis, les crowdworkers sont classés comme des "entrepreneurs indépendants", le travail n'étant donc pas réglementé et non couvert par le salaire minimum imposé par le Fair Labor Standards Act.

Questions de contexte

Le document critique également l'utilisation de ad hoc travail global pour les tâches d'annotation, sans tenir compte de l'expérience de l'annotateur.

Lorsque le budget le permet, il est courant que les chercheurs utilisant AMT et des plates-formes de travail participatif similaires confient la même tâche à quatre annotateurs et respectent la «règle de la majorité» sur les résultats.

L'expérience contextuelle, selon l'article, est particulièrement sous-estimée. Par exemple, si une question de tâche liée à le sexisme est distribué au hasard entre trois hommes de 18 à 57 ans d'accord et une femme de 29 ans dissidente, le verdict des hommes l'emporte, sauf dans les cas relativement rares où les chercheurs prêtent attention aux qualifications de leurs annotateurs.

De même, si une question sur comportement des gangs à Chicago est réparti entre une femme rurale américaine âgée de 36 ans, un homme résident de Chicago âgé de 42 ans et deux annotateurs respectivement de Bangalore et du Danemark, la personne probablement la plus touchée par le problème (l'homme de Chicago) ne détient qu'un quart du résultat, dans un configuration d'externalisation standard.

Les chercheurs précisent :

« [La] notion de « vérité unique » dans les réponses de crowdsourcing est un mythe ; le désaccord entre les annotateurs, qui est souvent considéré comme négatif, peut en fait fournir un signal précieux. Deuxièmement, étant donné que de nombreux pools d'annotateurs crowdsourcés sont biaisés sur le plan sociodémographique, il y a des implications pour les populations représentées dans les ensembles de données ainsi que pour les populations confrontées aux défis du [crowdwork].

«La prise en compte des biais dans les données démographiques des annotateurs est essentielle pour contextualiser les ensembles de données et garantir une utilisation responsable en aval. En bref, il est important de reconnaître et de prendre en compte les antécédents socioculturels des travailleurs, tant du point de vue de la qualité des données que de l'impact sociétal.

Pas d'opinions "neutres" sur les sujets d'actualité

Même lorsque les opinions de quatre annotateurs ne sont pas faussées, que ce soit sur le plan démographique ou par une autre mesure, l'article de Google s'inquiète du fait que les chercheurs ne tiennent pas compte des expériences de vie ou de la disposition philosophique des annotateurs :

"Alors que certaines tâches ont tendance à poser des questions objectives avec une réponse correcte (y a-t-il un visage humain dans une image ?), les ensembles de données visent souvent à saisir un jugement sur des tâches relativement subjectives sans réponse universellement correcte (ce morceau de texte est-il offensant ?). Il est important d'être intentionnel quant à savoir s'il faut s'appuyer sur les jugements subjectifs des annotateurs.

En ce qui concerne sa portée spécifique pour résoudre les problèmes d'étiquetage du discours de haine, le document de Syracuse note que des questions plus catégorielles telles que Y a-t-il un chat sur cette photo ? sont particulièrement différents de demander à un crowdworker si une phrase est « toxique » :

«Compte tenu du désordre de la réalité sociale, les perceptions des gens sur la toxicité varient considérablement. Leurs étiquettes de contenu toxique sont basées sur leurs propres perceptions.

Constatant que la personnalité et l'âge ont une « influence substantielle » sur l'étiquetage dimensionnel du discours de haine, les chercheurs de Syracuse concluent :

"Ces résultats suggèrent que les efforts visant à obtenir une cohérence d'annotation entre les étiqueteurs d'origines et de personnalités différentes pour le discours de haine pourraient ne jamais réussir pleinement."

Le juge peut aussi être partial

Ce manque d'objectivité est également susceptible d'itérer vers le haut, selon l'article de Syracuse, qui soutient que l'intervention manuelle (ou la politique automatisée, également décidée par un humain) qui détermine le « gagnant » des votes de consensus devrait également être soumise à un examen minutieux. .

Comparant le processus à la modération du forum, les auteurs déclarent* :

'[A] Les modérateurs de la communauté peuvent décider du destin des publications et des utilisateurs de leur communauté en promouvant ou en masquant les publications, ainsi qu'en honorant, en humiliant ou en bannissant les utilisateurs. Les décisions des modérateurs influencent le contenu livré à les membres de la communauté et le public et par extension influencent également l'expérience de la discussion de la communauté.

"En supposant qu'un modérateur humain est un membre de la communauté qui a une homogénéité démographique avec les autres membres de la communauté, il semble possible que le schéma mental qu'il utilise pour évaluer le contenu corresponde à celui des autres membres de la communauté."

Cela donne une idée de la raison pour laquelle les chercheurs de Syracuse sont arrivés à une conclusion aussi découragée concernant l'avenir de l'annotation des discours de haine ; l'implication est que les politiques et les appels au jugement sur les opinions dissidentes du crowdwork ne peuvent pas simplement être appliqués au hasard selon des principes «acceptables» qui ne sont inscrits nulle part (ou non réductibles à un schéma applicable, même s'ils existent).

Les personnes qui prennent les décisions (les crowdworkers) sont biaisées et seraient inutiles pour de telles tâches si elles étaient ne sauraient biaisé, puisqu'il s'agit de porter un jugement de valeur ; les personnes qui statuent sur les différends dans les résultats du crowdwork portent également des jugements de valeur dans l'établissement de politiques pour les différends.

Il peut y avoir des centaines de politiques dans un seul cadre de détection des discours de haine, et à moins que chacune ne soit renvoyée jusqu'à la Cour suprême, d'où peut provenir un consensus « faisant autorité » ?

Les chercheurs de Google suggèrent que "[les] désaccords entre les annotateurs peuvent intégrer des nuances précieuses sur la tâche". Le document propose l'utilisation de métadonnées dans des ensembles de données qui reflètent et contextualisent les différends.

Cependant, il est difficile de voir comment une telle couche de données spécifique au contexte pourrait jamais conduire à des métriques similaires, s'adapter aux exigences des tests standard établis ou prendre en charge tous des résultats définitifs - sauf dans le scénario irréaliste d'adopter le même groupe de chercheurs dans les travaux ultérieurs.

Conservation du pool d'annotateurs

Tout cela suppose qu'il existe même un budget dans un projet de recherche pour plusieurs annotations qui conduiraient à un vote par consensus. Dans de nombreux cas, les chercheurs tentent de « gérer » le pool d'annotations externalisé à moindre coût en spécifiant les traits que les travailleurs devraient avoir, tels que la situation géographique, le sexe ou d'autres facteurs culturels, échangeant la pluralité contre la spécificité.

Le document de Google soutient que la voie à suivre pour relever ces défis pourrait consister à établir des cadres de communication étendus avec des annotateurs, similaires aux communications minimales que l'application Uber facilite entre un conducteur et un passager.

Un tel examen attentif des annotateurs serait, naturellement, un obstacle à l'externalisation des annotations à grande échelle, entraînant soit des ensembles de données plus limités et à faible volume qui ont une meilleure justification de leurs résultats, soit une évaluation "précipitée" des annotateurs impliqués, obtenant des détails limités à leur sujet et les qualifiant de « aptes à la tâche » sur la base de trop peu d'informations.

C'est si les annotateurs sont honnêtes.

Les "People Pleasers" dans l'étiquetage externalisé des ensembles de données

Avec une main-d'œuvre disponible sous-payés, en dessous de concurrence sévère pour les affectations disponibles, et déprimé par peu de perspectives de carrière, les annotateurs sont motivés pour fournir rapidement la « bonne » réponse et passer au mini-devoir suivant.

Si la "bonne réponse" est quelque chose de plus compliqué que A un chat/Pas de chat, l'article de Syracuse soutient que le travailleur est susceptible de tenter de déduire une réponse « acceptable » en fonction du contenu et du contexte de la question* :

«La prolifération de conceptualisations alternatives et l'utilisation généralisée de méthodes d'annotation simplistes entravent sans doute les progrès de la recherche sur les discours de haine en ligne. Par exemple, Ross et al. trouvé que montrer la définition de conduite haineuse de Twitter aux annotateurs les a amenés à aligner partiellement leurs propres opinions sur la définition. Ce réalignement a entraîné une très faible fiabilité interévaluateur des annotations.

* Ma conversion des citations en ligne de l'article en hyperliens.

Publié le 13 décembre 2021 – Mise à jour le 18 décembre 2021 : Balises ajoutées

Rubriques connexes:turc mécanique traitement du langage naturel nlp un article

Attaquer les systèmes de traitement du langage naturel avec des exemples contradictoires

Ne manquez pas

L'IA utilise l'apprentissage par renforcement pour naviguer dans les océans

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai