Connect with us

La ‘main-d’œuvre invisible’, souvent malheureuse, qui décide de l’avenir de l’IA

Intelligence artificielle

La ‘main-d’œuvre invisible’, souvent malheureuse, qui décide de l’avenir de l’IA

mm

Deux nouveaux rapports, dont un article dirigé par Google Research, expriment des inquiétudes quant à la tendance actuelle de s’appuyer sur un bassin bon marché et souvent dépourvu de pouvoir de travailleurs globaux pour créer des vérités de base pour les systèmes d’apprentissage automatique, ce qui pourrait avoir des implications majeures en aval pour l’IA.

Parmi une série de conclusions, l’étude de Google constate que les préjugés des crowdworkers sont susceptibles de s’intégrer dans les systèmes d’IA dont les vérités de base seront basées sur leurs réponses ; que les pratiques de travail injustes généralisées (y compris aux États-Unis) sur les plateformes de crowdworking sont susceptibles de dégrader la qualité des réponses ; et que le système de « consensus » (en effet, une « mini-élection » pour une vérité de base qui influencera les systèmes d’IA en aval) qui résout actuellement les litiges peut en fait rejeter les meilleures et/ou les réponses les plus éclairées.

C’est la mauvaise nouvelle ; la pire nouvelle est que la plupart des remèdes sont coûteux, chronophages, ou les deux.

Insécurité, rejet aléatoire et rancœur

Le premier article, rédigé par cinq chercheurs de Google, s’intitule À qui appartient la vérité de base ? Compte tenu des identités individuelles et collectives sous-jacentes à l’annotation des ensembles de données ; le deuxième, rédigé par deux chercheurs de l’Université de Syracuse, à New York, s’intitule L’origine et la valeur du désaccord entre les annotateurs de données : une étude de cas sur les différences individuelles dans l’annotation des discours de haine.

L’article de Google note que les crowdworkers – dont les évaluations forment souvent la base déterminante des systèmes d’apprentissage automatique qui peuvent éventuellement affecter notre vie – opèrent fréquemment dans un contexte de contraintes qui peuvent affecter leur réponse aux tâches expérimentales.

Par exemple, les politiques actuelles d’Amazon Mechanical Turk permettent aux demandeurs (ceux qui donnent les tâches) de rejeter le travail d’un annotateur sans responsabilité* :

‘[U]ne grande majorité de crowdworkers (94%) ont vu leur travail rejeté ou n’ont pas été payés. Cependant, les demandeurs conservent tous les droits sur les données qu’ils reçoivent, qu’ils acceptent ou rejettent ; Roberts (2016) décrit ce système comme un système qui « permet le vol de salaire ».

‘De plus, rejeter le travail et retenir le paiement est douloureux, car les rejets sont souvent causés par des instructions peu claires et le manque de canaux de rétroaction significatifs ; de nombreux crowdworkers rapportent que la mauvaise communication affecte négativement leur travail.’

Les auteurs recommandent que les chercheurs qui utilisent des services externalisés pour développer des ensembles de données prennent en compte la façon dont une plateforme de crowdworking traite ses travailleurs. Ils notent en outre qu’aux États-Unis, les crowdworkers sont classés comme « travailleurs indépendants », ce qui signifie que le travail n’est pas réglementé et n’est pas couvert par le salaire minimum prévu par le Fair Labor Standards Act.

Le contexte compte

L’article critique également l’utilisation de travailleurs globaux ad hoc pour les tâches d’annotation, sans tenir compte de l’arrière-plan de l’annotateur.

Lorsque le budget le permet, il est courant pour les chercheurs utilisant AMT et des plateformes de crowdwork similaires de donner la même tâche à quatre annotateurs et de suivre la « règle de la majorité » pour les résultats.

L’expérience contextuelle, argue l’article, est notablement sous-estimée. Par exemple, si une question liée au sexisme est distribuée aléatoirement entre trois hommes d’accord âgés de 18 à 57 ans et une femme dissidente âgée de 29 ans, le verdict des hommes l’emporte, sauf dans les cas rares où les chercheurs prêtent attention aux qualifications de leurs annotateurs.

De même, si une question sur le comportement des gangs à Chicago est distribuée entre une femme rurale américaine âgée de 36 ans, un résident de Chicago âgé de 42 ans et deux annotateurs respectivement de Bangalore et du Danemark, la personne la plus susceptible d’être affectée par la question (l’homme de Chicago) ne détient qu’un quart de parts dans le résultat, dans une configuration d’externalisation standard.

Les chercheurs déclarent :

‘[L]a notion de « vérité unique » dans les réponses de crowdworking est un mythe ; le désaccord entre les annotateurs, souvent considéré comme négatif, peut en fait fournir un signal précieux. Deuxièmement, puisque de nombreux pools d’annotateurs de crowdworking sont biaisés sur le plan sociodémographique, il y a des implications pour les populations représentées dans les ensembles de données ainsi que pour les populations confrontées aux défis du crowdworking.

‘Compter les biais dans les démographiques des annotateurs est crucial pour contextualiser les ensembles de données et assurer une utilisation responsable en aval. En bref, il y a de la valeur à reconnaître et à prendre en compte l’arrière-plan socioculturel des travailleurs — à la fois du point de vue de la qualité des données et de l’impact sociétal.’

Pas d’opinions ‘neutres’ sur les sujets brûlants

Même lorsque les opinions de quatre annotateurs ne sont pas biaisées, démographiquement ou par quelque autre métrique, l’article de Google exprime des inquiétudes quant à ce que les chercheurs ne tiennent pas compte des expériences de vie ou de la disposition philosophique des annotateurs :

‘Alors que certaines tâches posent des questions objectives avec une réponse correcte (y a-t-il un visage humain dans l’image ?), souvent, les ensembles de données visent à capturer des jugements sur des tâches subjectives sans réponse universellement correcte (ce texte est-il offensant ?). Il est important d’être intentionnel quant à savoir s’il faut s’appuyer sur les jugements subjectifs des annotateurs.’

En ce qui concerne son objet spécifique pour résoudre les problèmes d’étiquetage des discours de haine, l’article de Syracuse note que des questions plus catégoriques telles que Y a-t-il un chat dans cette photographie ? sont notablement différentes de la question posée à un crowdworker de savoir si une phrase est ‘toxique’ :

‘En tenant compte de la complexité de la réalité sociale, les perceptions de la toxicité varient considérablement. Leurs étiquettes de contenu toxique sont basées sur leurs propres perceptions.’

En constatant que la personnalité et l’âge ont une ‘influence substantielle’ sur l’étiquetage dimensionnel des discours de haine, les chercheurs de Syracuse concluent :

‘Ces résultats suggèrent que les efforts pour obtenir une cohérence dans l’annotation entre les annotateurs ayant des antécédents et des personnalités différents pour les discours de haine peuvent ne jamais réussir complètement.’

Le juge peut également être biaisé

Ce manque d’objectivité est susceptible de s’accentuer, selon l’article de Syracuse, qui soutient que l’intervention manuelle (ou la politique automatisée, également décidée par un humain) qui détermine le ‘gagnant’ des votes de consensus doit également être examinée.

En comparant le processus à la modération de forum, les auteurs déclarent* :

‘[L]es modérateurs d’une communauté peuvent décider du destin des publications et des utilisateurs de leur communauté en promouvant ou en cachant les publications, ainsi qu’en honorant, en humiliant ou en bannissant les utilisateurs. Les décisions des modérateurs influencent le contenu livré aux membres de la communauté et aux publics et, par extension, influencent également l’expérience de la discussion de la communauté.

‘En supposant qu’un modérateur humain soit un membre de la communauté qui partage une homogénéité démographique avec d’autres membres de la communauté, il semble possible que le schéma mental qu’ils utilisent pour évaluer le contenu corresponde à celui des autres membres de la communauté.’

Cela donne une idée de pourquoi les chercheurs de Syracuse sont arrivés à une conclusion si désespérante concernant l’avenir de l’annotation des discours de haine ; l’implication est que les politiques et les jugements sur les opinions dissidentes de crowdworking ne peuvent pas être appliqués de manière aléatoire selon des principes ‘acceptables’ qui ne sont pas établis nulle part (ou pas réductibles à un schéma applicable, même s’ils existent).

Les personnes qui prennent les décisions (les crowdworkers) sont biaisées, et seraient inutiles pour de telles tâches s’ils n’étaient pas biaisés, puisque la tâche consiste à fournir un jugement de valeur ; les personnes qui arbitrent les litiges dans les résultats de crowdworking prennent également des jugements de valeur en établissant des politiques pour les litiges.

Il peut y avoir des centaines de politiques dans un seul cadre de détection des discours de haine, et à moins que chacune d’elles ne soit portée devant la Cour suprême, d’où peut provenir un ‘consensus autoritaire’ ?

Les chercheurs de Google suggèrent que ‘[les] désaccords entre les annotateurs peuvent intégrer des nuances précieuses sur la tâche’. L’article propose l’utilisation de métadonnées dans les ensembles de données qui reflètent et contextualisent les litiges.

Cependant, il est difficile de voir comment une telle couche de données contextuelle pourrait jamais conduire à des mesures comparables, s’adapter aux exigences des tests standard établis ou soutenir des résultats définitifs — sauf dans le scénario irréaliste d’adopter le même groupe de chercheurs pour des travaux ultérieurs.

Curater l’ensemble des annotateurs

Tout cela suppose qu’il y a même un budget dans un projet de recherche pour plusieurs annotations qui pourraient conduire à un vote de consensus. Dans de nombreux cas, les chercheurs tentent de ‘curater’ l’ensemble d’annotation externalisé de manière moins coûteuse en spécifiant les caractéristiques que les travailleurs devraient avoir, telles que l’emplacement géographique, le sexe ou d’autres facteurs culturels, en échangeant la pluralité pour la spécificité.

L’article de Google soutient que la voie à suivre pour relever ces défis pourrait consister à établir des cadres de communication étendus avec les annotateurs, similaires aux communications minimales que l’application Uber facilite entre un conducteur et un passager.

Une telle considération soigneuse des annotateurs serait, naturellement, un obstacle à l’externalisation d’annotation à grande échelle, aboutissant soit à des ensembles de données plus limités et à faible volume qui ont une meilleure raison pour leurs résultats, soit à une évaluation ‘précipitée’ des annotateurs impliqués, obtenant des détails limités sur eux et les caractérisant comme ‘adaptés à la tâche’ sur la base de trop peu d’informations.

C’est si les annotateurs sont honnêtes.

Les ‘plaisants’ dans l’étiquetage des ensembles de données externalisés

Avec une main-d’œuvre disponible qui est sous-payée, sous une concurrence sévère pour les tâches disponibles, et déprimée par des perspectives de carrière rares, les annotateurs sont motivés pour fournir rapidement la ‘bonne’ réponse et passer à la prochaine mini-tâche.

Si la ‘bonne réponse’ est quelque chose de plus compliqué que Avoir un chat/Pas de chat, l’article de Syracuse soutient que le travailleur tentera probablement de déduire une ‘réponse acceptable’ basée sur le contenu et le contexte de la question* :

‘À la fois la prolifération de conceptualisations alternatives et l’utilisation généralisée de méthodes d’annotation simplistes entravent probablement les progrès de la recherche sur les discours de haine en ligne. Par exemple, Ross et al. ont trouvé que montrer la définition de Twitter de la conduite haineuse aux annotateurs les a amenés à aligner partiellement leurs propres opinions sur la définition. Cet ajustement a abouti à une fiabilité inter-juge très faible des annotations.’

 

* Ma conversion des citations intégrées du document en hyperliens.

Publié le 13 décembre 2021 – Mis à jour le 18 décembre 2021 : Balises ajoutées

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.