Intelligence artificielle

Une nouvelle étude tente d'améliorer les algorithmes de détection des discours de haine

Le kit de préparation mis à jour on 9 décembre 2022

Les entreprises de médias sociaux, en particulier Twitter, sont depuis longtemps critiquées pour la façon dont elles signalent les discours et décident quels comptes interdire. Le problème sous-jacent est presque toujours lié aux algorithmes qu'ils utilisent pour surveiller les publications en ligne. Les systèmes d'intelligence artificielle sont loin d'être parfaits lorsqu'il s'agit de cette tâche, mais des efforts sont constamment déployés pour les améliorer.

Inclus dans ce travail est un nouvelle étude sortant de l'Université de Californie du Sud qui tente de réduire certaines erreurs pouvant entraîner des préjugés raciaux.

Incapacité à reconnaître le contexte

L'un des problèmes qui ne reçoit pas autant d'attention concerne les algorithmes destinés à arrêter la propagation des discours haineux, mais qui amplifient en fait les préjugés raciaux. Cela se produit lorsque les algorithmes ne reconnaissent pas le contexte et finissent par signaler ou bloquer les tweets des groupes minoritaires.

Le plus gros problème avec les algorithmes en ce qui concerne le contexte est qu'ils sont trop sensibles à certains termes d'identification de groupe comme "noir", "gay" et "transgenre". Les algorithmes prennent en compte ces classificateurs de discours de haine, mais ils sont souvent utilisés par les membres de ces groupes et le cadre est important.

Pour tenter de résoudre ce problème de cécité contextuelle, les chercheurs ont créé un classificateur de discours de haine plus sensible au contexte. Le nouvel algorithme est moins susceptible de qualifier à tort un message de discours de haine.

L'algorithme

Les chercheurs ont développé les nouveaux algorithmes en gardant à l'esprit deux nouveaux facteurs : le contexte en ce qui concerne les identifiants de groupe et s'il existe également d'autres caractéristiques du discours de haine présentes dans le message, comme un langage déshumanisant.

Brendan Kennedy est titulaire d'un doctorat en informatique. étudiant et co-auteur principal de l'étude, qui a été publiée le 6 juillet à ACL 2020.

"Nous voulons faire en sorte que la détection des discours de haine soit plus proche d'être prête pour une application dans le monde réel", a déclaré Kennedy.

"Les modèles de détection des discours de haine "se cassent" ou génèrent souvent de mauvaises prédictions lorsqu'ils sont introduits dans des données du monde réel, telles que les médias sociaux ou d'autres données textuelles en ligne, car ils sont biaisés par les données sur lesquelles ils sont formés pour associer l'apparence de termes d'identification sociale avec le discours de haine.

La raison pour laquelle les algorithmes sont souvent inexacts est qu'ils sont formés sur des ensembles de données déséquilibrés avec des taux extrêmement élevés de discours de haine. Pour cette raison, les algorithmes ne parviennent pas à apprendre à gérer à quoi ressemblent réellement les médias sociaux dans le monde réel.

Le professeur Xiang est un expert en traitement du langage naturel.

"Il est essentiel que les modèles n'ignorent pas les identifiants, mais les associent au bon contexte", a déclaré Ren.

"Si vous enseignez un modèle à partir d'un ensemble de données déséquilibré, le modèle commence à détecter des modèles étranges et à bloquer les utilisateurs de manière inappropriée."

Pour tester l'algorithme, les chercheurs ont utilisé un échantillon aléatoire de texte provenant de deux sites de médias sociaux qui ont un taux élevé de discours de haine. Le texte a d'abord été signalé à la main par les humains comme préjudiciable ou déshumanisant. Le modèle de pointe a ensuite été comparé au propre modèle des chercheurs pour signaler de manière inappropriée le discours non haineux, grâce à l'utilisation de 12,500 77 articles du New York Times sans discours de haine. Alors que les modèles de pointe ont pu atteindre une précision de 90 % pour identifier la haine par rapport à la non-haine, le modèle du chercheur était plus élevé à XNUMX %.

«Ce travail en soi ne rend pas parfait la détection des discours de haine, c'est un énorme projet sur lequel beaucoup travaillent, mais il fait des progrès progressifs», a déclaré Kennedy.

«En plus d'éviter que les publications des membres de groupes protégés sur les réseaux sociaux ne soient censurées de manière inappropriée, nous espérons que notre travail contribuera à garantir que la détection des discours de haine ne cause pas de préjudice inutile en renforçant les fausses associations de préjugés et de déshumanisation avec les groupes sociaux.»

Rubriques connexes:AI intelligence artificielle Algorithmes d'apprentissage en profondeur Réseaux Sociaux

Wilson Pang, directeur de la technologie chez Appen – Série d'interviews

Ne manquez pas

Phil Duffy, vice-président de la conception de produits, de programmes et d'UX chez Brain Corp - Série d'entrevues

Alex McFarland

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.