Intelligence Artificielle

Une nouvelle étude tente d'améliorer les algorithmes de détection des discours de haine

Publié le 12 juillet, 2020

Le kit de préparation mis à jour 9 décembre 2022

Alex McFarland

Les entreprises de médias sociaux, en particulier Twitter, sont depuis longtemps critiquées pour la façon dont elles signalent les discours et décident quels comptes interdire. Le problème sous-jacent est presque toujours lié aux algorithmes qu'ils utilisent pour surveiller les publications en ligne. Les systèmes d'intelligence artificielle sont loin d'être parfaits lorsqu'il s'agit de cette tâche, mais des efforts sont constamment déployés pour les améliorer.

Inclus dans ce travail est un nouvelle étude sortant de l'Université de Californie du Sud qui tente de réduire certaines erreurs pouvant entraîner des préjugés raciaux.

Incapacité à reconnaître le contexte

L'un des problèmes qui ne reçoit pas autant d'attention concerne les algorithmes destinés à arrêter la propagation des discours haineux, mais qui amplifient en fait les préjugés raciaux. Cela se produit lorsque les algorithmes ne reconnaissent pas le contexte et finissent par signaler ou bloquer les tweets des groupes minoritaires.

Le plus gros problème avec les algorithmes en ce qui concerne le contexte est qu'ils sont trop sensibles à certains termes d'identification de groupe comme "noir", "gay" et "transgenre". Les algorithmes prennent en compte ces classificateurs de discours de haine, mais ils sont souvent utilisés par les membres de ces groupes et le cadre est important.

Pour tenter de résoudre ce problème de cécité contextuelle, les chercheurs ont créé un classificateur de discours de haine plus sensible au contexte. Le nouvel algorithme est moins susceptible de qualifier à tort un message de discours de haine.

L'algorithme

Les chercheurs ont développé les nouveaux algorithmes en gardant à l'esprit deux nouveaux facteurs : le contexte en ce qui concerne les identifiants de groupe et s'il existe également d'autres caractéristiques du discours de haine présentes dans le message, comme un langage déshumanisant.

Brendan Kennedy est titulaire d'un doctorat en informatique. étudiant et co-auteur principal de l'étude, qui a été publiée le 6 juillet à ACL 2020.

"Nous voulons faire en sorte que la détection des discours de haine soit plus proche d'être prête pour une application dans le monde réel", a déclaré Kennedy.

«Les modèles de détection de discours haineux« cassent »ou génèrent souvent de mauvaises prédictions lorsqu'ils sont introduits dans des données réelles, telles que les médias sociaux ou d'autres données textuelles en ligne, car ils sont biaisés par les données sur lesquelles ils sont formés pour associer l'apparence de termes d'identification sociale avec discours de haine. »

La raison pour laquelle les algorithmes sont souvent inexacts est qu'ils sont formés sur des ensembles de données déséquilibrés avec des taux extrêmement élevés de discours de haine. Pour cette raison, les algorithmes ne parviennent pas à apprendre à gérer à quoi ressemblent réellement les médias sociaux dans le monde réel.

Le professeur Xiang est un expert en traitement du langage naturel.

"Il est essentiel que les modèles n'ignorent pas les identifiants, mais les associent au bon contexte", a déclaré Ren.

"Si vous enseignez un modèle à partir d'un ensemble de données déséquilibré, le modèle commence à détecter des modèles étranges et à bloquer les utilisateurs de manière inappropriée."

Pour tester l'algorithme, les chercheurs ont utilisé un échantillon aléatoire de textes provenant de deux réseaux sociaux affichant un taux élevé de discours haineux. Le texte a d'abord été signalé manuellement par des humains comme étant préjudiciable ou déshumanisant. Le modèle de pointe a ensuite été comparé au modèle des chercheurs pour signaler de manière inappropriée les discours non haineux, en utilisant 12,500 77 articles du New York Times exempts de discours haineux. Si les modèles de pointe ont atteint une précision de 90 % pour distinguer les propos haineux des propos non haineux, le modèle des chercheurs a atteint une précision supérieure de XNUMX %.

«Ce travail en soi ne rend pas parfait la détection des discours de haine, c'est un énorme projet sur lequel beaucoup travaillent, mais il fait des progrès progressifs», a déclaré Kennedy.

«En plus d'éviter que les publications des membres de groupes protégés sur les réseaux sociaux ne soient censurées de manière inappropriée, nous espérons que notre travail contribuera à garantir que la détection des discours de haine ne cause pas de préjudice inutile en renforçant les fausses associations de préjugés et de déshumanisation avec les groupes sociaux.»

Rubriques connexes:AI l'intelligence artificielle Algorithmes d'apprentissage en profondeur d'impressions

Alex McFarland

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.

Unite.AI

Une nouvelle étude tente d'améliorer les algorithmes de détection des discours de haine

Incapacité à reconnaître le contexte

L'algorithme

Tu peux aimer