Connect with us

Intelligence artificielle

Nouvelle étude tente d’améliorer les algorithmes de détection de discours de haine

mm

Les entreprises de médias sociaux, en particulier Twitter, font face à des critiques pour la façon dont elles signalent les discours et décident des comptes à interdire. Le problème sous-jacent a presque toujours à voir avec les algorithmes qu’ils utilisent pour surveiller les publications en ligne. Les systèmes d’intelligence artificielle sont loin d’être parfaits lorsqu’il s’agit de cette tâche, mais il y a un travail constant pour les améliorer.

Ceci inclut une nouvelle étude de l’Université de Californie du Sud qui tente de réduire certaines erreurs qui pourraient entraîner des préjugés raciaux.

Échec de la reconnaissance du contexte

L’un des problèmes qui ne reçoit pas suffisamment d’attention a trait aux algorithmes destinés à stopper la propagation des discours de haine mais qui amplifient en réalité les préjugés raciaux. Cela se produit lorsque les algorithmes ne parviennent pas à reconnaître le contexte et finissent par signaler ou bloquer les tweets de groupes minoritaires.

Le plus grand problème avec les algorithmes en ce qui concerne le contexte est qu’ils sont trop sensibles à certains termes d’identification de groupe comme « noir », « gay » et « transgenre ». Les algorithmes considèrent ces classificateurs de discours de haine, mais ils sont souvent utilisés par les membres de ces groupes et le contexte est important.

Dans le but de résoudre ce problème d’aveuglement contextuel, les chercheurs ont créé un classificateur de discours de haine plus sensible au contexte. Le nouvel algorithme est moins susceptible de mal étiqueter un message comme discours de haine.

L’algorithme

Les chercheurs ont développé les nouveaux algorithmes en tenant compte de deux nouveaux facteurs : le contexte en ce qui concerne les identificateurs de groupe, et si d’autres caractéristiques de discours de haine sont présentes dans le message, comme le langage déshumanisant.

Brendan Kennedy est un étudiant en doctorat en informatique et co-auteur principal de l’étude, qui a été publiée le 6 juillet à l’ACL 2020.

« Nous voulons rapprocher la détection de discours de haine de l’application dans le monde réel », a déclaré Kennedy.

« Les modèles de détection de discours de haine « cassent » souvent, ou génèrent de mauvaises prédictions, lorsqu’ils sont introduits dans des données du monde réel, telles que les médias sociaux ou d’autres données de texte en ligne, car ils sont biaisés par les données sur lesquelles ils sont formés pour associer l’apparition de termes d’identification sociale à des discours de haine. »

La raison pour laquelle les algorithmes sont souvent inexacts est qu’ils sont formés sur des ensembles de données déséquilibrés avec des taux extrêmement élevés de discours de haine. En raison de cela, les algorithmes ne parviennent pas à apprendre à gérer ce à quoi ressemblent réellement les médias sociaux dans le monde réel.

Le professeur Xiang est un expert en traitement automatique des langues.

« Il est essentiel que les modèles ne ignorent pas les identificateurs, mais les fassent correspondre au bon contexte », a déclaré Ren.

« Si vous enseignez un modèle à partir d’un ensemble de données déséquilibré, le modèle commence à repérer des modèles étranges et à bloquer les utilisateurs de manière inappropriée. »

Pour tester l’algorithme, les chercheurs ont utilisé un échantillon aléatoire de texte de deux sites de médias sociaux qui ont un taux élevé de discours de haine. Le texte a été préalablement signalé par des humains comme préjudiciable ou déshumanisant. Le modèle de pointe a ensuite été mesuré contre le modèle des chercheurs pour un signal incorrect de discours non haineux, en utilisant 12 500 articles du New York Times sans discours de haine. Alors que les modèles de pointe étaient capables d’atteindre 77 % de précision dans l’identification de la haine par rapport à la non-haine, le modèle des chercheurs était plus élevé à 90 %.

« Ce travail en lui-même ne rend pas la détection de discours de haine parfaite, c’est un projet énorme sur lequel beaucoup travaillent, mais il fait des progrès incrémentiels », a déclaré Kennedy.

« En plus de prévenir la censure inappropriée des publications sur les médias sociaux par les membres de groupes protégés, nous espérons que notre travail contribuera à garantir que la détection de discours de haine ne cause pas de préjudice inutile en renforçant des associations fallacieuses de préjugés et de déshumanisation avec des groupes sociaux. »

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.