Suivez nous sur

Une nouvelle étude tente d'améliorer les algorithmes de détection des discours de haine

Intelligence Artificielle

Une nouvelle étude tente d'améliorer les algorithmes de détection des discours de haine

mm

Les entreprises de mĂ©dias sociaux, en particulier Twitter, sont depuis longtemps critiquĂ©es pour la façon dont elles signalent les discours et dĂ©cident quels comptes interdire. Le problème sous-jacent est presque toujours liĂ© aux algorithmes qu'ils utilisent pour surveiller les publications en ligne. Les systèmes d'intelligence artificielle sont loin d'ĂŞtre parfaits lorsqu'il s'agit de cette tâche, mais des efforts sont constamment dĂ©ployĂ©s pour les amĂ©liorer. 

Inclus dans ce travail est un nouvelle étude sortant de l'Université de Californie du Sud qui tente de réduire certaines erreurs pouvant entraîner des préjugés raciaux.

Incapacité à reconnaître le contexte

L'un des problèmes qui ne reçoit pas autant d'attention concerne les algorithmes destinés à arrêter la propagation des discours haineux, mais qui amplifient en fait les préjugés raciaux. Cela se produit lorsque les algorithmes ne reconnaissent pas le contexte et finissent par signaler ou bloquer les tweets des groupes minoritaires.

Le plus gros problème avec les algorithmes en ce qui concerne le contexte est qu'ils sont trop sensibles à certains termes d'identification de groupe comme "noir", "gay" et "transgenre". Les algorithmes prennent en compte ces classificateurs de discours de haine, mais ils sont souvent utilisés par les membres de ces groupes et le cadre est important.

Pour tenter de résoudre ce problème de cécité contextuelle, les chercheurs ont créé un classificateur de discours de haine plus sensible au contexte. Le nouvel algorithme est moins susceptible de qualifier à tort un message de discours de haine.

L'algorithme

Les chercheurs ont dĂ©veloppĂ© les nouveaux algorithmes en gardant Ă  l'esprit deux nouveaux facteurs : le contexte en ce qui concerne les identifiants de groupe et s'il existe Ă©galement d'autres caractĂ©ristiques du discours de haine prĂ©sentes dans le message, comme un langage dĂ©shumanisant.

Brendan Kennedy est titulaire d'un doctorat en informatique. étudiant et co-auteur principal de l'étude, qui a été publiée le 6 juillet à ACL 2020.

"Nous voulons faire en sorte que la détection des discours de haine soit plus proche d'être prête pour une application dans le monde réel", a déclaré Kennedy.

«Les modèles de détection de discours haineux« cassent »ou génèrent souvent de mauvaises prédictions lorsqu'ils sont introduits dans des données réelles, telles que les médias sociaux ou d'autres données textuelles en ligne, car ils sont biaisés par les données sur lesquelles ils sont formés pour associer l'apparence de termes d'identification sociale avec discours de haine. »

La raison pour laquelle les algorithmes sont souvent inexacts est qu'ils sont formĂ©s sur des ensembles de donnĂ©es dĂ©sĂ©quilibrĂ©s avec des taux extrĂŞmement Ă©levĂ©s de discours de haine. Pour cette raison, les algorithmes ne parviennent pas Ă  apprendre Ă  gĂ©rer Ă  quoi ressemblent rĂ©ellement les mĂ©dias sociaux dans le monde rĂ©el. 

Le professeur Xiang est un expert en traitement du langage naturel.

"Il est essentiel que les modèles n'ignorent pas les identifiants, mais les associent au bon contexte", a déclaré Ren.

"Si vous enseignez un modèle à partir d'un ensemble de données déséquilibré, le modèle commence à détecter des modèles étranges et à bloquer les utilisateurs de manière inappropriée."

Pour tester l'algorithme, les chercheurs ont utilisĂ© un Ă©chantillon alĂ©atoire de textes provenant de deux rĂ©seaux sociaux affichant un taux Ă©levĂ© de discours haineux. Le texte a d'abord Ă©tĂ© signalĂ© manuellement par des humains comme Ă©tant prĂ©judiciable ou dĂ©shumanisant. Le modèle de pointe a ensuite Ă©tĂ© comparĂ© au modèle des chercheurs pour signaler de manière inappropriĂ©e les discours non haineux, en utilisant 12,500 77 articles du New York Times exempts de discours haineux. Si les modèles de pointe ont atteint une prĂ©cision de 90 % pour distinguer les propos haineux des propos non haineux, le modèle des chercheurs a atteint une prĂ©cision supĂ©rieure de XNUMX %. 

«Ce travail en soi ne rend pas parfait la détection des discours de haine, c'est un énorme projet sur lequel beaucoup travaillent, mais il fait des progrès progressifs», a déclaré Kennedy.

«En plus d'éviter que les publications des membres de groupes protégés sur les réseaux sociaux ne soient censurées de manière inappropriée, nous espérons que notre travail contribuera à garantir que la détection des discours de haine ne cause pas de préjudice inutile en renforçant les fausses associations de préjugés et de déshumanisation avec les groupes sociaux.»

 

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.