Connect with us

Intelligence artificielle

Comprendre les émotes Twitch dans l’analyse des sentiments

mm

L’utilisation croissante par le public d’émoticônes, d’émotes, de mèmes, de GIF et d’autres moyens non verbaux de communication sur les plateformes de médias sociaux a, ces dernières années, de plus en plus déconcerté les efforts des data scientists pour comprendre le paysage sociologique mondial ; du moins, dans la mesure où les tendances sociologiques mondiales peuvent être discernées à partir du discours public.

Bien que le traitement automatique des langues (NLP) soit devenu un outil puissant dans l’analyse des sentiments au cours de la dernière décennie, le secteur a du mal non seulement à suivre un lexique en constante évolution de l’argot et des raccourcis linguistiques dans plusieurs langues, mais également à tenter de décoder le sens des pubs basées sur des images sur les plateformes de médias sociaux telles que Facebook et Twitter.

Puisque le nombre limité de plateformes de médias sociaux très populaires sont la seule véritable ressource hyperscale pour ce type de recherche, il est essentiel pour le secteur de l’IA d’essayer au moins de maintenir le rythme.

En juillet, un article de Taïwan a proposé une nouvelle méthode pour catégoriser les sentiments des utilisateurs en fonction des ‘GIF de réaction’ publiés sur les fils de discussion des médias sociaux (voir image ci-dessous), en utilisant une base de données de 30 000 tweets pour développer un moyen de prédire les réactions à une publication. L’article a constaté que les réponses basées sur des images sont souvent plus faciles à évaluer, car elles sont moins susceptibles de contenir du sarcasme, un défi notable dans l’analyse des sentiments.

Les chercheurs de Taïwan ont étudié l’utilisation de GIF de réaction animés en tant qu’indicateurs réducteurs de sentiment dans un article de 2021.

Plus tôt cette année, un effort de recherche dirigé par l’Université de Boston a formé des modèles d’apprentissage automatique pour prédire les mèmes d’images susceptibles de devenir viraux sur Twitter ; et en août, des chercheurs britanniques ont examiné la croissance des émoticônes par rapport aux émoticônes (il y a une différence) sur les médias sociaux, en compilant un grand ensemble de données de 7 langues de sentiment Twitter pictographique.

Émotes Twitch

Maintenant, des chercheurs américains ont développé une méthodologie d’apprentissage automatique pour mieux comprendre, catégoriser et mesurer le pseudo-lexique en constante évolution des émotes sur le réseau Twitch très populaire.

Les émotes sont des néologismes utilisés sur Twitch pour exprimer une émotion, un humeur ou des blagues internes. Puisqu’ils sont par définition de nouvelles expressions, le défi pour un système d’apprentissage automatique n’est pas nécessairement de cataloguer sans cesse de nouveaux émotes (qui peuvent n’être utilisés qu’une seule fois, ou tomber rapidement en désuétude), mais de mieux comprendre le cadre qui les génère en permanence ; et de développer des systèmes capables de reconnaître un émote comme un mot ou une phrase composée ‘temporairement valide’ dont la température émotionnelle/politique peut nécessiter d’être évaluée entièrement dans le contexte.

Voisins de l'émote 'FeelsGoodMan', dont le sens peut être modifié par des suffixes obscurs. Source : https://arxiv.org/pdf/2108.08411.pdf

Voisins de l’émote ‘FeelsGoodMan’, dont le sens peut être modifié par des suffixes obscurs. Source : https://arxiv.org/pdf/2108.08411.pdf

L’article s’intitule FeelsGoodMan : Inférer la sémantique des néologismes Twitch, et provient de trois chercheurs de Spiketrap, une société d’analyse des médias sociaux à San Francisco.

Bait and Switch

Malgré leur nouveauté et leur vie souvent brève, les émotes Twitch recyclent fréquemment du matériel culturel (y compris les anciens émotes) d’une manière qui peut détourner les cadres d’analyse des sentiments dans la mauvaise direction. Traçer le déplacement du sens d’un émote à mesure qu’il évolue peut même révéler une inversion ou une négation complète de son sentiment ou de son intention d’origine.

Par exemple, les chercheurs notent que l’utilisation originale de l’émote FeelsGoodMan par l’extrême droite a presque complètement perdu son saveur politique d’origine dans le contexte de son utilisation sur Twitch.

L’utilisation de la phrase, avec une image d’un grenouille dessin animé de 2005 par l’artiste Matt Furie, est devenue un mème d’extrême droite dans les années 2010. Bien que Vox ait écrit en 2017 que l’appropriation du mème par la droite avait survécu à la dissociation de Furie avec une telle utilisation, les chercheurs de San Francisco derrière la nouvelle étude ont constaté le contraire* :

‘Le grenouille en bande dessinée de Furie a été adopté par les affichistes de droite sur divers forums en ligne comme 4chan au début des années 2010. Depuis, Furie a fait campagne pour reprendre le sens de son personnage, et l’émote a connu un regain d’utilisation plus mainstream non haineuse et positive sur Twitch. Nos résultats sur Twitch sont conformes, montrant que “FeelsGoodMan” et son contrepartie “FeelsBadMan” sont principalement utilisés de manière littérale.’

Trouble Downstream

Ce type de ‘bait and switch’ concernant les ‘caractéristiques’ généralisées d’un mème peut entraver les projets de recherche en NLP qui l’ont déjà catégorisé comme ‘haineux’, ‘d’extrême droite’ ou ‘nationaliste [US]’, et qui ont versé ces informations dans des référentiels open source à long terme. Les projets NLP ultérieurs peuvent ne pas choisir de vérifier la validité des anciennes données ; peuvent ne pas avoir de mécanisme pratique pour le faire ; et peuvent ne pas même être conscients de la nécessité.

La conséquence de cela est que l’utilisation de jeux de données Twitch de 2017 pour formuler un algorithme de ‘catégorisation politique’ attribuerait une activité d’extrême droite notable sur Twitch, en fonction de la fréquence de l’émote FeelsGoodMan. Twitch peut ou non être rempli d’influenceurs d’extrême droite, mais, selon les chercheurs de la nouvelle étude, vous ne pouvez pas le prouver avec le grenouille.

La signification politique du mème ‘Pepe’ semble avoir été délibérément rejetée par les 140 millions d’utilisateurs de Twitch (41 % d’entre eux ont moins de 24 ans), qui ont effectivement repris l’œuvre des voleurs d’origine et l’ont peinte avec leurs propres couleurs, sans aucun agenda particulier.

Méthode et données

Les chercheurs ont constaté que les données d’émotes Twitch étiquetées étaient ‘virtuellement inexistantes’, malgré la conclusion d’une étude antérieure qu’il y a huit millions d’émotes au total, et 400 000 étaient présents dans la seule semaine de sortie de Twitch choisie par ces chercheurs antérieurs.

Une étude de 2017 portant sur la prédiction d’émotes sur Twitch s’est limitée à prédire les 30 premiers émotes Twitch, avec un score de 0,39 pour la prédiction d’émotes.

Pour répondre à ce manque, les chercheurs de San Francisco ont adopté une nouvelle approche des anciennes données, en les divisant 80/20 entre formation et test, et en appliquant des méthodes d’apprentissage automatique ‘traditionnelles’, qui n’avaient pas été utilisées auparavant pour étudier les données Twitch. Ces méthodes comprenaient Naive Bayes (NB), Random Forest (RF), Support Vector Machine (SVM, avec des noyaux linéaires), et Régression logistique.

Cette approche a surpassé les anciennes références de sentiment Twitch par 63,8 %, et a permis aux chercheurs de développer par la suite le cadre LOOVE (Learning Out Of Vocabulary Emotions), qui peut identifier les néologismes et ‘enrichir’ les modèles existants avec ces nouvelles définitions.

Architecture du cadre LOOVE (Learning Out Of Vocabulary Emotions) développé par les chercheurs.

Architecture du cadre LOOVE (Learning Out Of Vocabulary Emotions) développé par les chercheurs.

LOOVE facilite la formation non supervisée d’incrustations de mots, et permet également une rééducation et un affinement périodiques, ce qui élimine le besoin de jeux de données étiquetés, qui seraient logistiquement impraticables, compte tenu de l’ampleur de la tâche et de l’évolution rapide des émotes.

Dans le cadre du projet, les chercheurs ont formé un ‘Pseudo-Dictionnaire’ d’émotes sur un jeu de données non étiqueté Twitch, en générant 444 714 incrustations de mots, d’émotes, d’émoticônes et d’émoticônes.

De plus, ils ont augmenté un lexique VADER avec un lexique d’émoticônes/émoticônes, et en plus du jeu de données EC mentionné, ils ont également exploité trois autres jeux de données publics pour la classification de sentiment ternaire, de Twitter, Rotten Tomatoes et un jeu de données YELP échantillonné.

Étant donné la grande variété de méthodes et de jeux de données utilisés dans l’étude, les résultats sont variés, mais les chercheurs affirment que leur meilleure référence a surpassé la référence antérieure la plus proche de 7,36 points de pourcentage.

Les chercheurs considèrent que la valeur continue du projet est le développement de LOOVE, basé sur des incrustations de mots-à-vec (W2V) formées sur plus de 313 millions de messages de chat Twitch avec l’aide de K-Nearest Neighbor (KNN).

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.