Suivez nous sur

Comprendre les émoticônes Twitch dans l'analyse des sentiments

Intelligence Artificielle

Comprendre les émoticônes Twitch dans l'analyse des sentiments

mm

Le public utilisation croissante des Ă©moticĂ´nes, Ă©moticĂ´nes, emotes, mèmes, GIF et autres moyens non verbaux de communiquer sur les plateformes de mĂ©dias sociaux a, ces dernières annĂ©es, de plus en plus dĂ©concertĂ© les efforts des scientifiques des donnĂ©es pour comprendre le paysage sociologique mondial ; du moins, dans la mesure oĂą les tendances sociologiques mondiales peuvent ĂŞtre discernĂ©es Ă  partir du discours public.

Bien que le traitement du langage naturel (NLP) soit devenu un outil puissant d'analyse des sentiments au cours de la dernière décennie, le secteur a du mal non seulement à suivre le rythme lexique en constante évolution d'argot et de raccourcis linguistiques dans plusieurs langues, mais aussi en essayant de décoder le sens de basé sur l'image publications sur des plateformes de médias sociaux telles que Facebook et Twitter.

Depuis l' nombre limité Étant donné que les plateformes de médias sociaux très peuplées sont la seule ressource véritablement à grande échelle pour ce type de recherche, il est essentiel que le secteur de l'IA tente au moins de suivre le rythme.

En juillet, un journal de TaĂŻwan proposait une nouvelle mĂ©thode catĂ©goriser le sentiment des utilisateurs en fonction des « GIF de rĂ©action Â» publiĂ©s sur les rĂ©seaux sociaux (voir image ci-dessous), en utilisant une base de donnĂ©es de 30,000 XNUMX tweets pour dĂ©velopper un moyen de prĂ©dire les rĂ©actions Ă  une publication. L'Ă©tude a rĂ©vĂ©lĂ© que les rĂ©ponses basĂ©es sur des images sont, Ă  bien des Ă©gards, plus faciles Ă  Ă©valuer, car elles sont moins susceptibles de contenir du sarcasme. dĂ©fi notable dans l'analyse des sentiments.

Des chercheurs de Taïwan ont étudié l'utilisation de GIF de réaction animés comme « indicateurs réducteurs » de sentiment dans un article de 2021.

Plus tôt cette année, un effort de recherche mené par l'Université de Boston modèles d'apprentissage automatique entraînés pour prédire les mèmes d'images susceptibles de devenir viraux sur Twitter ; et en août, des chercheurs britanniques ont examiné la croissance des emojis par rapport aux émoticônes (il y a un différence) sur les réseaux sociaux, compilant un ensemble de données à grande échelle en 7 langues sur les sentiments pictographiques de Twitter.

Émotes Twitch

Aujourd’hui, des chercheurs américains ont développé une méthodologie d’apprentissage automatique pour mieux comprendre, catégoriser et mesurer le pseudo-lexique en constante évolution de émoticônes sur le très populaire réseau Twitch.

Les Ă©moticĂ´nes sont des nĂ©ologismes utilisĂ©s sur Twitch pour exprimer une Ă©motion, une humeur ou des blagues. Puisqu'il s'agit par dĂ©finition d'expressions nouvelles, le dĂ©fi pour un système d'apprentissage automatique n'est pas nĂ©cessairement de cataloguer sans cesse de nouvelles Ă©moticĂ´nes (qui peuvent n'ĂŞtre utilisĂ©es qu'une seule fois, ou tomber rapidement en dĂ©suĂ©tude), mais de mieux comprendre le cadre qui les gĂ©nère sans cesse ; et de dĂ©velopper des systèmes capables de reconnaĂ®tre une Ă©moticĂ´ne comme un mot ou une expression composĂ©e « temporairement valide Â» dont la charge Ă©motionnelle/politique peut nĂ©cessiter d'ĂŞtre Ă©valuĂ©e entièrement Ă  partir du contexte.

Voisins de l'émote "FeelsGoodMan", dont la signification peut être modifiée par des suffixes obscurs. Source : https://arxiv.org/pdf/2108.08411.pdf

Voisins de l'émote « FeelsGoodMan », dont la signification peut être modifiée par des suffixes obscurs. Source : https://arxiv.org/pdf/2108.08411.pdf

Construction papier est intitulĂ© FeelsGoodMan : dĂ©duire la sĂ©mantique des nĂ©ologismes Twitch, et vient de trois chercheurs de Spiketrap, une sociĂ©tĂ© d'analyse des mĂ©dias sociaux Ă  San Francisco.

Appât et commutateur

Malgré leur nouveauté et leurs vies souvent brèves, les émoticônes Twitch recyclent fréquemment le matériel culturel (y compris les émoticônes plus anciennes) d'une manière qui peut orienter les cadres d'analyse des sentiments dans la mauvaise direction. Retracer le changement de sens d'une emote au fur et à mesure de son évolution peut même révéler une inversion ou une négation complète de son sentiment ou de son intention d'origine.

Par exemple, les chercheurs notent que l'alt-right original une mauvaise utilisation de l'éponyme Se sentBienHomme Le mème Pepe-the-frog a presque complètement perdu sa saveur politique d'origine dans le contexte de son utilisation sur Twitch.

L'utilisation de la phrase, ainsi que l'image d'une grenouille dessinĂ©e d'une bande dessinĂ©e de 2005 de l'artiste Matt Furie, est devenu un mème d'extrĂŞme droite dans les annĂ©es 2010. Bien que Vox Ă©crit en 2017, que l'appropriation du mème par la droite avait survĂ©cu Ă  l'auto-affirmation de Furie dissociation avec une telle utilisation, les chercheurs de San Francisco Ă  l'origine du nouveau document ont dĂ©couvert le contraire* :

« La grenouille dessinée de Furie a été adoptée par des affiches de droite sur divers forums en ligne comme 4chan au début des années 2010. Depuis lors, Furie a fait campagne pour récupérer le sens de son personnage, et l'emote a connu une recrudescence de plus en plus grand public. utilisation non haineuse et une utilisation positive sur Twitch. Nos résultats sur Twitch concordent, montrant que « FeelsGoodMan » et son homologue « FeelsBadMan » sont principalement utilisés au sens littéral.

Problème en aval

Ce type de leurre concernant les caractĂ©ristiques gĂ©nĂ©rales d'un mème peut entraver les projets de recherche en PNL qui l'ont dĂ©jĂ  classĂ© comme « haineux », « d'extrĂŞme droite » ou « nationaliste [amĂ©ricain] », et qui ont stockĂ© ces informations dans des rĂ©fĂ©rentiels open source de longue date. Les projets de PNL ultĂ©rieurs pourraient ne pas choisir de vĂ©rifier l'actualitĂ© des donnĂ©es plus anciennes ; pourraient ne pas disposer de mĂ©canisme pratique pour le faire ; et pourraient mĂŞme ne pas en ĂŞtre conscients.

Le résultat de ceci est que l'utilisation d'ensembles de données basés sur Twitch 2017 pour formuler un algorithme de « catégorisation politique » attribuerait une activité alt-right notable sur Twitch, en fonction de la fréquence de la Se sentBienHomme emote. Twitch peut être ou ne pas être plein d'influenceurs alt-right, mais, selon les chercheurs du nouveau document, vous ne pouvez pas le prouver par la grenouille.

La signification politique du mème « Pepe » semble avoir été négligemment écartée par les 140 millions d'utilisateurs de Twitch (dont 41 % ont moins de 24 ans), qui ont effectivement re-volé l'œuvre aux voleurs d'origine et l'ont peinte à leurs propres couleurs, sans intention particulière.

Méthode et données

Les chercheurs ont découvert que les données d'émoticônes Twitch étiquetées étaient « pratiquement inexistantes », malgré la conclusion d'une étude antérieure qu'il y a huit millions d'emotes au total, et 400,000 XNUMX étaient présents au cours de la seule semaine de sortie de Twitch au cours de la semaine choisie par ces premiers chercheurs.

A étude de 2017 l'adressage de la prédiction des emotes sur Twitch s'est limité à prédire uniquement les 30 meilleurs emotes Twitch, obtenant seulement 0.39 pour la prédiction des emotes.

Pour pallier ce manque, les chercheurs de San Francisco ont adoptĂ© une nouvelle approche des donnĂ©es plus anciennes, en les rĂ©partissant Ă  80/20 entre entraĂ®nement et tests, et en appliquant des mĂ©thodes d'apprentissage automatique « traditionnelles Â», jamais utilisĂ©es auparavant pour Ă©tudier les donnĂ©es Twitch. Ces mĂ©thodes comprenaient : NaĂŻf Bayes (N.-B.), ForĂŞt alĂ©atoire (FR), Soutenir la machine vectorielle (SVM, avec noyaux linĂ©aires), et RĂ©gression logistique.

Cette approche a surpassé les précédentes références de sentiment de Twitch de 63.8 % et a permis aux chercheurs de développer ultérieurement le cadre LOOVE (Learning Out Of Vocabulary Emotions), capable d'identifier les néologismes et d'« enrichir » les modèles existants avec ces nouvelles définitions.

Architecture du framework LOOVE (Learning Out Of Vocabulary Emotions) développé par les chercheurs.

Architecture du framework LOOVE (Learning Out Of Vocabulary Emotions) développé par les chercheurs.

LOOVE facilite la formation non supervisée des incorporations de mots et permet également un recyclage et un ajustement périodiques, évitant ainsi le besoin d'ensembles de données étiquetés, ce qui serait logistiquement peu pratique, compte tenu de l'ampleur de la tâche et de l'évolution rapide des emotes.

Au service du projet, les chercheurs qualifiĂ© un « pseudo-dictionnaire » d'Ă©moticĂ´nes sur un ensemble de donnĂ©es Twitch non Ă©tiquetĂ©, gĂ©nĂ©rant au passage 444,714 XNUMX intĂ©grations de mots, d'Ă©moticĂ´nes, d'Ă©mojis et d'Ă©moticĂ´nes.

De plus, ils ont augmenté un Lexique VADER avec un lexique des emoji/émoticônes, et en plus de l'ensemble de données CE susmentionné, a également exploité trois autres ensembles de données accessibles au public pour ternaire classification des sentiments, de Twitter, Rotten Tomatoes et un échantillon de données YELP.

Compte tenu de la grande variété de méthodologies et d'ensembles de données utilisés dans l'étude, les résultats sont variés, mais les chercheurs affirment que leur meilleure référence a surpassé la mesure précédente la plus proche de 7.36 points de pourcentage.

Les chercheurs considèrent que la valeur continue du projet est le développement de LOOVE, basé sur des intégrations mot-à-vecteur (W2V) formées sur plus de 313 millions de messages de chat Twitch avec l'aide de Voisin le plus proche K (KNN).

Les auteurs concluent:

L'une des fonctionnalitĂ©s clĂ©s du framework est un pseudo-dictionnaire d'Ă©moticĂ´nes permettant de dĂ©duire les sentiments d'Ă©moticĂ´nes inconnues. Grâce Ă  ce pseudo-dictionnaire, nous avons créé une table de sentiments pour 22,507 XNUMX Ă©moticĂ´nes. Il s'agit du premier cas de comprĂ©hension d'Ă©moticĂ´nes Ă  cette Ă©chelle.

 

* Ma conversion des citations en ligne en hyperliens.

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai