talon Comprendre les émoticônes Twitch dans l'analyse des sentiments - Unite.AI
Suivez nous sur

Intelligence artificielle

Comprendre les émoticônes Twitch dans l'analyse des sentiments

mm
Le kit de préparation mis à jour on

Celui du public utilisation croissante des émoticônes, émoticônes, emotes, mèmes, GIF et autres moyens non verbaux de communiquer sur les plateformes de médias sociaux a, ces dernières années, de plus en plus déconcerté les efforts des scientifiques des données pour comprendre le paysage sociologique mondial ; du moins, dans la mesure où les tendances sociologiques mondiales peuvent être discernées à partir du discours public.

Bien que le traitement du langage naturel (NLP) soit devenu un outil puissant d'analyse des sentiments au cours de la dernière décennie, le secteur a du mal non seulement à suivre le rythme lexique en constante évolution d'argot et de raccourcis linguistiques dans plusieurs langues, mais aussi en essayant de décoder le sens de basé sur l'image publications sur des plateformes de médias sociaux telles que Facebook et Twitter.

Depuis l' nombre limité des plates-formes de médias sociaux très peuplées sont la seule ressource véritablement à grande échelle pour ce type de recherche, il est essentiel que le secteur de l'IA tente au moins de suivre le rythme.

En juillet, un journal de Taïwan proposait une nouvelle méthode pour catégoriser le sentiment des utilisateurs en fonction des « GIF de réaction » publiés sur les fils de médias sociaux (voir l'image ci-dessous), en utilisant une base de données de 30,000 XNUMX tweets pour développer un moyen de prédire les réactions à une publication. L'article a révélé que les réponses basées sur des images sont à bien des égards plus faciles à évaluer, car elles sont moins susceptibles de contenir du sarcasme, un défi notable dans l'analyse des sentiments.

Des chercheurs de Taïwan ont étudié l'utilisation de GIF de réaction animés comme «indicateurs réducteurs» du sentiment dans un article de 2021.

Plus tôt cette année, un effort de recherche mené par l'Université de Boston modèles d'apprentissage automatique entraînés pour prédire les mèmes d'images susceptibles de devenir viraux sur Twitter ; et en août, des chercheurs britanniques ont examiné la croissance des emojis par rapport aux émoticônes (il y a un différence) sur les réseaux sociaux, compilant un ensemble de données à grande échelle en 7 langues sur les sentiments pictographiques de Twitter.

Émotes Twitch

Aujourd’hui, des chercheurs américains ont développé une méthodologie d’apprentissage automatique pour mieux comprendre, catégoriser et mesurer le pseudo-lexique en constante évolution de émoticônes sur le très populaire réseau Twitch.

Les emotes sont des néologismes utilisés sur Twitch pour exprimer une émotion, une humeur ou des blagues. Puisqu'il s'agit par définition de nouvelles expressions, le défi pour un système d'apprentissage automatique n'est pas nécessairement de cataloguer à l'infini de nouvelles emotes (qui peuvent ne servir qu'une seule fois, ou bien tomber rapidement en désuétude), mais de mieux comprendre le cadre qui les génère sans cesse ; et de développer des systèmes capables de reconnaître une emote comme un mot ou une phrase composée "temporairement valide" dont la température émotionnelle/politique peut devoir être mesurée entièrement à partir du contexte.

Voisins de l'émote "FeelsGoodMan", dont la signification peut être modifiée par des suffixes obscurs. Source : https://arxiv.org/pdf/2108.08411.pdf

Voisins de l'émote "FeelsGoodMan", dont la signification peut être modifiée par des suffixes obscurs. Source : https://arxiv.org/pdf/2108.08411.pdf

Les papier est intitulé FeelsGoodMan : déduire la sémantique des néologismes Twitch, et vient de trois chercheurs de Spiketrap, une société d'analyse des médias sociaux à San Francisco.

Appât et commutateur

Malgré leur nouveauté et leurs vies souvent brèves, les émoticônes Twitch recyclent fréquemment le matériel culturel (y compris les émoticônes plus anciennes) d'une manière qui peut orienter les cadres d'analyse des sentiments dans la mauvaise direction. Retracer le changement de sens d'une emote au fur et à mesure de son évolution peut même révéler une inversion ou une négation complète de son sentiment ou de son intention d'origine.

Par exemple, les chercheurs notent que l'alt-right original une mauvaise utilisation de l'éponyme Se sentBienHomme Le mème Pepe-the-frog a presque complètement perdu sa saveur politique d'origine dans le contexte de son utilisation sur Twitch.

L'utilisation de la phrase, ainsi que l'image d'une grenouille dessinée d'une bande dessinée de 2005 de l'artiste Matt Furie, est devenu un mème d'extrême droite dans les années 2010. Bien que Vox écrit en 2017 que l'appropriation du mème par la droite avait survécu à l'aveu de Furie dissociation avec une telle utilisation, les chercheurs de San Francisco à l'origine du nouveau document ont découvert le contraire* :

« La grenouille dessinée de Furie a été adoptée par des affiches de droite sur divers forums en ligne comme 4chan au début des années 2010. Depuis lors, Furie a fait campagne pour récupérer le sens de son personnage, et l'emote a connu une recrudescence de plus en plus grand public. utilisation non haineuse et une utilisation positive sur Twitch. Nos résultats sur Twitch concordent, montrant que "FeelsGoodMan" et son homologue "FeelsBadMan" sont principalement utilisés littéralement.'

Problème en aval

Ce genre de « appâts et interrupteurs » concernant les « caractéristiques » généralisées d'un mème peut entraver les projets de recherche en PNL qui l'ont déjà classé comme « haineux », « de droite » ou « nationaliste [États-Unis] », et qui ont rejeté cette information dans des référentiels open source à long terme. Les projets NLP ultérieurs peuvent ne pas choisir d'auditer l'actualité des données plus anciennes ; peut ne pas avoir de mécanisme pratique pour le faire ; et peut même ne pas être conscient du besoin.

Le résultat de ceci est que l'utilisation d'ensembles de données basés sur Twitch 2017 pour formuler un algorithme de « catégorisation politique » attribuerait une activité alt-right notable sur Twitch, en fonction de la fréquence de la Se sentBienHomme emote. Twitch peut être ou ne pas être plein d'influenceurs alt-right, mais, selon les chercheurs du nouveau document, vous ne pouvez pas le prouver par la grenouille.

La signification politique du mème « Pepe » semble avoir été ignorée par les 140 millions d'utilisateurs de Twitch (dont 41 % ont moins de 24 ans), qui ont effectivement re-volé l'œuvre aux voleurs d'origine et l'ont peinte à leurs propres couleurs, sans intention particulière.

Méthode et données

Les chercheurs ont découvert que les données d'émoticônes Twitch étiquetées étaient "pratiquement inexistantes", malgré la conclusion d'un étude antérieure qu'il y a huit millions d'emotes au total, et 400,000 XNUMX étaient présents au cours de la seule semaine de sortie de Twitch au cours de la semaine choisie par ces premiers chercheurs.

A étude de 2017 l'adressage de la prédiction des emotes sur Twitch s'est limité à prédire uniquement les 30 meilleurs emotes Twitch, obtenant seulement 0.39 pour la prédiction des emotes.

Pour combler le manque à gagner, les chercheurs de San Francisco ont adopté une nouvelle approche des données plus anciennes, en les divisant à 80/20 entre la formation et les tests, et en appliquant des méthodes d'apprentissage automatique "traditionnelles", qui n'avaient pas été utilisées auparavant pour étudier les données de Twitch. Ces méthodes comprenaient Naïf Bayes (N.-B.), Forêt aléatoire (FR), Soutenir la machine vectorielle (SVM, avec noyaux linéaires), et Régression logistique.

Cette approche a surpassé de 63.8 % les précédentes lignes de base de sentiment Twitch et a permis aux chercheurs de développer par la suite le cadre LOOVE (Learning Out Of Vocabulary Emotions), qui est capable d'identifier les néologismes et « d'enrichir » les modèles existants avec ces nouvelles définitions.

Architecture du framework LOOVE (Learning Out Of Vocabulary Emotions) développé par les chercheurs.

Architecture du framework LOOVE (Learning Out Of Vocabulary Emotions) développé par les chercheurs.

LOOVE facilite la formation non supervisée des incorporations de mots et permet également un recyclage et un ajustement périodiques, évitant ainsi le besoin d'ensembles de données étiquetés, ce qui serait logistiquement peu pratique, compte tenu de l'ampleur de la tâche et de l'évolution rapide des emotes.

Au service du projet, les chercheurs qualifié une emote "Pseudo-Dictionnaire" sur un ensemble de données Twitch sans étiquette, générant ainsi 444,714 XNUMX intégrations de mots, emotes, emojis et émoticônes.

De plus, ils ont augmenté un Lexique VADER peut comprendre un atténuateur. lexique des emoji/émoticônes, et en plus de l'ensemble de données CE susmentionné, a également exploité trois autres ensembles de données accessibles au public pour ternaire classification des sentiments, de Twitter, Rotten Tomatoes et un échantillon de données YELP.

Compte tenu de la grande variété de méthodologies et d'ensembles de données utilisés dans l'étude, les résultats sont variés, mais les chercheurs affirment que leur meilleure référence a surpassé la mesure précédente la plus proche de 7.36 points de pourcentage.

Les chercheurs considèrent que la valeur continue du projet est le développement de LOOVE, basé sur des intégrations mot-à-vecteur (W2V) formées sur plus de 313 millions de messages de chat Twitch avec l'aide de Voisin le plus proche K (KNN).

Les auteurs concluent:

'Une caractéristique de conduite derrière le cadre est un pseudo-dictionnaire d'émoticônes qui peut être utilisé pour dériver un sentiment pour des émoticônes inconnues. À l'aide de ce pseudo-dictionnaire d'emotes, nous avons créé un tableau des sentiments pour 22,507 XNUMX emotes. C'est le premier cas de compréhension émotionnelle à cette échelle.

 

* Ma conversion des citations en ligne en hyperliens.