Intel·ligència Artificial

Comprendre els emotes de Twitch en l'anàlisi de sentiments

actualitzat on Desembre 9, 2022

La del públic ús creixent d'emojis, emoticones, emotes, memes, GIF i altres maneres no verbals de comunicar-se a les plataformes de xarxes socials ha confós, en els últims anys, els esforços dels científics de dades per entendre el panorama sociològic global; almenys, en la mesura que les tendències sociològiques mundials es puguin distingir des del discurs públic.

Tot i que el processament del llenguatge natural (PNL) s'ha convertit en una eina poderosa en l'anàlisi de sentiments durant l'última dècada, el sector té dificultats no només per mantenir-se al dia amb un lèxic en constant evolució d'argot i dreceres lingüístiques en diversos idiomes, però també per intentar descodificar el significat de basat en imatges publicacions a les plataformes de xarxes socials com Facebook i Twitter.

Ja que el nombre limitat de les plataformes de xarxes socials molt poblades són l'únic recurs realment a gran escala per a aquest tipus d'investigació, és essencial que el sector de la IA, almenys, intenti mantenir-hi el ritme.

Al juliol, un document de Taiwan va oferir un nou mètode per categoritzar el sentiment de l'usuari en funció dels "GIF de reaccions" publicats als fils de xarxes socials (vegeu la imatge a continuació), utilitzant una base de dades de 30,000 tuits per desenvolupar una manera de predir les reaccions a una publicació. El document va trobar que les respostes basades en imatges són en molts aspectes més fàcils de mesurar, ja que és menys probable que continguin sarcasme, un repte notable en l'anàlisi del sentiment.

Investigadors de Taiwan van estudiar l'ús de GIF de reaccions animades com a "indicadors reductors" del sentiment en un article del 2021.

A principis d'any, un esforç de recerca liderat per la Universitat de Boston models d'aprenentatge automàtic entrenats predir mems d'imatge que probablement es tornin virals a Twitter; i a l'agost, investigadors britànics van examinar el creixement dels emojis en comparació amb les emoticones (hi ha un diferència) a les xarxes socials, recopilant un conjunt de dades a gran escala en 7 idiomes del sentiment pictogràfic de Twitter.

Emotes de Twitch

Ara, els investigadors nord-americans han desenvolupat una metodologia d'aprenentatge automàtic per entendre, categoritzar i mesurar millor el pseudolèxic en constant evolució de Emotes a la popular xarxa Twitch.

Els emotes són neologismes utilitzats a Twitch per expressar emoció, estat d'ànim o bromes. Com que són, per definició, noves expressions, el repte d'un sistema d'aprenentatge automàtic no és necessàriament catalogar sense parar nous emotes (que només es poden utilitzar una vegada, o que es deixen d'utilitzar ràpidament), sinó obtenir una millor comprensió del marc que els genera sense parar; i desenvolupar sistemes capaços de reconèixer un emote com una paraula "temporalment vàlida" o frase composta la temperatura emocional/política de la qual pot haver de ser mesurada completament des del context.

Veïns de l'emot "FeelsGoodMan", el significat del qual pot ser alterat per sufixos obscurs. Font: https://arxiv.org/pdf/2108.08411.pdf

El paper es titula FeelsGoodMan: inferir la semàntica dels neologismes de Twitch, i prové de tres investigadors de Spiketrap, una empresa d'anàlisi de xarxes socials de San Francisco.

Escar i canviar

Malgrat la seva novetat i les seves vides sovint breus, els emotes de Twitch sovint reciclen material cultural (inclosos els emotes més antics) d'una manera que pot dirigir els marcs d'anàlisi de sentiments en la direcció equivocada. El seguiment del canvi en el significat d'un emote a mesura que evoluciona pot revelar fins i tot una inversió o negació completa del seu sentiment o intenció original.

Per exemple, els investigadors assenyalen que l'alt-dreta original mal ús de l'homònim FeelsGoodHome El meme Pepe-the-frog ha perdut gairebé completament el seu sabor polític original en el context del seu ús a Twitch.

L'ús de la frase, juntament amb una imatge d'una granota de dibuixos animats d'un còmic de 2005 de l'artista Matt Furie, es va convertir en un meme d'extrema dreta als anys 2010. Encara que Vox escriure el 2017 que l'apropiació del meme per part de la dreta havia sobreviscut a l'autoconfirmació de Furie desassociació amb aquest ús, els investigadors de San Francisco darrere del nou article han trobat el contrari*:

"La granota de dibuixos animats de Furie va ser adoptada pels pòsters de la dreta en diversos fòrums en línia com 4chan a principis dels anys 2010. Des d'aleshores, Furie ha fet campanya per recuperar el significat del seu personatge, i l'emotisme ha vist un auge en més mainstream no ús de l'odi i ús positiu a Twitch. Els nostres resultats a Twitch coincideixen, demostrant que "FeelsGoodMan" i el seu homòleg "FeelsBadMan" s'utilitzen principalment literalment.'

Problemes aigües avall

Aquest tipus d'"esquer i canvi" pel que fa a les "característiques" generalitzades d'un meme pot impedir els projectes d'investigació de PNL que ja l'han classificat com a "odiós", "dreta" o "nacionalista [EUA]", i que han deixat aquesta informació. en repositoris de codi obert a llarg termini. Els projectes PNL posteriors poden no optar per auditar la moneda de les dades més antigues; pot no tenir cap mecanisme pràctic per fer-ho; i potser ni tan sols ser conscient de la necessitat.

El resultat d'això és que l'ús de conjunts de dades basats en Twitch de 2017 per formular un algorisme de "categorització política" atribuïria una activitat de dreta alternativa notable a Twitch, en funció de la freqüència de la FeelsGoodHome emote. Twitch pot ser o no ple d'influencers alt-dreta, però, segons els investigadors del nou document, no es pot demostrar amb la granota.

La importància política del meme "Pepe" sembla haver estat descartada casualment pels 140 milions d'usuaris de Twitch (el 41% dels quals són menors de 24 anys), que efectivament han tornat a robar l'obra als lladres originals i l'han pintat amb els seus propis colors, sense cap agenda particular.

Mètode i dades

Els investigadors van trobar que les dades d'etiquetes de Twitch eren "pràcticament inexistents", malgrat la conclusió d'un estudi anterior que n’hi ha vuit milions d'emotes en total, i 400,000 estaven presents a l'única setmana de sortida de Twitch a la setmana escollida pels investigadors anteriors.

A 2017 estudi abordar la predicció d'emocions a Twitch es va limitar a predir només els 30 millors emotes de Twitch, obtenint només 0.39 per a la predicció d'emocions.

Per abordar el dèficit, els investigadors de San Francisco van adoptar un nou enfocament de les dades més antigues, dividint-les 80/20 entre formació i prova, i aplicant mètodes d'aprenentatge automàtic "tradicionals", que no s'havien utilitzat abans per estudiar les dades de Twitch. Aquests mètodes inclouen Bayes ingenu (NB), Bosc aleatori (RF), Màquina vectorial de suport (SVM, amb nuclis lineals) i Regressió logística.

Aquest enfocament va superar les línies de base del sentiment de Twitch anteriors en un 63.8% i va permetre als investigadors desenvolupar posteriorment el marc LOOVE (Learning Out Of Vocabulary Emotions), que és capaç d'identificar neologismes i "enriquir" els models existents amb aquestes noves definicions.

Arquitectura del marc LOOVE (Learning Out Of Vocabulary Emotions) desenvolupat pels investigadors.

LOOVE facilita l'entrenament no supervisat de les incrustacions de paraules, i també dóna cabuda al reciclatge i l'ajustament periòdics, obviant la necessitat de conjunts de dades etiquetats, que seria logísticament poc pràctic, tenint en compte l'escala de la tasca i la ràpida evolució dels emotes.

Al servei del projecte, els investigadors entrenat un emote "Pseudodiccionari" en un conjunt de dades de Twitch sense etiqueta, en procés de generar 444,714 incrustacions de paraules, emoticones, emojis i emoticones.

A més, van augmentar a Lèxic VADER amb un lèxic emoji/emoticones, i a més del conjunt de dades de la CE esmentat anteriorment, també va explotar altres tres conjunts de dades disponibles públicament per a ternari classificació de sentiments, de Twitter, Rotten Tomatoes i un conjunt de dades de mostra de YELP.

Donada la gran varietat de metodologies i conjunts de dades utilitzats en l'estudi, els resultats són variats, però els investigadors afirmen que el seu millor cas de referència va superar la mètrica anterior més propera en 7.36 punts percentuals.

Els investigadors consideren que el valor continuat del projecte és el desenvolupament de LOOVE, basat en incrustacions word-to-vector (W2V) entrenats en més de 313 milions de missatges de xat de Twitch amb l'ajuda de K-El veí més proper (KNN).

Els autors conclouen:

"Una característica impulsora darrere del marc és un pseudo-diccionari d'emotes que es pot utilitzar per obtenir sentiments per a emotes desconeguts. Utilitzant aquest pseudodiccionari d'emotes, hem creat una taula de sentiments per a 22,507 emotes. Aquest és el primer cas de comprensió d'emotes a aquesta escala.'

* La meva conversió de cites en línia a hiperenllaços.

Fins a la propera

La investigació sobre el comportament humà ajuda els cotxes autònoms a predir els passos de vianants

No et perdis

Models d'escriptura generativa basats en IA. Sovint "copia i enganxa" dades font

Martin Anderson

Escriptor sobre aprenentatge automàtic, intel·ligència artificial i big data.
Lloc personal: martinanderson.ai
Poseu-vos en contacte amb: [protegit per correu electrònic]
Twitter: @manders_ai