Inteligencia Artificial
Comprender los gestos de Twitch en el análisis de sentimientos

el publico uso creciente de emojis, emoticones, emotes, memes, GIF y otras formas no verbales de comunicarse en las plataformas de redes sociales, en los últimos años, ha confundido cada vez más los esfuerzos de los científicos de datos para comprender el panorama sociológico global; al menos, en la medida en que las tendencias sociológicas mundiales puedan discernirse a partir del discurso público.
Aunque el procesamiento del lenguaje natural (PNL) se ha convertido en una poderosa herramienta en el análisis de sentimientos durante la última década, el sector tiene dificultades no sólo para mantenerse al día con un léxico en constante evolución de jerga y atajos lingüísticos en varios idiomas, sino también en intentar decodificar el significado de basado en imágenes publicaciones en plataformas de redes sociales como Facebook y Twitter.
Puesto que el número limitado Dado que las plataformas de redes sociales altamente pobladas son el único recurso verdaderamente a gran escala para este tipo de investigación, es esencial que el sector de la IA al menos intente mantener el ritmo.
En julio, un periódico de Taiwán ofreció una nuevo método Para categorizar la opinión de los usuarios según los GIF de reacción publicados en redes sociales (ver imagen a continuación), se utilizó una base de datos de 30,000 XNUMX tuits para desarrollar una forma de predecir las reacciones a una publicación. El estudio descubrió que las respuestas basadas en imágenes son, en muchos sentidos, más fáciles de medir, ya que es menos probable que contengan sarcasmo. desafío notable en el análisis de sentimientos.

Investigadores de Taiwán estudiaron el uso de GIF de reacción animados como "indicadores reductivos" del sentimiento en un artículo de 2021.
A principios de este año, un esfuerzo de investigación dirigido por la Universidad de Boston modelos de aprendizaje automático entrenados para predecir memes de imágenes que probablemente se vuelvan virales en Twitter; y en agosto, investigadores británicos examinaron el crecimiento de los emojis en comparación con los emoticones (hay una es diferente) en las redes sociales, compilando un conjunto de datos a gran escala en 7 idiomas de sentimientos pictográficos de Twitter.
Twitch Emotes
Ahora, investigadores estadounidenses han desarrollado una metodología de aprendizaje automático para comprender, categorizar y medir mejor el pseudoléxico en constante evolución de emotes en la popular red Twitch.
Los emoticonos son neologismos que se usan en Twitch para expresar emociones, estados de ánimo o bromas internas. Dado que, por definición, son expresiones nuevas, el reto para un sistema de aprendizaje automático no es necesariamente catalogar continuamente nuevos emoticonos (que pueden usarse solo una vez o caer en desuso rápidamente), sino comprender mejor el marco que los genera constantemente y desarrollar sistemas capaces de reconocer un emoticono como una palabra o frase compuesta "temporalmente válida" cuya intensidad emocional o política puede tener que determinarse completamente a partir del contexto.

Vecinos del emote 'FeelsGoodMan', cuyo significado puede alterarse mediante sufijos oscuros. Fuente: https://arxiv.org/pdf/2108.08411.pdf
El se titula FeelsGoodMan: inferir la semántica de los neologismos de Twitch, y proviene de tres investigadores de Spiketrap, una empresa de análisis de redes sociales en San Francisco.
Cebo y el interruptor
A pesar de su novedad y su breve duración, los emoticones de Twitch suelen reciclar material cultural (incluidos los emoticones más antiguos) de una manera que puede desviar los marcos de análisis de sentimientos en la dirección equivocada. Rastrear el cambio en el significado de un emoticón a medida que evoluciona puede incluso revelar una inversión o negación completa de su sentimiento o intención original.
Por ejemplo, los investigadores señalan que el original alt-right mal uso del epónimo se sientebuenohombre El meme Pepe-the-frog ha perdido casi por completo su sabor político original en el contexto de su uso en Twitch.
El uso de la frase, junto con una imagen de una rana de dibujos animados de un cómic de 2005 del artista Matt Furie, se convirtió en un meme de extrema derecha en la década de 2010. aunque vox escribí En 2017, la apropiación del meme por parte de la derecha había sobrevivido a la autoproclamada declaración de Furie. disociación con tal uso, los investigadores de San Francisco detrás del nuevo artículo han descubierto lo contrario*:
La rana de dibujos animados de Furie fue adoptada por carteles de derecha en varios foros en línea como 4chan a principios de la década de 2010. Desde entonces, Furie ha hecho campaña para recuperar el significado de su personaje, y el emoticón ha visto un aumento en la corriente principal. uso sin odio y un uso positivo en Twitch. Nuestros resultados en Twitch coinciden, mostrando que "FeelsGoodMan" y su contraparte "FeelsBadMan" se usan principalmente de forma literal.
Problema aguas abajo
Este tipo de engaño con respecto a las características generalizadas de un meme puede obstaculizar los proyectos de investigación de PNL que ya lo han categorizado como "odioso", "de derecha" o "nacionalista [estadounidense]", y que han volcado esa información en repositorios de código abierto a largo plazo. Es posible que proyectos de PNL posteriores no opten por auditar la vigencia de los datos antiguos; que no cuenten con ningún mecanismo práctico para hacerlo; e incluso que no sean conscientes de su necesidad.
El resultado de esto es que el uso de conjuntos de datos basados en Twitch de 2017 para formular un algoritmo de 'categorización política' atribuiría una actividad notable de la derecha alternativa en Twitch, según la frecuencia de la se sientebuenohombre ser emocionado. Twitch puede o no ser lleno de influencers de la extrema derecha, pero, según los investigadores del nuevo artículo, no se puede demostrar con la rana.
El significado político del meme de 'Pepe' parece haber sido descartado casualmente por los 140 millones de usuarios de Twitch (el 41% de los cuales tienen menos de 24 años), quienes efectivamente volvieron a robar la obra de los ladrones originales y la pintaron con sus propios colores, sin ninguna agenda particular.
Método y datos
Los investigadores descubrieron que los datos de emoticones de Twitch etiquetados eran "prácticamente inexistentes", a pesar de la conclusión de un estudio anterior que ahí hay ocho millones de emotes totales, y 400,000 XNUMX estuvieron presentes en la semana única de salida de Twitch en la semana elegida por esos investigadores anteriores.
A estudio del 2017 abordar la predicción de emotes en Twitch se limitó a predecir solo los 30 emotes principales de Twitch, con una puntuación de solo 0.39 para la predicción de emotes.
Para abordar la deficiencia, los investigadores de San Francisco adoptaron un nuevo enfoque para los datos antiguos, dividiéndolos al 80/20 entre entrenamiento y pruebas, y aplicando métodos tradicionales de aprendizaje automático, que no se habían utilizado antes para estudiar los datos de Twitch. Estos métodos incluían Bayes ingenuos (NÓTESE BIEN), Bosque al azar (RF), Máquinas de vectores soporte (SVM, con núcleos lineales), y Regresión logística.
Este enfoque superó las líneas de base de sentimiento de Twitch anteriores en un 63.8% y permitió a los investigadores desarrollar posteriormente el marco LOOVE (Learning Out Of Vocabulary Emotions), que puede identificar neologismos y "enriquecer" los modelos existentes con estas nuevas definiciones.

Arquitectura del marco LOOVE (Learning Out Of Vocabulary Emotions) desarrollado por los investigadores.
LOOVE facilita el entrenamiento no supervisado de incrustaciones de palabras y también se adapta al reentrenamiento y ajuste periódicos, lo que elimina la necesidad de conjuntos de datos etiquetados, lo que sería logísticamente poco práctico, considerando la escala de la tarea y la rápida evolución de los emotes.
Al servicio del proyecto, los investigadores entrenado un 'Pseudo-Diccionario' de emoticones en un conjunto de datos de Twitch sin etiquetar, en el proceso generó 444,714 incrustaciones de palabras, emoticones, emojis y emoticones.
Además, aumentaron un Léxico VADER con una Léxico de emoji/emoticones, y además del conjunto de datos de la CE antes mencionado, también explotó otros tres conjuntos de datos disponibles públicamente para ternario clasificación de sentimientos, de Twitter, Rotten Tomatoes y un conjunto de datos YELP de muestra.
Dada la gran variedad de metodologías y conjuntos de datos utilizados en el estudio, los resultados son variados, pero los investigadores afirman que su línea de base del mejor de los casos superó a la métrica anterior más cercana en 7.36 puntos porcentuales.
Los investigadores consideran que el valor continuo del proyecto es el desarrollo de LOOVE, basado en incrustaciones de palabra a vector (W2V) entrenadas en más de 313 millones de mensajes de chat de Twitch con la ayuda de K-vecino más cercano (KNN).
Los autores concluyen:
Una característica clave del framework es un pseudodiccionario de emoticonos que permite obtener información sobre sentimientos de emoticonos desconocidos. Con este pseudodiccionario, creamos una tabla de sentimientos para 22,507 XNUMX emoticonos. Este es el primer caso de comprensión de emoticonos a esta escala.
* Mi conversión de citas en línea a hipervínculos.