Connect with us

Inteligencia artificial

Comprender los emotes de Twitch en el análisis de sentimiento

mm

El uso creciente del público de emojis, emoticonos, emotes, memes, GIFs y otras formas no verbales de comunicación en las plataformas de redes sociales ha confundido cada vez más los esfuerzos de los científicos de datos para entender el panorama sociológico global; al menos, en la medida en que las tendencias sociológicas mundiales pueden discernirse del discurso público.

Aunque el Procesamiento de Lenguaje Natural (NLP) se ha convertido en una herramienta poderosa en el análisis de sentimiento en la última década, el sector tiene dificultades no solo para mantenerse al día con un lexicon en constante evolución de slang y atajos lingüísticos en múltiples idiomas, sino también para intentar decodificar el significado de publicaciones basadas en imágenes en plataformas de redes sociales como Facebook y Twitter.

Dado que el número limitado de plataformas de redes sociales muy populares son el único recurso hiperscala real para este tipo de investigación, es esencial que el sector de la IA al menos intente mantener el ritmo.

En julio, un artículo de Taiwán ofreció un nuevo método para categorizar el sentimiento del usuario en función de ‘GIFs de reacción’ publicados en hilos de redes sociales (ver imagen a continuación), utilizando una base de datos de 30.000 tweets para desarrollar una forma de predecir reacciones a una publicación. El artículo encontró que las respuestas basadas en imágenes son en muchos sentidos más fáciles de evaluar, ya que es menos probable que contengan sarcasmo, un desafío notable en el análisis de sentimiento.

Investigadores de Taiwán estudiaron el uso de GIFs de reacción animados como ‘indicadores reductivos’ de sentimiento en un artículo de 2021.

A principios de este año, un esfuerzo de investigación liderado por la Universidad de Boston entrenó modelos de aprendizaje automático para predecir memes de imágenes que probablemente se vuelvan virales en Twitter; y en agosto, investigadores británicos examinaron el crecimiento de emojis en comparación con emoticonos (hay una diferencia) en las redes sociales, compilando un conjunto de datos a gran escala de 7 idiomas de sentimiento de Twitter pictográfico.

Emotes de Twitch

Ahora, investigadores estadounidenses han desarrollado una metodología de aprendizaje automático para comprender mejor, categorizar y medir el pseudo-lexicon en constante evolución de emotes en la red de Twitch muy popular.

Los emotes son neologismos utilizados en Twitch para expresar emoción, estado de ánimo o chistes internos. Dado que son, por definición, nuevas expresiones, el desafío para un sistema de aprendizaje automático no es necesariamente catalogar infinitamente nuevos emotes (que pueden usarse solo una vez, o dejar de usarse rápidamente), sino ganar una mejor comprensión del marco que los genera constantemente; y desarrollar sistemas capaces de reconocer un emote como una ‘palabra o frase compuesta temporalmente válida’ cuya temperatura emocional/política puede necesitar evaluarse por completo desde el contexto.

Vecinos del emote 'FeelsGoodMan', cuyo significado puede alterarse por sufijos oscuros. Fuente: https://arxiv.org/pdf/2108.08411.pdf

Vecinos del emote ‘FeelsGoodMan’, cuyo significado puede alterarse por sufijos oscuros. Fuente: https://arxiv.org/pdf/2108.08411.pdf

El artículo se titula FeelsGoodMan: Infiriendo la semántica de neologismos de Twitch, y proviene de tres investigadores de Spiketrap, una empresa de análisis de redes sociales en San Francisco.

Cebado y cambio

A pesar de su novedad y vidas a menudo breves, los emotes de Twitch reciclan con frecuencia material cultural (incluidos emotes más antiguos) de una manera que puede dirigir los marcos de análisis de sentimiento en la dirección equivocada. Rastrear el cambio en el significado de un emote a medida que evoluciona incluso puede revelar una inversión o negación completa de su sentimiento o intención original.

Por ejemplo, los investigadores señalan que el uso original del meme equivocado de FeelsGoodMan Pepe-the-frog ha perdido casi por completo su sabor político original en el contexto de su uso en Twitch.

El uso de la frase, junto con una imagen de un sapo de dibujo animado de un cómic de 2005 del artista Matt Furie, se convirtió en un meme de la derecha en la década de 2010. Aunque Vox escribió en 2017 que la apropiación del meme por la derecha había sobrevivido a la desasociación auto-proclamada de Furie con dicho uso, los investigadores de San Francisco detrás del nuevo artículo han encontrado lo contrario*:

‘El sapo de dibujo animado de Furie fue adoptado por publicaciones de derecha en varios foros en línea como 4chan a principios de la década de 2010. Desde entonces, Furie ha hecho campaña para recuperar el significado de su personaje, y el emote ha visto un aumento en un uso más no odioso y positivo en Twitch. Nuestros resultados en Twitch están de acuerdo, mostrando que “FeelsGoodMan” y su contraparte “FeelsBadMan” se utilizan principalmente de manera literal.’

Problemas río abajo

Este tipo de ‘cebo y cambio’ con respecto a las características generalizadas de un meme puede impedir los proyectos de investigación de NLP que ya han categorizado como ‘odioso’, ‘de derecha’ o ‘nacionalista [EE. UU.]’, y que han descargado esa información en repositorios de código abierto a largo plazo. Los proyectos de NLP posteriores pueden no elegir auditar la moneda del datos más antiguos; pueden no tener ningún mecanismo práctico para hacerlo; y pueden no ser conscientes de la necesidad.

La consecuencia de esto es que usar conjuntos de datos de Twitch de 2017 para formular un algoritmo de ‘categorización política’ atribuiría una notable actividad de derecha en Twitch, basada en la frecuencia del emote FeelsGoodMan. Twitch puede o no estar lleno de influyentes de derecha, pero, según los investigadores del nuevo artículo, no se puede probar con el sapo.

El significado político del meme ‘Pepe’ parece haber sido descartado casualmente por los 140 millones de usuarios de Twitch (41% de los cuales tienen menos de 24 años), que han robado efectivamente la obra de los ladrones originales y la han pintado con sus propios colores, sin ninguna agenda particular.

Método y datos

Los investigadores encontraron que los datos de emotes de Twitch etiquetados eran ‘virtualmente inexistentes’, a pesar de la conclusión de un estudio anterior de que hay ocho millones de emotes en total, y 400.000 estaban presentes en la sola semana de producción de Twitch en la semana elegida por esos investigadores anteriores.

Un estudio de 2017 que abordaba la predicción de emotes en Twitch se limitó a predecir solo los 30 emotes principales de Twitch, con una puntuación de solo 0,39 para la predicción de emotes.

Para abordar la escasez, los investigadores de San Francisco adoptaron un enfoque nuevo para los datos más antiguos, dividiéndolos 80/20 entre entrenamiento y prueba, y aplicando ‘métodos tradicionales’ de aprendizaje automático, que no se habían utilizado antes para estudiar datos de Twitch. Estos métodos incluyeron Naive Bayes (NB), Random Forest (RF), Support Vector Machine (SVM, con kernels lineales), y Regresión Logística.

Este enfoque superó las líneas de base de sentimiento de Twitch anteriores en un 63,8%, y permitió a los investigadores desarrollar posteriormente el marco LOOVE (Learning Out Of Vocabulary Emotions), que puede identificar neologismos y ‘enriquecer’ los modelos existentes con estas nuevas definiciones.

Arquitectura del marco LOOVE (Learning Out Of Vocabulary Emotions) desarrollado por los investigadores.

Arquitectura del marco LOOVE (Learning Out Of Vocabulary Emotions) desarrollado por los investigadores.

LOOVE facilita el entrenamiento no supervisado de incrustaciones de palabras, y también acomoda un entrenamiento y ajuste periódicos, lo que elimina la necesidad de conjuntos de datos etiquetados, que serían imprácticos desde el punto de vista logístico, considerando la escala de la tarea y la evolución rápida de los emotes.

En el servicio del proyecto, los investigadores entrenaron un ‘Pseudo-Diccionario’ de emotes en un conjunto de datos no etiquetado de Twitch, generando 444.714 incrustaciones de palabras, emotes, emojis y emoticonos.

Además, ampliaron un léxico VADER con un léxico de emojis/emoticonos, y además del conjunto de datos EC mencionado, también explotaron tres conjuntos de datos públicos adicionales para clasificación de sentimiento ternaria, de Twitter, Rotten Tomatoes y un conjunto de datos de YELP muestreado.

Dado la gran variedad de metodologías y conjuntos de datos utilizados en el estudio, los resultados son variados, pero los investigadores afirman que su línea de base mejor superó la métrica anterior más cercana en 7,36 puntos porcentuales.

Los investigadores consideran que el valor continuo del proyecto es el desarrollo de LOOVE, basado en incrustaciones de vector-palabra (W2V) entrenadas en más de 313 millones de mensajes de chat de Twitch con la ayuda de K-Nearest Neighbor (KNN).

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.