Inteligência artificial
Entendendo os emotes do Twitch na análise de sentimento

O público uso crescente de emojis, emoticons, emotes, memes, GIFs e outras formas não verbais de comunicação em plataformas de mÃdia social tem, nos últimos anos, confundido cada vez mais os esforços dos cientistas de dados para entender o cenário sociológico global; pelo menos, na medida em que as tendências sociológicas mundiais podem ser discernidas do discurso público.
Embora o Processamento de Linguagem Natural (PNL) tenha se tornado uma ferramenta poderosa na análise de sentimentos ao longo da última década, o setor tem dificuldade não apenas em acompanhar um léxico em constante evolução de gÃrias e atalhos linguÃsticos em vários idiomas, mas também na tentativa de decodificar o significado de baseado em imagem postagens em plataformas de mÃdia social como Facebook e Twitter.
Uma vez que o número limitado de plataformas de mÃdia social altamente populosas são o único recurso verdadeiramente em hiperescala para esse tipo de pesquisa, é essencial que o setor de IA pelo menos tente acompanhar o ritmo.
Em julho, um jornal de Taiwan ofereceu uma Novo método para categorizar o sentimento do usuário com base em "GIFs de reação" postados em tópicos de mÃdia social (veja a imagem abaixo), usando um banco de dados de 30,000 tweets para desenvolver uma maneira de prever as reações a uma postagem. O artigo descobriu que as respostas baseadas em imagens são, em muitos aspectos, mais fáceis de avaliar, pois são menos propensas a conter sarcasmo, um notável desafio na análise de sentimento.

Pesquisadores de Taiwan estudaram o uso de GIFs de reação animados como "indicadores redutores" de sentimento em um artigo de 2021.
No inÃcio deste ano, um esforço de pesquisa liderado pela Universidade de Boston modelos de aprendizado de máquina treinados para prever memes de imagem que provavelmente se tornarão virais no Twitter; e em agosto, pesquisadores britânicos examinaram o crescimento de emojis em comparação com emoticons (há uma diferença) nas mÃdias sociais, compilando um conjunto de dados em grande escala em 7 idiomas de sentimentos pictográficos do Twitter.
Emotes para Twitch
Agora, pesquisadores dos EUA desenvolveram uma metodologia de aprendizado de máquina para melhor compreender, categorizar e medir o pseudo-léxico em constante evolução do emotes na imensamente popular rede Twitch.
Emotes são neologismos usados ​​no Twitch para expressar emoção, humor ou piadas internas. Como são, por definição, expressões novas, o desafio para um sistema de aprendizado de máquina não é necessariamente catalogar infinitamente novos emotes (que podem ser usados ​​apenas uma vez ou cair em desuso rapidamente), mas sim compreender melhor a estrutura que os gera infinitamente; e desenvolver sistemas capazes de reconhecer um emote como uma palavra ou frase composta "temporariamente válida", cuja temperatura emocional/polÃtica pode precisar ser medida inteiramente a partir do contexto.

Vizinhos do emote "FeelsGoodMan", cujo significado pode ser alterado por sufixos obscuros. Fonte: https://arxiv.org/pdf/2108.08411.pdf
O papel é intitulado FeelsGoodMan: inferindo a semântica dos neologismos do Twitch, e vem de três pesquisadores da Spiketrap, uma empresa de análise de mÃdia social em San Francisco.
Isca e Interruptor
Apesar de sua novidade e vida curta, os emotes do Twitch frequentemente reciclam material cultural (incluindo emotes mais antigos) de uma forma que pode direcionar as estruturas de análise de sentimento na direção errada. Rastrear a mudança no significado de um emote à medida que ele evolui pode até mesmo revelar uma inversão ou negação completa de seu sentimento ou intenção original.
Por exemplo, os pesquisadores observam que a alt-right original mau uso do homônimo FeelsGoodMan O meme Pepe-the-frog perdeu quase completamente seu sabor polÃtico original no contexto de seu uso no Twitch.
O uso da frase, juntamente com a imagem de um sapo de desenho animado de uma história em quadrinhos de 2005 do artista Matt Furie, virou meme de extrema direita na década de 2010. Embora Vox escreveu em 2017 que a apropriação do meme pela direita sobreviveu à autodeclarada Furie dissociação com tal uso, os pesquisadores de São Francisco por trás do novo artigo descobriram o contrário*:
O sapo de desenho animado de Furie foi adotado por pôsteres de direita em vários fóruns online como o 4chan no inÃcio de 2010. Desde então, Furie fez campanha para recuperar o significado de seu personagem, e o emote viu um aumento no mainstream. uso sem ódio e uso positivo no Twitch. Nossos resultados no Twitch concordam, mostrando que "FeelsGoodMan" e sua contraparte "FeelsBadMan" estão sendo usados ​​principalmente de forma literal.
Problema a jusante
Esse tipo de "isca e troca" em relação à s "caracterÃsticas" generalizadas de um meme pode impedir projetos de pesquisa em PNL que já o categorizaram como "odioso", "de direita" ou "nacionalista [EUA]", e que despejaram essas informações em repositórios de código aberto de longo prazo. Projetos posteriores de PNL podem não optar por auditar a atualidade dos dados mais antigos; podem não ter nenhum mecanismo prático para fazê-lo; e podem nem mesmo estar cientes dessa necessidade.
O resultado disso é que o uso de conjuntos de dados baseados no Twitch de 2017 para formular um algoritmo de 'categorização polÃtica' atribuiria uma atividade notável da alt-right no Twitch, com base na frequência do FeelsGoodMan emocionar. Twitch pode ou não ser cheio de influenciadores da direita alternativa, mas, de acordo com os pesquisadores do novo artigo, não é possÃvel provar isso pelo sapo.
O significado polÃtico do meme 'Pepe' parece ter sido descartado casualmente pelos 140 milhões de usuários do Twitch (41% dos quais têm menos de 24 anos), que efetivamente roubaram novamente a obra dos ladrões originais e a pintaram em suas próprias cores, sem nenhuma agenda especÃfica.
Método e dados
Os pesquisadores descobriram que os dados de emotes rotulados do Twitch eram 'virtualmente inexistentes', apesar da conclusão de um estudo anterior que há oito milhões de emotes no total, e 400,000 estiveram presentes na única semana de saÃda do Twitch na semana escolhida por esses pesquisadores anteriores.
A Estudo 2017 abordar a previsão de emotes no Twitch limitou-se a prever apenas os 30 principais emotes do Twitch, marcando apenas 0.39 para a previsão de emotes.
Para lidar com a deficiência, os pesquisadores de São Francisco adotaram uma nova abordagem para os dados mais antigos, dividindo-os em 80/20 entre treinamento e teste, e aplicando métodos "tradicionais" de aprendizado de máquina, que não haviam sido usados ​​antes para estudar os dados do Twitch. Esses métodos incluÃam BaÃas ingénuas (Obs.), Floresta Aleatória (RF), Máquina de vetores de suporte (SVM, com núcleos lineares) e Regressão LogÃstica.
Essa abordagem superou as linhas de base de sentimento anteriores do Twitch em 63.8% e permitiu que os pesquisadores desenvolvessem posteriormente a estrutura LOOVE (Learning Out Of Vocabulary Emotions), que é capaz de identificar neologismos e "enriquecer" modelos existentes com essas novas definições.

Arquitetura da estrutura LOOVE (Learning Out Of Vocabulary Emotions) desenvolvida pelos pesquisadores.
O LOOVE facilita o treinamento não supervisionado de incorporações de palavras e também acomoda retreinamento e ajuste fino periódicos, eliminando a necessidade de conjuntos de dados rotulados, o que seria logisticamente impraticável, considerando a escala da tarefa e a rápida evolução dos emotes.
A serviço do projeto, os pesquisadores treinado um emote 'Pseudo-Dicionário' em um conjunto de dados não rotulado do Twitch, gerando no processo 444,714 incorporações de palavras, emotes, emojis e emoticons.
Além disso, eles aumentaram um léxico VADER com um léxico emoji/emoticons, e além do conjunto de dados EC mencionado acima, também explorou três outros conjuntos de dados disponÃveis publicamente para ternário classificação de sentimento, do Twitter, Rotten Tomatoes e um conjunto de dados YELP amostrado.
Dada a grande variedade de metodologias e conjuntos de dados usados ​​no estudo, os resultados são variados, mas os pesquisadores afirmam que sua linha de base de melhor caso superou a métrica anterior mais próxima em 7.36 pontos percentuais.
Os pesquisadores consideram que o valor contÃnuo do projeto é o desenvolvimento do LOOVE, baseado em incorporações de palavra para vetor (W2V) treinadas em mais de 313 milhões de mensagens de bate-papo do Twitch com a ajuda de K-vizinho mais próximo (KNN).
Os autores concluem:
Um recurso essencial por trás da estrutura é um pseudodicionário de emotes que pode ser usado para derivar sentimentos para emotes desconhecidos. Usando esse pseudodicionário de emotes, criamos uma tabela de sentimentos para 22,507 emotes. Este é o primeiro caso de compreensão de emotes nessa escala.
* Minha conversão de citações inline em hiperlinks.