Свяжитесь с нами:

Понимание эмоций Twitch в анализе настроений

Искусственный интеллект

Понимание эмоций Twitch в анализе настроений

mm

Общественность растущее использование эмодзи, эмотиконов, смайликов, мемов, GIF-файлов и других невербальных способов общения на платформах социальных сетей в последние годы все больше сбивали с толку усилия ученых, занимающихся данными, чтобы понять глобальный социологический ландшафт; по крайней мере, в той мере, в какой мировые социологические тенденции можно различить в публичном дискурсе.

Хотя обработка естественного языка (NLP) стала мощным инструментом анализа настроений за последнее десятилетие, сектор испытывает трудности не только с тем, чтобы идти в ногу с постоянно развивающийся лексикон сленга и лингвистических сокращений на нескольких языках, но и в попытке расшифровать значение на основе изображения публикации в социальных сетях, таких как Facebook и Twitter.

Учитывая, что ограниченное количество Поскольку платформы социальных сетей с высокой посещаемостью являются единственным по-настоящему гипермасштабным ресурсом для такого рода исследований, сектору ИИ крайне важно хотя бы попытаться не отставать от них.

В июле газета из Тайваня предложила Новый метод Категоризировать настроения пользователей на основе «GIF-реакций», публикуемых в социальных сетях (см. изображение ниже), используя базу данных из 30,000 XNUMX твитов для разработки способа прогнозирования реакции на публикацию. В исследовании установлено, что ответы, основанные на изображениях, во многих отношениях легче оценить, поскольку они с меньшей вероятностью содержат сарказм. заметный вызов в анализе настроений.

В статье 2021 года исследователи из Тайваня изучили использование анимированных GIF-реакций в качестве «редуктивных индикаторов» настроений.

Ранее в этом году исследование под руководством Бостонского университета обученные модели машинного обучения предсказать мемы-изображения, которые, скорее всего, станут вирусными в Twitter; а в августе британские исследователи изучили рост популярности эмодзи по сравнению с эмотиконами (есть разница) в социальных сетях, собрав масштабный набор пиктографических настроений в Твиттере на семи языках.

Эмоции Twitch

Теперь американские исследователи разработали методологию машинного обучения, чтобы лучше понимать, классифицировать и измерять постоянно развивающийся псевдолексикон Эмоции в чрезвычайно популярной сети Twitch.

Эмодзи — это неологизмы, используемые на Twitch для выражения эмоций, настроения или шуток. Поскольку они по определению являются новыми выражениями, задача системы машинного обучения заключается не в постоянном каталогизировании новых эмодзи (которые могут быть использованы лишь один раз или быстро выйти из употребления), а в лучшем понимании структуры, которая их бесконечно генерирует; и в разработке систем, способных распознавать эмодзи как «временно допустимое» слово или сложное словосочетание, эмоциональную/политическую окраску которого, возможно, потребуется оценивать исключительно по контексту.

Соседи эмоции «FeelsGoodMan», значение которой можно изменить с помощью неясных суффиксов. Источник: https://arxiv.org/pdf/2108.08411.pdf

Соседи эмоции «FeelsGoodMan», значение которой можно изменить с помощью непонятных суффиксов. Источник: https://arxiv.org/pdf/2108.08411.pdf

Команда статье называется FeelsGoodMan: определение семантики неологизмов Twitch, и исходит от трех исследователей из Spiketrap, компании по анализу социальных сетей в Сан-Франциско.

Приманка и Выключатель

Несмотря на свою новизну и часто короткую жизнь, смайлики Twitch часто перерабатывают культурный материал (включая старые смайлики) таким образом, что это может направить системы анализа настроений в неправильном направлении. Отслеживание изменения значения эмоции по мере ее развития может даже выявить полную инверсию или отрицание ее первоначального настроения или намерения.

Например, исследователи отмечают, что первоначальные альтернативные правые злоупотреблять одноименного ЧувствуетХорошоЧеловек Мем про лягушку Пепе почти полностью утратил свой первоначальный политический оттенок в контексте его использования на Twitch.

Использование этой фразы вместе с изображением мультяшной лягушки из комикса 2005 года художника Мэтта Фьюри, стал крайне правым мемом в 2010-х годах. Хотя Вокс писал в 2017 году, что присвоение мема правыми пережило самопровозглашенное Фьюри диссоциация при таком использовании исследователи из Сан-Франциско, стоящие за новой статьей, пришли к другому выводу*:

«Мультяшная лягушка Фьюри была принята правыми плакатами на различных онлайн-форумах, таких как 4chan, в начале 2010-х годов. С тех пор Фьюри провел кампанию, чтобы вернуть значение своего персонажа, и эта эмоция стала более популярной. использование без ненависти и позитивное использование на Twitch. Наши результаты на Twitch совпадают, показывая, что «FeelsGoodMan» и его аналог «FeelsBadMan» в основном используются в буквальном смысле.

Проблемы ниже по течению

Подобные «приманки и подмены» в отношении обобщённых «характеристик» мема могут помешать исследовательским проектам в области естественнонаучного языка, которые уже классифицировали его как «ненавистнический», «правый» или «националистический [США]» и которые выгрузили эту информацию в долгосрочные хранилища с открытым исходным кодом. Более поздние проекты в области естественнонаучного языка могут не проводить аудит актуальности старых данных; у них может не быть для этого практических механизмов; и они могут даже не осознавать этой необходимости.

Результатом этого является то, что использование наборов данных на основе Twitch за 2017 год для формулировки алгоритма «политической категоризации» будет приписывать заметную активность альтернативных правых на Twitch на основе частоты ЧувствуетХорошоЧеловек эмоция. Twitch может быть, а может и не быть полный альтернативных правых влиятельных лиц, но, по словам исследователей новой статьи, доказать это с помощью лягушки невозможно.

Политическое значение мема «Пепе», похоже, было небрежно отвергнуто 140 миллионами пользователей Twitch (41% из которых моложе 24 лет), которые эффективно украли работу у оригинальных воров и раскрасили ее в свои цвета без какой-либо особой цели.

Метод и данные

Исследователи обнаружили, что маркированные данные о эмоциях Twitch «практически не существуют», несмотря на заключение более раннее исследование что есть восемь миллионов эмоций, и 400,000 XNUMX человек присутствовали за одну неделю выходных данных Twitch в неделю, выбранную этими более ранними исследователями.

A исследование в 2017 г. Решение о прогнозировании эмоций на Twitch ограничилось прогнозированием только 30 лучших эмоций Twitch, набрав всего 0.39 балла за прогнозирование эмоций.

Чтобы решить эту проблему, исследователи из Сан-Франциско применили новый подход к старым данным, разделив их в соотношении 80/20 между тренировочными и тестовыми данными и применив «традиционные» методы машинного обучения, которые ранее не применялись для изучения данных Twitch. Эти методы включали: Наивный байесовский (Примечание), Случайный Лес (РФ), Машина опорных векторов (SVM, с линейными ядрами) и Логистическая регрессия.

Этот подход превзошел предыдущие базовые показатели настроений Twitch на 63.8% и позволил исследователям впоследствии разработать структуру LOOVE (Learning Out Of Vocabulary Emotions), которая способна выявлять неологизмы и «обогащать» существующие модели этими новыми определениями.

Архитектура фреймворка LOOVE (Learning Out Of Vocabulary Emotions), разработанного исследователями.

Архитектура фреймворка LOOVE (Learning Out Of Vocabulary Emotions), разработанного исследователями.

LOOVE облегчает неконтролируемое обучение встраиванию слов, а также допускает периодическое переобучение и точную настройку, устраняя необходимость в помеченных наборах данных, что было бы нецелесообразно с точки зрения логистики, учитывая масштаб задачи и быстрое развитие эмоций.

В рамках проекта исследователи специалистов «Псевдословарь» эмоций на основе немаркированного набора данных Twitch, в процессе которого было сгенерировано 444,714 XNUMX вложений слов, эмоций, эмодзи и эмотиконов.

Кроме того, они дополнили Лексикон ВАДЕР с лексикон смайликов / смайликов, а в дополнение к вышеупомянутому набору данных EC также использовал три других общедоступных набора данных для троичный классификация настроений из Twitter, Rotten Tomatoes и выборочного набора данных YELP.

Учитывая большое разнообразие методологий и наборов данных, использованных в исследовании, результаты неоднозначны, но исследователи утверждают, что их наилучший базовый уровень превзошел ближайший предыдущий показатель на 7.36 процентных пункта.

Исследователи считают, что постоянной ценностью проекта является разработка LOOVE, основанная на встраивании слов в вектор (W2V), обученном на более чем 313 миллионах сообщений чата Twitch с помощью K-ближайший сосед (КНН).

Авторы заключают:

«В основе фреймворка лежит псевдословарь эмоций, который можно использовать для определения тональности неизвестных эмоций. Используя этот псевдословарь, мы создали таблицу тональности для 22,507 XNUMX эмоций. Это первый случай понимания эмоций в таком масштабе».

 

* Мое преобразование встроенных цитат в гиперссылки.

 

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai