Connect with us

Искусственный интеллект

Понимание эмоций Twitch в анализе настроений

mm

Растущее использование публикой эмодзи, эмотиконов, эмоций, мемов, GIF-изображений и других невербальных способов общения на платформах социальных сетей в последние годы все больше осложняет усилия данных ученых по пониманию глобального социологического ландшафта; по крайней мере, в той степени, в которой глобальные социологические тенденции можно определить из публичного дискурса.

Хотя обработка естественного языка (NLP) стала мощным инструментом в анализе настроений за последнее десятилетие, сектор испытывает трудности не только в поддержании постоянно эволюционирующего лексикона сленга и лингвистических сокращений на нескольких языках, но также в попытках расшифровать значение изображений в социальных сетях, таких как Facebook и Twitter.

Поскольку ограниченное количество очень популярных социальных сетей являются единственным真正 гипермасштабным ресурсом для этого вида исследований, для сектора ИИ важно хотя бы попытаться поддерживать темп с ним.

В июле исследователи из Тайваня предложили новый метод категоризации настроений пользователей на основе ‘реакций GIF’ в социальных сетях (см. изображение ниже), используя базу данных из 30 000 твитов для разработки способа прогнозирования реакций на пост. Исследование показало, что изображения-ответы во многих отношениях легче оценить, поскольку они менее вероятно содержат сарказм, заметную проблему в анализе настроений.

Исследователи из Тайваня изучали использование анимированных реакций GIF в качестве ‘редуктивных индикаторов’ настроений в работе 2021 года.

Ранее в этом году исследовательская работа под руководством Бостонского университета обучила модели машинного обучения для прогнозирования изображений-мемов, которые, вероятно, станут вирусными в Twitter; и в августе британские исследователи изучили рост эмодзи по сравнению с эмотиконами (есть разница) в социальных сетях, составив большую базу данных из 7 языков для анализа настроений Twitter.

Эмоции Twitch

Теперь исследователи из США разработали методологию машинного обучения для лучшего понимания, категоризации и измерения постоянно эволюционирующего псевдо-лексикона эмоций на огромно популярной сети Twitch.

Эмоции – это неологизмы, используемые на Twitch для выражения эмоций, настроений или внутренних шуток. Поскольку они по определению являются новыми выражениями, задача для системы машинного обучения заключается не обязательно в бесконечном каталогизации новых эмоций (которые могут использоваться только один раз или быстро выходить из употребления), а в получении лучшего понимания рамок, которые постоянно генерируют их; и в разработке систем, способных распознавать эмоцию как ‘временно действительное’ слово или составную фразу, чья эмоциональная/политическая температура может потребоваться оценить полностью из контекста.

Соседи эмоции 'FeelsGoodMan', чье значение может быть изменено малоизвестными суффиксами. Источник: https://arxiv.org/pdf/2108.08411.pdf

Соседи эмоции ‘FeelsGoodMan’, чье значение может быть изменено малоизвестными суффиксами. Источник: https://arxiv.org/pdf/2108.08411.pdf

Работа называется FeelsGoodMan: Вывод семантики неологизмов Twitch, и исходит от трех исследователей из Spiketrap, компании социального анализа медиа в Сан-Франциско.

Приманка и смена

Несмотря на свою новизну и часто короткую жизнь, эмоции Twitch часто перерабатывают культурный материал (включая старые эмоции) таким образом, что может направить рамки анализа настроений в неправильном направлении. Отслеживание сдвига значения эмоции, когда она эволюционирует, может даже раскрыть полную инверсию или отрицание ее первоначального настроения или намерения.

Например, исследователи отмечают, что первоначальное праворадикальное неправильное использование мема FeelsGoodMan Pepe-the-frog почти полностью потеряло свое первоначальное политическое значение в контексте его использования на Twitch.

Использование фразы, вместе с изображением карикатурной лягушки из комикса 2005 года художника Мэтта Фьюри, стало праворадикальным мемом в 2010-х годах. Хотя Vox написал в 2017 году, что праворадикальное присвоение мема пережило самоотречение Фьюри от такого использования, исследователи из Сан-Франциско обнаружили иное*:

‘Карикатурная лягушка Фьюри была принята правыми постерами на различных онлайн-форумах, таких как 4chan, в начале 2010-х годов. С тех пор Фьюри проводил кампанию по возвращению значения своего персонажа, и эмоция увидела всплеск более мейнстримного неполитического использования и положительного использования на Twitch. Наши результаты на Twitch согласуются, показывая, что “FeelsGoodMan” и его аналог “FeelsBadMan” в основном используются буквально.’

Проблемы вниз по течению

Такой ‘приманка и смена’ в отношении обобщенных ‘фич’ мема может препятствовать исследованиям NLP, которые уже категоризировали его как ‘ненавистный’, ‘праворадикальный’ или ‘националистический [США]’, и которые сбросили эту информацию в долгосрочные открытые репозитории. Поздние проекты NLP могут не выбрать аудит старых данных; могут не иметь практического механизма для этого; и могут даже не быть осведомлены о необходимости.

В результате этого использования наборов данных Twitch 2017 года для формирования алгоритма ‘политической категоризации’ привело бы к атрибуции заметной праворадикальной активности на Twitch, основанной на частоте эмоции FeelsGoodMan. Twitch может или не может быть полон праворадикальных влиятельных лиц, но, согласно исследователям новой работы, вы не можете доказать это лягушкой.

Политическое значение мема ‘Pepe’ кажется брошенным 140 миллионами пользователей Twitch (41% из которых моложе 24), которые фактически переукрали работу у оригинальных воров и раскрасили ее в своих собственных цветах, без какой-либо конкретной программы.

Метод и данные

Исследователи обнаружили, что помеченные данные эмоций Twitch были ‘практически несуществующими’, несмотря на вывод предыдущего исследования, что существует восемь миллионов общих эмоций, и 400 000 присутствовали в одной неделе выхода Twitch в неделю, выбранной этими исследователями.

Исследование 2017 года, посвященное прогнозированию эмоций на Twitch, ограничилось прогнозированием только верхних 30 эмоций Twitch, набрав всего 0,39 для прогнозирования эмоций.

Для решения этой проблемы исследователи из Сан-Франциско применили новый подход к старым данным, разделив их на 80/20 между обучением и тестированием, и используя ‘традиционные’ методы машинного обучения, которые ранее не использовались для изучения данных Twitch. Эти методы включали Наивный Байес (NB), Случайный лес (RF), Машина опорных векторов (SVM, с линейными ядрами), и Логистическая регрессия.

Этот подход превзошел предыдущие базовые показатели анализа настроений Twitch на 63,8%, и позволил исследователям впоследствии разработать рамку LOOVE (Learning Out Of Vocabulary Emotions), которая способна выявлять неологизмы и ‘обогащать’ существующие модели этими новыми определениями.

Архитектура рамки LOOVE (Learning Out Of Vocabulary Emotions), разработанной исследователями.

Архитектура рамки LOOVE (Learning Out Of Vocabulary Emotions), разработанной исследователями.

LOOVE позволяет проводить обучение встроенных слов без надзора, и также позволяет периодически повторно обучать и дообучать, исключая необходимость в помеченных наборах данных, что было бы логистически нецелесообразно, учитывая масштаб задачи и быструю эволюцию эмоций.

В рамках проекта исследователи обучили ‘Псевдословарь эмоций’ на непомеченном наборе данных Twitch, в результате чего было сгенерировано 444 714 встроенных слов, эмоций, эмодзи и эмотиконов.

Кроме того, они дополнили лексикон VADER лексиконом эмодзи/эмотиконов, и, помимо вышеупомянутого набора данных EC, также использовали три других публичных набора данных для тернарной классификации настроений, из Twitter, Rotten Tomatoes и выборочного набора данных YELP.

Учитывая большое разнообразие методов и наборов данных, использованных в исследовании, результаты варьируются, но исследователи утверждают, что их лучший базовый показатель превзошел ближайший предыдущий показатель на 7,36 процентных пункта.

Исследователи считают, что продолжающаяся ценность проекта заключается в разработке LOOVE, основанной на векторных вложениях слов (W2V), обученных на более чем 313 миллионах сообщений чата Twitch с помощью K-Ближайших соседей (KNN).

Авторы заключили:

‘Ключевой особенностью рамки является псевдословарь эмоций, который можно использовать для вывода настроений неизвестных эмоций. Используя этот псевдословарь эмоций, мы создали таблицу настроений для 22 507 эмоций. Это первый случай понимания эмоций в таком масштабе.’

 

* Мое преобразование внутренних цитат в гиперссылки.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.