заглушки Розуміння емоцій Twitch в аналізі настроїв - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Розуміння емоцій Twitch в аналізі настроїв

mm
оновлений on

Публіка зростаюче використання емодзі, смайликів, емоцій, мемів, GIF-файлів та інших невербальних способів спілкування на платформах соціальних медіа останніми роками все більше заважає дослідникам даних зрозуміти глобальний соціологічний ландшафт; принаймні в тій мірі, в якій світові соціологічні тенденції можна розпізнати з публічного дискурсу.

Хоча за останнє десятиліття обробка природної мови (NLP) стала потужним інструментом для аналізу настроїв, сектор відчуває труднощі не тільки в тому, щоб не відставати від лексикон, що постійно розвивається сленгу та мовних скорочень у багатьох мовах, а також у спробах розшифрувати значення на основі зображення публікації на платформах соціальних мереж, таких як Facebook і Twitter.

З обмежена кількість Оскільки багатолюдні соціальні медіа-платформи є єдиним справді гіпермасштабованим ресурсом для такого роду досліджень, для сектору штучного інтелекту важливо принаймні намагатися не відставати від них.

У липні документ із Тайваню запропонував a новий метод класифікувати настрої користувачів на основі «GIF-файлів реакції», опублікованих у ланцюжках соціальних мереж (див. зображення нижче), використовуючи базу даних із 30,000 XNUMX твітів, щоб розробити спосіб прогнозування реакції на публікацію. У статті було виявлено, що відповіді, засновані на зображеннях, багато в чому легше оцінити, оскільки вони менш імовірно містять сарказм, помітний виклик в аналізі настроїв.

Дослідники з Тайваню досліджували використання анімованих GIF-файлів реакцій як «редукційних індикаторів» настроїв у статті 2021 року.

На початку цього року дослідження під керівництвом Бостонського університету навчені моделі машинного навчання прогнозувати зображення-меми, які можуть стати вірусними в Twitter; а в серпні британські дослідники вивчили зростання кількості емодзі в порівнянні з смайликами (є різниця) у соціальних мережах, зібравши масштабний 7-мовний набір даних піктографічних настроїв Twitter.

Емоції Twitch

Тепер американські дослідники розробили методологію машинного навчання, щоб краще зрозуміти, класифікувати та виміряти псевдолексикон, що постійно розвивається. емоції у надзвичайно популярній мережі Twitch.

Емоції — це неологізми, які використовуються на Twitch для вираження емоцій, настрою чи жартів. Оскільки вони за визначенням є новими виразами, завдання системи машинного навчання полягає не в тому, щоб безкінечно каталогізувати нові емоції (які можна використати лише один раз або швидко вийти з ужитку), а в тому, щоб отримати краще розуміння структури, яка нескінченно їх породжує; і розробити системи, здатні розпізнавати емоцію як «тимчасово дійсне» слово або складну фразу, чию емоційну/політичну температуру, можливо, доведеться оцінювати виключно з контексту.

Сусіди емоції "FeelsGoodMan", значення якої можна змінити незрозумілими суфіксами. Джерело: https://arxiv.org/pdf/2108.08411.pdf

Сусіди емоції "FeelsGoodMan", значення якої можна змінити незрозумілими суфіксами. Джерело: https://arxiv.org/pdf/2108.08411.pdf

Команда папір має титул FeelsGoodMan: висновок про семантику неологізмів Twitch, і походить від трьох дослідників Spiketrap, компанії аналізу соціальних медіа в Сан-Франциско.

Приманка і перемикач

Незважаючи на свою новизну та часто коротке життя, емоції Twitch часто переробляють культурний матеріал (включаючи старіші емоції) таким чином, що може спрямувати системи аналізу настроїв у неправильному напрямку. Відстеження зміни значення емоції в міру її розвитку може навіть виявити повну інверсію або заперечення її початкового почуття чи наміру.

Наприклад, дослідники відзначають, що оригінальний alt-right зловживання однойменного FeelsGoodMan Мем Pepe-the-frog майже повністю втратив свій початковий політичний відтінок у контексті його використання на Twitch.

Використання фрази разом із зображенням мультяшної жаби з коміксу 2005 року художника Метта Ф’юрі, став ультраправим мемом у 2010-х роках. Хоч Вокс пише у 2017 році право власності на мем пережило самовизнання Ф’юрі роз'єднання з таким використанням дослідники з Сан-Франциско, які створили нову статтю, виявили інше*:

«Мультяшна жаба Ф’юрі була використана правими плакатами на різних онлайн-форумах, таких як 4chan, на початку 2010-х. Відтоді Ф’юрі проводить кампанію, щоб відновити сенс свого персонажа, і ця емоція набула популярності використання без ненависті і позитивне використання на Twitch. Наші результати на Twitch погоджуються, показуючи, що «FeelsGoodMan» і його відповідник «FeelsBadMan» в основному використовуються буквально».

Проблеми вниз по течії

Така «приманка» щодо узагальнених «особливостей» мему може перешкодити дослідницьким проектам НЛП, які вже класифікували його як «ненависницький», «правий» або «націоналістичний [США]», і які викинули цю інформацію. у довгострокові сховища з відкритим кодом. Пізніші проекти НЛП можуть не вибрати перевірку валюти старих даних; може не мати жодного практичного механізму для цього; і може навіть не усвідомлювати потреби.

Результатом цього є те, що використання наборів даних на основі Twitch 2017 року для формулювання алгоритму «політичної категоризації» приписуватиме помітну активність альтернативного правого на Twitch на основі частоти FeelsGoodMan емоції. Twitch може бути, а може і не бути повний ультраправих впливових людей, але, на думку дослідників нової статті, жабою це не доведеш.

Схоже, що 140 мільйонів користувачів Twitch (41% з яких молодше 24 років), які фактично повторно вкрали роботу у оригінальних злодіїв і пофарбували її у власні кольори, без будь-якої конкретної мети.

Метод і дані

Дослідники виявили, що позначені емоційні дані Twitch «практично не існували», незважаючи на висновок раніше дослідження що є всього вісім мільйонів емоцій, і 400,000 XNUMX були присутні протягом одного тижня виходу Twitch у тиждень, обраний цими попередніми дослідниками.

A 2017 дослідження звернення до передбачення емоцій на Twitch обмежилося прогнозуванням лише 30 найкращих емоцій Twitch, отримавши лише 0.39 бала за прогнозування емоцій.

Усуваючи недолік, дослідники з Сан-Франциско застосували новий підхід до старих даних, розділивши їх 80/20 між навчанням і тестуванням і застосувавши «традиційні» методи машинного навчання, які раніше не використовувалися для вивчення даних Twitch. Ці методи включали Наївні Баєси (NB), Випадковий ліс (РФ), Підтримка векторної машини (SVM, з лінійними ядрами), і Логістична регресія.

Цей підхід перевершив попередні базові показники настроїв Twitch на 63.8% і дозволив дослідникам згодом розробити структуру LOOVE (Learning Out Of Vocabulary Emotions), яка здатна ідентифікувати неологізми та «збагачувати» існуючі моделі цими новими визначеннями.

Архітектура фреймворку LOOVE (Learning Out Of Vocabulary Emotions), розробленого дослідниками.

Архітектура фреймворку LOOVE (Learning Out Of Vocabulary Emotions), розробленого дослідниками.

LOOVE полегшує неконтрольоване навчання вбудовування слів, а також забезпечує періодичне перенавчання та тонке налаштування, уникаючи потреби в маркованих наборах даних, що було б логістично непрактичним, враховуючи масштаб завдання та швидку еволюцію емоцій.

На службі проекту дослідники навчений «Псевдо-словник» емоцій у наборі даних Twitch без міток, у процесі генерації 444,714 XNUMX вбудованих слів, емоцій, емодзі та смайлів.

Крім того, вони збільшили a Лексикон VADER з лексикон emoji/emoticon, і на додаток до вищезгаданого набору даних EC, також використовував три інші загальнодоступні набори даних для потрійний класифікація настроїв із Twitter, Rotten Tomatoes і вибіркового набору даних YELP.

Враховуючи велику різноманітність методологій і наборів даних, використаних у дослідженні, результати різноманітні, але дослідники стверджують, що їхній найкращий базовий сценарій перевершив найближчий попередній показник на 7.36 відсоткових пунктів.

Дослідники вважають, що поточна цінність проекту полягає в розробці LOOVE, заснованої на впровадженні слово-вектор (W2V), навченому на понад 313 мільйонах повідомлень чату Twitch за допомогою K-найближчий сусід (КНН).

Автори роблять висновок:

«Основною функцією фреймворку є псевдословник емоцій, який можна використовувати для визначення настроїв щодо невідомих емоцій. Використовуючи цей псевдословник емоцій, ми створили таблицю настроїв для 22,507 XNUMX емоцій. Це перший випадок емоційного розуміння такого масштабу».

 

* Моє перетворення вбудованих цитат на гіперпосилання.