Зв'язатися з нами

Розуміння емоцій Twitch в аналізі настроїв

Штучний Інтелект

Розуміння емоцій Twitch в аналізі настроїв

mm

Публіка зростаюче використання емодзі, смайликів, емоцій, мемів, GIF-файлів та інших невербальних способів спілкування на платформах соціальних медіа останніми роками все більше заважає дослідникам даних зрозуміти глобальний соціологічний ландшафт; принаймні в тій мірі, в якій світові соціологічні тенденції можна розпізнати з публічного дискурсу.

Хоча за останнє десятиліття обробка природної мови (NLP) стала потужним інструментом для аналізу настроїв, сектор відчуває труднощі не тільки в тому, щоб не відставати від лексикон, що постійно розвивається сленгу та мовних скорочень у багатьох мовах, а також у спробах розшифрувати значення на основі зображення публікації на платформах соціальних мереж, таких як Facebook і Twitter.

З обмежена кількість Оскільки високопоширені платформи соціальних мереж є єдиним справді гіпермасштабним ресурсом для такого роду досліджень, сектору штучного інтелекту важливо хоча б намагатися йти в ногу з ними.

У липні документ із Тайваню запропонував a новий метод класифікувати настрої користувачів на основі «GIF-зображень з реакціями», опублікованих у темах соціальних мереж (див. зображення нижче), використовуючи базу даних із 30,000 XNUMX твітів для розробки способу прогнозування реакцій на публікацію. У статті було виявлено, що реакції на основі зображень у багатьох відношеннях легше оцінити, оскільки вони з меншою ймовірністю містять сарказм, помітний виклик в аналізі настроїв.

Дослідники з Тайваню вивчали використання анімованих GIF-зображень з реакціями як «редуктивних індикаторів» настроїв у статті 2021 року.

На початку цього року дослідження під керівництвом Бостонського університету навчені моделі машинного навчання передбачити меми-зображення, які, ймовірно, стануть вірусними у Твіттері; а в серпні британські дослідники порівняли зростання кількості емодзі зі смайликами (є різниця) у соціальних мережах, зібравши масштабний 7-мовний набір даних піктографічних настроїв Twitter.

Емоції Twitch

Тепер американські дослідники розробили методологію машинного навчання, щоб краще зрозуміти, класифікувати та виміряти псевдолексикон, що постійно розвивається. емоції у надзвичайно популярній мережі Twitch.

Емоції – це неологізми, що використовуються на Twitch для вираження емоцій, настрою або жартів. Оскільки вони за визначенням є новими виразами, завданням системи машинного навчання є не обов'язково нескінченний каталог нових емоцій (які можуть бути використані лише один раз або швидко виходять з ужитку), а краще розуміння структури, яка їх нескінченно генерує; та розробка систем, здатних розпізнавати емоцію як «тимчасово дійсне» слово або складну фразу, емоційну/політичну температуру якої, можливо, потрібно буде повністю оцінювати з контексту.

Сусіди емоції "FeelsGoodMan", значення якої можна змінити незрозумілими суфіксами. Джерело: https://arxiv.org/pdf/2108.08411.pdf

Сусіди емодзі «FeelsGoodMan», значення якого можна змінити за допомогою незрозумілих суфіксів. Джерело: https://arxiv.org/pdf/2108.08411.pdf

Команда папір має титул FeelsGoodMan: висновок про семантику неологізмів Twitch, і походить від трьох дослідників Spiketrap, компанії аналізу соціальних медіа в Сан-Франциско.

Приманка і перемикач

Незважаючи на свою новизну та часто коротке життя, емоції Twitch часто переробляють культурний матеріал (включаючи старіші емоції) таким чином, що може спрямувати системи аналізу настроїв у неправильному напрямку. Відстеження зміни значення емоції в міру її розвитку може навіть виявити повну інверсію або заперечення її початкового почуття чи наміру.

Наприклад, дослідники відзначають, що оригінальний alt-right зловживання однойменного FeelsGoodMan Мем Pepe-the-frog майже повністю втратив свій початковий політичний відтінок у контексті його використання на Twitch.

Використання фрази разом із зображенням мультяшної жаби з коміксу 2005 року художника Метта Ф’юрі, став ультраправим мемом у 2010-х роках. Хоч Вокс пише у 2017 році, що привласнення мему правими пережило самопроголошену заяву Ф'юрі роз'єднання з таким використанням дослідники з Сан-Франциско, які створили нову статтю, виявили інше*:

«Мультяшна жаба Ф’юрі була використана правими плакатами на різних онлайн-форумах, таких як 4chan, на початку 2010-х. Відтоді Ф’юрі проводить кампанію, щоб відновити сенс свого персонажа, і ця емоція набула популярності використання без ненависті і позитивне використання на Twitch. Наші результати на Twitch узгоджуються, показуючи, що «FeelsGoodMan» та його аналог «FeelsBadMan» переважно використовуються буквально.

Проблеми вниз по течії

Такого роду «підманка та маніпуляція» щодо узагальнених «особливостей» мему може перешкоджати дослідницьким проектам НЛП, які вже класифікували його як «ненависницький», «правий» або «націоналістичний [США]», і які виклали цю інформацію в довгострокові репозиторії з відкритим кодом. Пізніші проекти НЛП можуть не вирішити перевіряти актуальність старих даних; можуть не мати жодного практичного механізму для цього; і можуть навіть не усвідомлювати необхідність.

Результатом цього є те, що використання наборів даних на основі Twitch 2017 року для формулювання алгоритму «політичної категоризації» приписуватиме помітну активність альтернативного правого на Twitch на основі частоти FeelsGoodMan емоції. Twitch може бути, а може і не бути повний ультраправих впливових людей, але, за словами дослідників нової статті, на прикладі жаби це довести не можна.

Політичне значення мему «Пепе», схоже, було легковажно відкинуто 140 мільйонами користувачів Twitch (41% з яких молодше 24 років), які фактично повторно вкрали роботу у оригінальних злодіїв і пофарбували її у власні кольори, без будь-якої конкретної мети.

Метод і дані

Дослідники виявили, що позначені дані про емодзі Twitch «практично відсутні», незважаючи на висновок раніше дослідження що є всього вісім мільйонів емоцій, і 400,000 XNUMX були присутні протягом одного тижня виходу Twitch у тиждень, обраний цими попередніми дослідниками.

A 2017 дослідження звернення до передбачення емоцій на Twitch обмежилося прогнозуванням лише 30 найкращих емоцій Twitch, отримавши лише 0.39 бала за прогнозування емоцій.

Щоб вирішити цю проблему, дослідники з Сан-Франциско застосували новий підхід до старих даних, розділивши їх у співвідношенні 80/20 між навчанням та тестуванням, та застосувавши «традиційні» методи машинного навчання, які раніше не використовувалися для вивчення даних Twitch. Ці методи включали Наївні Баєси (NB), Випадковий ліс (РФ), Підтримка векторної машини (SVM, з лінійними ядрами), і Логістична регресія.

Цей підхід перевершив попередні базові показники настроїв Twitch на 63.8% і дозволив дослідникам згодом розробити фреймворк LOOVE (Learning Out Of Vocabulary Emotions - Вивчення емоцій зі словникового запасу), який здатний ідентифікувати неологізми та «збагачувати» існуючі моделі цими новими визначеннями.

Архітектура фреймворку LOOVE (Learning Out Of Vocabulary Emotions), розробленого дослідниками.

Архітектура фреймворку LOOVE (Learning Out Of Vocabulary Emotions), розробленого дослідниками.

LOOVE полегшує неконтрольоване навчання вбудовування слів, а також забезпечує періодичне перенавчання та тонке налаштування, уникаючи потреби в маркованих наборах даних, що було б логістично непрактичним, враховуючи масштаб завдання та швидку еволюцію емоцій.

На службі проекту дослідники навчений емодзі «Псевдословник» на немаркованому наборі даних Twitch, у процесі генеруючи 444,714 XNUMX вбудовувань слів, емодзі, емодзі та смайликів.

Крім того, вони збільшили a Лексикон VADER з лексикон emoji/emoticon, і на додаток до вищезгаданого набору даних EC, також використовував три інші загальнодоступні набори даних для потрійний класифікація настроїв із Twitter, Rotten Tomatoes і вибіркового набору даних YELP.

Враховуючи велику різноманітність методологій і наборів даних, використаних у дослідженні, результати різноманітні, але дослідники стверджують, що їхній найкращий базовий сценарій перевершив найближчий попередній показник на 7.36 відсоткових пунктів.

Дослідники вважають, що поточна цінність проекту полягає в розробці LOOVE, заснованої на впровадженні слово-вектор (W2V), навченому на понад 313 мільйонах повідомлень чату Twitch за допомогою K-найближчий сусід (КНН).

Автори роблять висновок:

«Руховою функцією фреймворку є псевдословник емоцій, який можна використовувати для визначення настроїв невідомих емоцій. Використовуючи цей псевдословник емоцій, ми створили таблицю настроїв для 22,507 XNUMX емоцій. Це перший випадок розуміння емоцій у такому масштабі».

 

* Моє перетворення вбудованих цитат на гіперпосилання.