Штучний Інтелект
Розуміння емоцій Twitch в аналізі настроїв
Публіка зростаюче використання емодзі, смайликів, емоцій, мемів, GIF-файлів та інших невербальних способів спілкування на платформах соціальних медіа останніми роками все більше заважає дослідникам даних зрозуміти глобальний соціологічний ландшафт; принаймні в тій мірі, в якій світові соціологічні тенденції можна розпізнати з публічного дискурсу.
Хоча за останнє десятиліття обробка природної мови (NLP) стала потужним інструментом для аналізу настроїв, сектор відчуває труднощі не тільки в тому, щоб не відставати від лексикон, що постійно розвивається сленгу та мовних скорочень у багатьох мовах, а також у спробах розшифрувати значення на основі зображення публікації на платформах соціальних мереж, таких як Facebook і Twitter.
З обмежена кількість Оскільки багатолюдні соціальні медіа-платформи є єдиним справді гіпермасштабованим ресурсом для такого роду досліджень, для сектору штучного інтелекту важливо принаймні намагатися не відставати від них.
У липні документ із Тайваню запропонував a новий метод класифікувати настрої користувачів на основі «GIF-файлів реакції», опублікованих у ланцюжках соціальних мереж (див. зображення нижче), використовуючи базу даних із 30,000 XNUMX твітів, щоб розробити спосіб прогнозування реакції на публікацію. У статті було виявлено, що відповіді, засновані на зображеннях, багато в чому легше оцінити, оскільки вони менш імовірно містять сарказм, помітний виклик в аналізі настроїв.
На початку цього року дослідження під керівництвом Бостонського університету навчені моделі машинного навчання прогнозувати зображення-меми, які можуть стати вірусними в Twitter; а в серпні британські дослідники вивчили зростання кількості емодзі в порівнянні з смайликами (є різниця) у соціальних мережах, зібравши масштабний 7-мовний набір даних піктографічних настроїв Twitter.
Емоції Twitch
Тепер американські дослідники розробили методологію машинного навчання, щоб краще зрозуміти, класифікувати та виміряти псевдолексикон, що постійно розвивається. емоції у надзвичайно популярній мережі Twitch.
Емоції — це неологізми, які використовуються на Twitch для вираження емоцій, настрою чи жартів. Оскільки вони за визначенням є новими виразами, завдання системи машинного навчання полягає не в тому, щоб безкінечно каталогізувати нові емоції (які можна використати лише один раз або швидко вийти з ужитку), а в тому, щоб отримати краще розуміння структури, яка нескінченно їх породжує; і розробити системи, здатні розпізнавати емоцію як «тимчасово дійсне» слово або складну фразу, чию емоційну/політичну температуру, можливо, доведеться оцінювати виключно з контексту.
Команда папір має титул FeelsGoodMan: висновок про семантику неологізмів Twitch, і походить від трьох дослідників Spiketrap, компанії аналізу соціальних медіа в Сан-Франциско.
Приманка і перемикач
Незважаючи на свою новизну та часто коротке життя, емоції Twitch часто переробляють культурний матеріал (включаючи старіші емоції) таким чином, що може спрямувати системи аналізу настроїв у неправильному напрямку. Відстеження зміни значення емоції в міру її розвитку може навіть виявити повну інверсію або заперечення її початкового почуття чи наміру.
Наприклад, дослідники відзначають, що оригінальний alt-right зловживання однойменного FeelsGoodMan Мем Pepe-the-frog майже повністю втратив свій початковий політичний відтінок у контексті його використання на Twitch.
Використання фрази разом із зображенням мультяшної жаби з коміксу 2005 року художника Метта Ф’юрі, став ультраправим мемом у 2010-х роках. Хоч Вокс пише у 2017 році право власності на мем пережило самовизнання Ф’юрі роз'єднання з таким використанням дослідники з Сан-Франциско, які створили нову статтю, виявили інше*:
«Мультяшна жаба Ф’юрі була використана правими плакатами на різних онлайн-форумах, таких як 4chan, на початку 2010-х. Відтоді Ф’юрі проводить кампанію, щоб відновити сенс свого персонажа, і ця емоція набула популярності використання без ненависті і позитивне використання на Twitch. Наші результати на Twitch погоджуються, показуючи, що «FeelsGoodMan» і його відповідник «FeelsBadMan» в основному використовуються буквально».
Проблеми вниз по течії
Така «приманка» щодо узагальнених «особливостей» мему може перешкодити дослідницьким проектам НЛП, які вже класифікували його як «ненависницький», «правий» або «націоналістичний [США]», і які викинули цю інформацію. у довгострокові сховища з відкритим кодом. Пізніші проекти НЛП можуть не вибрати перевірку валюти старих даних; може не мати жодного практичного механізму для цього; і може навіть не усвідомлювати потреби.
Результатом цього є те, що використання наборів даних на основі Twitch 2017 року для формулювання алгоритму «політичної категоризації» приписуватиме помітну активність альтернативного правого на Twitch на основі частоти FeelsGoodMan емоції. Twitch може бути, а може і не бути повний ультраправих впливових людей, але, на думку дослідників нової статті, жабою це не доведеш.
Схоже, що 140 мільйонів користувачів Twitch (41% з яких молодше 24 років), які фактично повторно вкрали роботу у оригінальних злодіїв і пофарбували її у власні кольори, без будь-якої конкретної мети.
Метод і дані
Дослідники виявили, що позначені емоційні дані Twitch «практично не існували», незважаючи на висновок раніше дослідження що є всього вісім мільйонів емоцій, і 400,000 XNUMX були присутні протягом одного тижня виходу Twitch у тиждень, обраний цими попередніми дослідниками.
A 2017 дослідження звернення до передбачення емоцій на Twitch обмежилося прогнозуванням лише 30 найкращих емоцій Twitch, отримавши лише 0.39 бала за прогнозування емоцій.
Усуваючи недолік, дослідники з Сан-Франциско застосували новий підхід до старих даних, розділивши їх 80/20 між навчанням і тестуванням і застосувавши «традиційні» методи машинного навчання, які раніше не використовувалися для вивчення даних Twitch. Ці методи включали Наївні Баєси (NB), Випадковий ліс (РФ), Підтримка векторної машини (SVM, з лінійними ядрами), і Логістична регресія.
Цей підхід перевершив попередні базові показники настроїв Twitch на 63.8% і дозволив дослідникам згодом розробити структуру LOOVE (Learning Out Of Vocabulary Emotions), яка здатна ідентифікувати неологізми та «збагачувати» існуючі моделі цими новими визначеннями.
LOOVE полегшує неконтрольоване навчання вбудовування слів, а також забезпечує періодичне перенавчання та тонке налаштування, уникаючи потреби в маркованих наборах даних, що було б логістично непрактичним, враховуючи масштаб завдання та швидку еволюцію емоцій.
На службі проекту дослідники навчений «Псевдо-словник» емоцій у наборі даних Twitch без міток, у процесі генерації 444,714 XNUMX вбудованих слів, емоцій, емодзі та смайлів.
Крім того, вони збільшили a Лексикон VADER з лексикон emoji/emoticon, і на додаток до вищезгаданого набору даних EC, також використовував три інші загальнодоступні набори даних для потрійний класифікація настроїв із Twitter, Rotten Tomatoes і вибіркового набору даних YELP.
Враховуючи велику різноманітність методологій і наборів даних, використаних у дослідженні, результати різноманітні, але дослідники стверджують, що їхній найкращий базовий сценарій перевершив найближчий попередній показник на 7.36 відсоткових пунктів.
Дослідники вважають, що поточна цінність проекту полягає в розробці LOOVE, заснованої на впровадженні слово-вектор (W2V), навченому на понад 313 мільйонах повідомлень чату Twitch за допомогою K-найближчий сусід (КНН).
Автори роблять висновок:
«Основною функцією фреймворку є псевдословник емоцій, який можна використовувати для визначення настроїв щодо невідомих емоцій. Використовуючи цей псевдословник емоцій, ми створили таблицю настроїв для 22,507 XNUMX емоцій. Це перший випадок емоційного розуміння такого масштабу».
* Моє перетворення вбудованих цитат на гіперпосилання.