Штучний інтелект
Понимание.twitch-емотикон в анализі настрою

Розширений púbлічний використання емодзі, емотиконів, емotes, мемів, GIF-ізображень та інших невербальних способів спілкування на соціальних медіа-платформах у останні роки все більше плутало зусилля вчених-даних, щоб зрозуміти глобальну соціологічну картину; принаймні, у такій мірі, в якій світові соціологічні тенденції можуть бути визначені з публічних дискусій.
Хоча обробка природної мови (NLP) стала потужним інструментом у аналізі настрою за останні десять років, цей сектор має труднощі не тільки у підтримці постійно еволюціонуючого лексикону сленгу та лінгвістичних скорочень кількох мов, але також у спробах розшифрувати значення образових публікацій у соціальних медіа-платформах, таких як Facebook та Twitter.
Оскільки обмежена кількість дуже популярних соціальних медіа-платформ є єдиним справжнім гіпермасштабним ресурсом для цього типу досліджень, важливо, щоб сектор штучного інтелекту хоча б намагався підтримувати темп з ними.
У липні дослідження з Тайваню запропонувало новий метод категоризації настрою користувачів на основі ‘реакційних GIF-ізображень’, опублікованих у соціальних медіа-ниточках (див. зображення нижче), використовуючи базу даних з 30 000 твітів для розробки способу передбачення реакцій на публікацію. Дослідження показало, що образові відповіді в багатьох аспектах легше оцінювати, оскільки вони менш схильні містити сарказм, помітний виклик у аналізі настрою.

Дослідники з Тайваню вивчили використання анімованих реакційних GIF-ізображень як ‘редуктивних індикаторів’ настрою у праці 2021 року.
На початку цього року дослідження під керівництвом Бостонського університету навчили моделі машинного навчання передбачати образові меми, які можуть стати вірусними у Twitter; а у серпні британські дослідники вивчили зростання емодзі порівняно з емотиконами (існує відмінність) у соціальних медіа, склавши великомасштабну 7-мовну базу даних піктографічного настрою Twitter.
Twitch Емотікони
Тепер дослідники зі США розробили методологію машинного навчання для кращого розуміння, категоризації та вимірювання постійно еволюціонуючого псевдо-лексикону емотиконів на величезно популярній мережі Twitch.
Емотікони – це неологізми, використовувані на Twitch для вираження емоцій, настрою чи внутрішніх жартів. Оскільки вони за визначенням є новими виразами, викликом для системи машинного навчання є не тільки нескінченний каталог нових емотиконів (які можуть бути використані тільки один раз, або ж швидко вийти з ужитку), але й отримання кращого розуміння рамок, які постійно генерують їх; та розробка систем, здатних розпізнавати емотикон як ‘тимчасово дійсне’ слово чи складену фразу, чиємо емоційне/політичне значення може потребувати оцінки цілком з контексту.

Сусіди емотикону ‘FeelsGoodMan’, чиє значення можна змінити за допомогою незрозумілих суфіксів. Джерело: https://arxiv.org/pdf/2108.08411.pdf
Праця називається FeelsGoodMan: Виведення семантики неологізмів Twitch, і походить від трьох дослідників компанії Spiketrap, компанії соціального медіа-аналізу у Сан-Франциско.
Приманка та перемикання
Незважаючи на свою новизну та часто коротке життя, Twitch емотікони часто переробляють культурний матеріал (включаючи старіші емотікони) таким чином, що може направити рамки аналізу настрою у неправильному напрямку. Відстеження зміни значення емотикону під час його еволюції може навіть показати повну інверсію або заперечення його початкового настрою чи наміру.
Наприклад, дослідники відзначають, що оригінальне альт-праве невикористання емотикону FeelsGoodMan Pepe-the-frog мему майже повністю втратило свій оригінальний політичний смак у контексті його використання на Twitch.
Використання фрази разом з зображенням мультяшного жаби з коміксу 2005 року художника Метта Фурі, стало фар-правим мемом у 2010-х роках. Хоча Vox написав у 2017 році, що праве використання мему пережило самовизначення Фурі відтакого використання, дослідники з Сан-Франциско знайшли інше*:
‘Мультяшна жаба Фурі була прийнята правими постерами на різних онлайн-форумах, таких як 4chan, на початку 2010-х років. З тих пір Фурі проводить кампанію за повернення значення свого персонажа, і емотикон побачив зростання більш мейнстрімного не-ненавистного використання та позитивного використання на Twitch. Наші результати на Twitch погоджуються, показуючи, що “FeelsGoodMan” і його аналог “FeelsBadMan” в основному використовуються буквально.’
Проблеми вниз по течії
Такий ‘приманка та перемикання’ щодо узагальнених ‘ознак’ мему може перешкоджати дослідженням NLP, які вже категоризували його як ‘ненавистний’, ‘правий’ або ‘націоналістичний [US]’, і які скинули цю інформацію до довгострокових відкритих джерел. Пізніші проекти NLP можуть не вибрати аудит старих даних; можуть не мати жодного практичного механізму для цього; і можуть навіть не бути обізнані про необхідність.
В результаті цього використання наборів даних Twitch 2017 року для формулювання алгоритму ‘політичної категоризації’ буде приписувати помітну альт-праву діяльність на Twitch, засновану на частоті емотикону FeelsGoodMan. Twitch може бути або не бути повним альт-правими впливовими особами, але, згідно з дослідниками нової праці, цього не можна довести за допомогою жаби.
Політичне значення мему ‘Pepe’ здається було випадково відкинуте 140 мільйонами користувачів Twitch (41% з яких молодше 24 років), які фактично повернули роботу від оригінальних злодіїв і розфарбували її у свої кольори, без будь-якої особливої агенди.
Метод і дані
Дослідники виявили, що позначені дані Twitch емотиконів були ‘практично відсутні’, незважаючи на висновок попереднього дослідження, що існує вісім мільйонів загальних емотиконів, і 400 000 були присутні у одному тижні виходу Twitch у вибраному тижні попередніми дослідниками.
Дослідження 2017 року, присвячене передбаченню емотиконів на Twitch, обмежувалося передбаченням лише верхніх 30 емотиконів Twitch, набравши лише 0,39 для передбачення емотиконів.
Для вирішення цього дефіциту дослідники з Сан-Франциско підійшли до старих даних у новий спосіб, розділивши їх на 80/20 між навчанням і тестуванням, і застосувавши ‘традиційні’ методи машинного навчання, які раніше не використовувалися для вивчення даних Twitch. Ці методи включали Наївний Баєс (NB), Случайний ліс (RF), Машину опорних векторів (SVM, з лінійними ядрами), і Логістичну регресію.
Цей підхід перевершив попередні базові лінії настрою Twitch на 63,8%, і дозволив дослідникам згодом розробити рамку LOOVE (Learning Out Of Vocabulary Emotions), яка здатна розпізнавати неологізми та ‘багатити’ існуючі моделі цими новими визначеннями.

Архітектура рамки LOOVE (Learning Out Of Vocabulary Emotions), розробленої дослідниками.
LOOVE дозволяє без наглядну підготовку вкладень слів, а також передбачає періодичне повторне навчання та донастроювання, усуваючи потребу у позначених наборах даних, які були б логістично недоцільними, враховуючи масштаб завдання та швидку еволюцію емотиконів.
На службу проекту дослідники навчили псевдо-словник емотиконів на позначеному наборі даних Twitch, генеруючи 444 714 вкладень слів, емотиконів, емодзі та емотиконів.
Далі вони розширили лексикон VADER з лексиконом емодзі/емотиконів, і крім вищезгаданого набору даних EC, також використали три інші публічні набори даних для тернарної класифікації настрою, з Twitter, Rotten Tomatoes та вибраного набору даних YELP.
Враховуючи велику різноманітність методів і наборів даних, використаних у дослідженні, результати різноманітні, але дослідники стверджують, що їхній найкращий базовий варіант перевершив найближчий попередній показник на 7,36 відсоткових пунктів.
Дослідники вважають, що тривала цінність проекту полягає у розробці LOOVE, заснованої на вкладеннях слово-вектор (W2V), навчених на понад 313 мільйонах повідомлень чату Twitch за допомогою K-Nearest Neighbor (KNN).
Автори висновують:
‘Ключовою особливістю рамки є псевдо-словник емотиконів, який можна використовувати для виведення настрою невідомих емотиконів. Використовуючи цей псевдо-словник емотиконів, ми створили таблицю настрою для 22 507 емотиконів. Це перший випадок розуміння емотиконів у такому масштабі.’
* Моя конвертація внутрішніх посилань у гіперпосилання.












