Изкуствен интелект

Разбиране на Twitch Emotes в анализа на настроението

Обновено on Декември 9, 2022

На обществеността нарастваща употреба на емотикони, емотикони, емотикони, мемове, GIF файлове и други невербални начини за комуникация в социалните медийни платформи през последните години все повече объркват усилията на учените по данни да разберат глобалния социологически пейзаж; поне дотолкова, доколкото световните социологически тенденции могат да бъдат разпознати от публичния дискурс.

Въпреки че обработката на естествен език (NLP) се превърна в мощен инструмент за анализ на настроенията през последното десетилетие, секторът среща трудности не само в поддържането на непрекъснато развиващ се лексикон на жаргон и езикови преки пътища в множество езици, но също и в опитите за декодиране на значението на базирани на изображения публикации в социални медийни платформи като Facebook и Twitter.

Тъй като ограничен брой на гъсто населените социални медийни платформи са единственият истински хипермащабен ресурс за този вид изследвания, от съществено значение за сектора на изкуствения интелект е поне да се опита да поддържа темпото с него.

През юли документ от Тайван предложи a Нов метод за категоризиране на потребителските настроения въз основа на „реакционни GIF файлове“, публикувани в нишките на социалните медии (вижте изображението по-долу), използвайки база данни от 30,000 XNUMX туита, за да разработите начин за прогнозиране на реакциите към публикация. Документът установи, че отговорите, базирани на изображения, са по много начини по-лесни за измерване, тъй като е по-малко вероятно да съдържат сарказъм, забележително предизвикателство в анализа на настроенията.

Изследователи от Тайван изследваха използването на анимирани реакционни GIF файлове като „редукционни индикатори“ на настроенията в документ от 2021 г.

По-рано тази година изследователски усилия, ръководени от Бостънския университет обучени модели за машинно обучение за прогнозиране на мемове на изображения, които е вероятно да станат вирусни в Twitter; и през август британски изследователи изследваха растежа на емотикони в сравнение с емотикони (има разлика) в социалните медии, съставяйки мащабен набор от данни на 7 езика за пиктографски настроения в Twitter.

Twitch Emotes

Сега американски изследователи са разработили методология за машинно обучение, за да разберат, категоризират и измерят по-добре непрекъснато развиващия се псевдо-лексикон на emotes в изключително популярната мрежа Twitch.

Емоциите са неологизми, използвани в Twitch за изразяване на емоция, настроение или шеги. Тъй като те по дефиниция са нови изрази, предизвикателството пред системата за машинно обучение не е непременно да каталогизира безкрайно нови емоции (които могат да се използват само веднъж или в противен случай бързо да изчезнат от употреба), а да придобие по-добро разбиране на рамката, която безкрайно ги генерира; и да разработят системи, способни да разпознаят емоция като „временно валидна“ дума или съставна фраза, чиято емоционална/политическа температура може да се наложи да се прецени изцяло от контекста.

Съседи на емоцията „FeelsGoodMan“, чието значение може да бъде променено от неясни суфикси. Източник: https://arxiv.org/pdf/2108.08411.pdf

- хартия е озаглавен FeelsGoodMan: Извеждане на семантика на Twitch неологизми, и идва от трима изследователи от Spiketrap, компания за анализ на социални медии в Сан Франциско.

Примамка и превключвател

Въпреки своята новост и често кратък живот, емотите на Twitch често рециклират културен материал (включително по-стари емоции) по начин, който може да насочи рамките за анализ на настроенията в грешна посока. Проследяването на промяната в значението на една емоция, докато се развива, може дори да разкрие пълна инверсия или отрицание на първоначалното й чувство или намерение.

Например, изследователите отбелязват, че оригиналният alt-right злоупотреба на едноименния FeelsGoodMan Мемът Pepe-the-frog почти напълно загуби първоначалния си политически привкус в контекста на използването му в Twitch.

Използването на фразата, заедно с изображение на анимационна жаба от комикс от 2005 г. на художника Мат Фюри, се превърна в крайнодясно меме през 2010 г. Въпреки че Vox пише през 2017 г., че присвояването на мема от дясното е оцеляло след самопризнаването на Фюри дисоцииране с такава употреба изследователите от Сан Франциско зад новата статия са открили друго*:

„Анимационната жаба на Фюри беше възприета от десни плакати в различни онлайн форуми като 4chan в началото на 2010 г. Оттогава Фюри води кампания за възвръщане на значението на героя си и емоцията бележи подем в по-масовия поток използване без омраза и положително използване на Twitch. Нашите резултати в Twitch са съгласни, показвайки, че „FeelsGoodMan“ и неговият аналог „FeelsBadMan“ се използват главно буквално.

Проблем надолу по веригата

Този вид „примамка и превключване“ по отношение на обобщените „характеристики“ на мем може да възпрепятства изследователските проекти на НЛП, които вече са го категоризирали като „омразен“, „дясно крило“ или „националистически [САЩ]“ и които са изхвърлили тази информация в дългосрочни хранилища с отворен код. По-късните НЛП проекти може да не изберат да одитират валутата на по-старите данни; може да няма практически механизъм за това; и може дори да не осъзнава необходимостта.

Резултатът от това е, че използването на набори от данни, базирани на Twitch за 2017 г., за формулиране на алгоритъм за „политическа категоризация“ би приписало забележителна активност на altright в Twitch въз основа на честотата на FeelsGoodMan емоция. Twitch може или не може да бъде пълен с алтернативни влиятели, но според изследователите на новата статия не можете да го докажете с жабата.

Политическото значение на мемето „Pepe“ изглежда небрежно е било пренебрегнато от 140-те милиона потребители на Twitch (41% от които са под 24 години), които ефективно са откраднали отново творбата от оригиналните крадци и са я боядисали в собствените си цветове, без конкретна цел.

Метод и данни

Изследователите установиха, че етикетираните данни за емоция на Twitch „на практика не съществуват“, въпреки заключението на по-ранно проучване че има общо осем милиона емоции, а 400,000 XNUMX са присъствали през една седмица на продукцията на Twitch в седмицата, избрана от тези по-ранни изследователи.

A 2017 проучване разглеждането на емоционалното предсказване на Twitch се ограничи до предсказване само на 30-те най-добри емоции на Twitch, отбелязвайки само 0.39 за емоционално предсказване.

За да се справят с недостига, изследователите от Сан Франциско възприеха нов подход към по-старите данни, разделяйки ги 80/20 между обучение и тестване и прилагайки „традиционни“ методи за машинно обучение, които не са били използвани преди за изучаване на данни от Twitch. Тези методи включват Наивен Байес (NB), Случайна гора (RF), Поддържаща векторна машина (SVM, с линейни ядра) и Логистична регресия.

Този подход надмина предишните базови стойности на настроенията на Twitch с 63.8% и даде възможност на изследователите впоследствие да разработят рамката LOOVE (Learning Out Of Vocabulary Emotions), която е в състояние да идентифицира неологизми и да „обогати“ съществуващите модели с тези нови дефиниции.

Архитектура на рамката LOOVE (Learning Out Of Vocabulary Emotions), разработена от изследователите.

LOOVE улеснява неконтролираното обучение на вграждане на думи и също така включва периодично преобучение и фина настройка, премахвайки необходимостта от етикетирани набори от данни, което би било логистично непрактично, като се има предвид мащабът на задачата и бързата еволюция на емоциите.

В услуга на проекта изследователите обучен емоционален „псевдо-речник“ на немаркиран набор от данни на Twitch, в процеса на генериране на 444,714 XNUMX вграждания на думи, емоции, емотикони и емотикони.

Освен това те увеличиха a Лексикон на VADER с лексикон за емотикони/емотикони, и в допълнение към гореспоменатия набор от данни на ЕК, също използва три други публично достъпни набора от данни за трикомпонентен класификация на настроенията от Twitter, Rotten Tomatoes и набор от данни на YELP.

Като се има предвид голямото разнообразие от методологии и набори от данни, използвани в проучването, резултатите са разнообразни, но изследователите твърдят, че тяхната най-добра базова линия е по-добра от най-близкия предишен показател със 7.36 процентни пункта.

Изследователите смятат, че текущата стойност на проекта е разработването на LOOVE, базирано на вграждания от дума към вектор (W2V), обучени върху над 313 милиона съобщения в чат Twitch с помощта на K-най-близкият съсед (KNN).

Авторите заключават:

„Движеща функция зад рамката е емоционален псевдо-речник, който може да се използва за извличане на настроения за непознати емоции. Използвайки този псевдо-речник на емоциите, ние създадохме таблица на чувствата за 22,507 XNUMX емоции. Това е първият случай на емоционално разбиране в такъв мащаб.'

* Моето преобразуване на вградени цитати в хипервръзки.