Connect with us

Sztuczna inteligencja

Zrozumienie Emotek Twitcha w Analizie Sentymentu

mm

Rosnące użycie emojis, emotikonów, emotek, memów, GIFów i innych niewerbalnych sposobów komunikacji na platformach mediów społecznościowych przez publiczność w ostatnich latach coraz bardziej utrudnia naukowcom danych zrozumienie globalnego krajobrazu socjologicznego; przynajmniej w takim stopniu, w jakim światowe trendy socjologiczne mogą być poznane z publicznej dyskusji.

Chociaż Przetwarzanie Języka Naturalnego (NLP) stało się potężnym narzędziem w analizie sentymentu w ciągu ostatniej dekady, sektor ma trudności nie tylko z nadążaniem za ciągle ewoluującym leksykonem slangu i skrótów językowych w wielu językach, ale także z próbami odszyfrowania znaczenia obrazowych postów na platformach mediów społecznościowych, takich jak Facebook i Twitter.

Ponieważ ograniczona liczba bardzo zaludnionych platform mediów społecznościowych jest jedynym prawdziwie hiperskaliowanym zasobem dla tego rodzaju badań, jest niezwykle ważne, aby sektor AI przynajmniej próbował nadążyć za nimi.

W lipcu, praca z Tajwanu zaproponowała nową metodę klasyfikacji sentymentu użytkowników na podstawie ‘reakcji GIF’ opublikowanych w wątkach mediów społecznościowych (patrz poniżej), wykorzystując bazę danych 30 000 tweetów do opracowania sposobu przewidywania reakcji na post. Praca wykazała, że odpowiedzi oparte na obrazach są w wielu przypadkach łatwiejsze do oceny, ponieważ są mniej prawdopodobne do zawierania sarkazmu, znanego wyzwania w analizie sentymentu.

Badacze z Tajwanu zbadali użycie animowanych reakcji GIF jako ‘redukcyjnych wskaźników’ sentymentu w pracy z 2021 roku.

Na początku tego roku, badanie pod przewodnictwem Uniwersytetu w Bostonie wytrenowało modele uczenia maszynowego do przewidywania obrazowych memów, które mogą się rozprzestrzenić na Twitterze; a w sierpniu, brytyjscy badacze zbadali wzrost emojis w porównaniu z emotikonami (istnieje różnica) na platformach mediów społecznościowych, skompilując dużą, 7-językową bazę danych wizualnego sentymentu Twittera.

Emotki Twitcha

Teraz, amerykańscy badacze opracowali metodologię uczenia maszynowego, aby lepiej zrozumieć, zaklasyfikować i zmierzyć ciągle ewoluujący pseudo-leksykon emotek na ogromnie popularnej sieci Twitch.

Emotki to neologizmy używane na Twitchu do wyrażania emocji, nastroju lub żartów. Ponieważ są to nowe wyrażenia, wyzwaniem dla systemu uczenia maszynowego nie jest koniecznie nieustanne katalogowanie nowych emotek (które mogą być używane tylko raz, lub szybko wypaść z użycia), ale zdobycie lepszego zrozumienia ramy, która nieustannie generuje je; oraz rozwinięcie systemów zdolnych do rozpoznania emotki jako ‘tymczasowo ważnego’ słowa lub złożonej frazy, której temperatura emocjonalna/polityczna może wymagać oceny wyłącznie z kontekstu.

Sąsiedzi emotki 'FeelsGoodMan', której znaczenie może być zmienione przez niejasne sufiksy. Źródło: https://arxiv.org/pdf/2108.08411.pdf

Sąsiedzi emotki ‘FeelsGoodMan’, której znaczenie może być zmienione przez niejasne sufiksy. Źródło: https://arxiv.org/pdf/2108.08411.pdf

Praca pt. FeelsGoodMan: Inferring Semantics of Twitch Neologisms, pochodzi od trzech badaczy z Spiketrap, firmy analitycznej mediów społecznościowych w San Francisco.

Potwór i Podmiana

Pomimo swojej nowości i często krótkiego życia, emotki Twitcha często ponownie wykorzystują materiał kulturowy (w tym starsze emotki) w sposób, który może skierować ramy analizy sentymentu w złym kierunku. Śledzenie zmiany znaczenia emotki podczas jej ewolucji może nawet ujawnić całkowite odwrócenie lub negację jej pierwotnego sentymentu lub intencji.

Na przykład, badacze zauważają, że pierwotne nadużycie alt-right emotki FeelsGoodMan Pepe-the-frog już prawie całkowicie straciło swoje pierwotne znaczenie polityczne w kontekście jej użycia na Twitchu.

Użycie frazy, wraz z obrazem kreskówkowego żaby z komiksu z 2005 roku autorstwa Matta Furie, stało się memem skrajnej prawicy w latach 2010. Chociaż Vox napisał w 2017 roku, że przywłaszczenie memu przez prawicę przetrwało samozwaną disocjację Furie z takim użyciem, badacze z San Francisco odkryli coś innego*:

‘Kreskówkowa żaba Furie została przyjęta przez prawicowych użytkowników na różnych internetowych forach, takich jak 4chan, na początku lat 2010. Od tego czasu Furie prowadził kampanię, aby odzyskać znaczenie swojej postaci, a emotka doświadczyła wzrostu bardziej mainstreamowego użycia niezwiązanego z nienawiścią i pozytywnego użycia na Twitch. Nasze wyniki na Twitch potwierdzają to, pokazując, że “FeelsGoodMan” i jego odpowiednik “FeelsBadMan” są głównie używane dosłownie.’

Kłopoty Na Dół

Ten rodzaj ‘potwora i podmiany’ dotyczący uogólnionych ‘cech’ memu może utrudnić projekty badawcze NLP, które już zaklasyfikowały go jako ‘nienawistne’, ‘skrajnie prawicowe’ lub ‘nacjonalistyczne [USA]’, i które wylały tę informację do długoterminowych repozytoriów open source. Późniejsze projekty NLP mogą nie zdecydować się na audyt starszych danych; mogą nie mieć praktycznego mechanizmu, aby to zrobić; i mogą nie być even świadome potrzeby.

Konsekwencją tego jest to, że używanie zestawów danych z 2017 roku opartych na Twitchu do sformułowania ‘algorytmu klasyfikacji politycznej’ przypisałoby znaczną aktywność skrajnej prawicy na Twitchu, na podstawie częstotliwości emotki FeelsGoodMan. Twitch może, lub nie, być pełen skrajnie prawicowych influencerów, ale, według badaczy nowej pracy, nie można tego udowodnić przez żabę.

Znaczenie polityczne memu ‘Pepe’ wydaje się zostać odrzucone przez 140 milionów użytkowników Twitcha (41% z nich ma mniej niż 24 lata), którzy skutecznie odebrali pracę oryginalnym złodziejom i pomalowali ją na swoje kolory, bez żadnego szczególnego celu.

Metoda i Dane

Badacze odkryli, że oznaczone dane emotek Twitcha były ‘prawie nieistniejące’, pomimo wniosku wcześniejszego badania, że istnieje osiem milionów łącznych emotek, i 400 000 było obecnych w jednym tygodniu danych Twitcha w tygodniu wybranym przez tych wcześniejszych badaczy.

Badanie z 2017 roku dotyczące przewidywania emotek na Twitchu ograniczyło się do przewidywania tylko 30 najpopularniejszych emotek Twitcha, uzyskując wynik 0,39 dla przewidywania emotek.

W celu rozwiązania problemu, badacze z San Francisco zastosowali nowe podejście do starszych danych, dzieląc je na 80/20 pomiędzy trening a testowanie, i stosując ‘tradycyjne’ metody uczenia maszynowego, które nie były wcześniej używane do badania danych Twitcha. Metody te obejmowały Naive Bayes (NB), Random Forest (RF), Support Vector Machine (SVM, z liniowymi jądrami), i Logistic Regression.

To podejście przewyższyło poprzednie benchmarki sentymentu Twitcha o 63,8%, i umożliwiło badaczom późniejsze opracowanie ramy LOOVE (Learning Out Of Vocabulary Emotions), która jest w stanie identyfikować neologizmy i ‘wzbogacać’ istniejące modele tymi nowymi definicjami.

Architektura ramy LOOVE (Learning Out Of Vocabulary Emotions) opracowanej przez badaczy.

Architektura ramy LOOVE (Learning Out Of Vocabulary Emotions) opracowanej przez badaczy.

LOOVE ułatwia niesupervisionowane szkolenie osadzania słów, i również umożliwia okresowe ponowne szkolenie i dostosowywanie, eliminując potrzebę oznaczonych zestawów danych, co byłoby logistycznie niewykonalne, biorąc pod uwagę skalę zadania i szybką ewolucję emotek.

W ramach projektu, badacze wytrenowali ‘Pseudo-Słownik’ emotek na nieoznaczonym zestawie danych Twitcha, generując 444 714 osadzeń słów, emotek, emojis i emotikonów.

Ponadto, uzupełnili VADER leksykon z leksykonem emoji/emotikonów, i oprócz wcześniej wymienionego zestawu danych EC, również wykorzystali trzy inne publicznie dostępne zestawy danych do klasyfikacji sentymentu z Twittera, Rotten Tomatoes i próbkowanego zestawu danych YELP.

Biorąc pod uwagę wielką różnorodność metod i zestawów danych użytych w badaniu, wyniki są zróżnicowane, ale badacze twierdzą, że ich najlepszy benchmark przewyższył najbliższy poprzedni wynik o 7,36 punktów procentowych.

Badacze uważają, że wartość projektu jest rozwinięciem ramy LOOVE, opartej na osadzaniu słów wektorowych (W2V) wytrenowanych na ponad 313 milionach wiadomości czatu Twitcha z pomocą K-Nearest Neighbor (KNN).

Autorzy kończą:

‘Kluczową cechą ramy jest pseudo-słownik emotek, który może być użyty do pochodzenia sentymentu dla nieznanych emotek. Używając tego pseudo-słownika emotek, utworzyliśmy tabelę sentymentu dla 22 507 emotek. Jest to pierwszy przypadek zrozumienia emotek w tej skali.’

 

* Moja konwersja cytatów wewnętrznych na linki.

 

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.