Artificial Intelligence
Zrozumienie emocji Twitcha w analizie nastrojów

Publiczności rosnące użycie emotikonów, emotikonów, memów, GIF-ów i innych niewerbalnych sposobów komunikacji na platformach mediów społecznościowych w ostatnich latach coraz bardziej utrudniało wysiłki badaczy danych mające na celu zrozumienie globalnego krajobrazu socjologicznego; przynajmniej w takim stopniu, w jakim z dyskursu publicznego można dostrzec światowe trendy socjologiczne.
Chociaż w ciągu ostatniej dekady przetwarzanie języka naturalnego (NLP) stało się potężnym narzędziem w analizie nastrojów, sektor ten ma trudności nie tylko z nadążaniem za stale rozwijający się leksykon slangu i skrótów językowych w wielu językach, ale także próbując rozszyfrować znaczenie oparte na obrazie posty na platformach mediów społecznościowych, takich jak Facebook i Twitter.
Ponieważ ograniczona liczba Ponieważ niezwykle popularne platformy mediów społecznościowych stanowią jedyne prawdziwie hiperskalowalne źródło danych do prowadzenia tego typu badań, sektor sztucznej inteligencji musi przynajmniej podjąć próbę dotrzymania im kroku.
W lipcu gazeta z Tajwanu zaproponowała Nowa metoda kategoryzację nastrojów użytkowników na podstawie „reakcyjnych GIF-ów” publikowanych w wątkach w mediach społecznościowych (patrz ilustracja poniżej), wykorzystując bazę danych 30,000 XNUMX tweetów, aby opracować sposób przewidywania reakcji na post. W artykule stwierdzono, że reakcje oparte na obrazach są pod wieloma względami łatwiejsze do oceny, ponieważ rzadziej zawierają sarkazm, godne uwagi wyzwanie w analizie nastrojów.

Naukowcy z Tajwanu w artykule opublikowanym w 2021 r. badali wykorzystanie animowanych obrazów GIF przedstawiających reakcje jako „wskaźników redukcyjnych” nastrojów.
Na początku tego roku badania prowadzone pod kierunkiem Uniwersytetu Bostońskiego wytrenowane modele uczenia maszynowego aby przewidzieć memy obrazkowe, które mają szansę stać się viralami na Twitterze; a w sierpniu brytyjscy badacze zbadali wzrost popularności emotikonów w porównaniu do emotikonów (istnieje różnica) w mediach społecznościowych, tworząc wielkoskalowy, siedmiojęzyczny zbiór danych przedstawiających piktograficzne nastroje na Twitterze.
Emotki Twitcha
Obecnie amerykańscy badacze opracowali metodologię uczenia maszynowego, aby lepiej zrozumieć, kategoryzować i mierzyć stale rozwijający się pseudoleksykon pojęć Emotions w niezwykle popularnej sieci Twitch.
Emotki to neologizmy używane na Twitchu do wyrażania emocji, nastroju lub żartów. Ponieważ z definicji są to nowe wyrażenia, wyzwaniem dla systemu uczenia maszynowego nie jest nieustanne katalogowanie nowych emotek (które mogą być użyte tylko raz, bo inaczej szybko wychodzą z użycia), ale lepsze zrozumienie struktury, która je nieustannie generuje; oraz opracowanie systemów zdolnych do rozpoznawania emotek jako „tymczasowo ważnych” słów lub fraz złożonych, których emocjonalny/polityczny wydźwięk może wymagać oceny wyłącznie na podstawie kontekstu.

Sąsiedzi emotki „FeelsGoodMan”, której znaczenie można zmienić, dodając niejasne przyrostki. Źródło: https://arxiv.org/pdf/2108.08411.pdf
papier jest zatytułowany FeelsGoodMan: Wnioskowanie o semantyce neologizmów Twitchai pochodzi od trzech badaczy ze Spiketrap, firmy zajmującej się analizą mediów społecznościowych z San Francisco.
Przynęta i zamiana
Pomimo swojej nowości i często krótkiego życia, emotki Twitcha często poddają recyklingowi materiały kulturowe (w tym starsze emotki) w sposób, który może skierować ramy analizy nastrojów w złym kierunku. Śledzenie zmian w znaczeniu emotki w miarę jej ewolucji może nawet ujawnić całkowite odwrócenie lub zaprzeczenie jej pierwotnego nastroju lub intencji.
Na przykład badacze zauważają, że oryginalny alt-right nadużycie tytułowego Czuje się dobrze, Man Mem Pepe-the-frog prawie całkowicie stracił swój pierwotny polityczny charakter w kontekście jego użycia na Twitchu.
Użycie tego wyrażenia wraz z wizerunkiem żaby z kreskówek z komiksu z 2005 roku autorstwa artysty Matta Furie stał się skrajnie prawicowym memem w latach 2010. Chociaż Vox napisał w 2017 roku, że prawicowe przywłaszczenie memu przetrwało samodeklarację Furiego rozłączenie przy takim zastosowaniu badacze z San Francisco, którzy opublikowali nowy artykuł, odkryli co innego*:
„Kreskówkowa żaba Furie została zaadoptowana przez prawicowych plakatów na różnych forach internetowych, takich jak 4chan, na początku 2010 roku. Od tego czasu Furie prowadził kampanię mającą na celu odzyskanie znaczenia swojej postaci, a emotka zyskała coraz większą popularność w bardziej mainstreamowych użycie inne niż nienawiść i pozytywne użycie na Twitchu. Nasze wyniki na Twitchu są zgodne, pokazując, że „FeelsGoodMan” i jego odpowiednik „FeelsBadMan” są używane głównie dosłownie.
Problem w dole rzeki
Tego rodzaju „przynęta i podstęp” w odniesieniu do uogólnionych „cech” memu może utrudniać projekty badawcze z zakresu przetwarzania języka naturalnego, które już zaklasyfikowały go jako „nienawistny”, „prawicowy” lub „nacjonalistyczny [USA]” i które umieściły te informacje w długoterminowych repozytoriach open source. Późniejsze projekty z zakresu przetwarzania języka naturalnego mogą nie zdecydować się na audyt aktualności starszych danych; mogą nie dysponować żadnym praktycznym mechanizmem do tego celu; a nawet mogą nie być świadome takiej potrzeby.
Efektem tego jest to, że wykorzystanie zbiorów danych z 2017 r. opartych na Twitchu do sformułowania algorytmu „kategoryzacji politycznej” przypisałoby zauważalną aktywność alternatywnej prawicy na Twitchu na podstawie częstotliwości Czuje się dobrze, Man emotka. Twitch może, ale nie musi pełen wpływowych alt-prawicowych, ale zdaniem badaczy prowadzących nowe badanie, nie da się tego udowodnić na przykładzie żaby.
Wydaje się, że 140 milionów użytkowników Twitcha (z czego 41%) mimowolnie zignorowało polityczne znaczenie mema „Pepe” mają mniej niż 24 lat), którzy skutecznie ukradli dzieło pierwotnym złodziejom i pomalowali je na własne kolory, bez żadnego konkretnego celu.
Metoda i dane
Naukowcy odkryli, że dane dotyczące oznaczonych emotikon Twitch „praktycznie nie istniały”, pomimo wniosku wcześniejsze badania że są łącznie osiem milionów emotikonów, a 400,000 XNUMX było obecnych w jednym tygodniu aktywności na Twitchu, w tygodniu wybranym przez wcześniejszych badaczy.
A Badanie 2017 zajęcie się przewidywaniem emotek na Twitchu ograniczyło się do przewidzenia tylko 30 najlepszych emotek na Twitchu, uzyskując zaledwie 0.39 punktów za przewidywanie emotek.
Aby rozwiązać ten problem, naukowcy z San Francisco zastosowali nowe podejście do starszych danych, dzieląc je w proporcji 80/20 na dane treningowe i testowe oraz stosując „tradycyjne” metody uczenia maszynowego, które wcześniej nie były stosowane do badania danych Twitcha. Metody te obejmowały Naiwny Bayes (Uwaga), Losowy las (RF), Maszyna wektorów nośnych (SVM, z jądrami liniowymi) i Regresja logistyczna.
To podejście przewyższyło poprzednie dane bazowe dotyczące nastrojów użytkowników Twitcha o 63.8% i pozwoliło badaczom na późniejsze opracowanie modelu LOOVE (Learning Out Of Vocabulary Emotions), który umożliwia identyfikację neologizmów i „wzbogacenie” istniejących modeli o te nowe definicje.

Architektura platformy LOOVE (Learning Out Of Vocabulary Emotions) opracowanej przez badaczy.
LOOVE ułatwia nienadzorowane szkolenie w zakresie osadzania słów, a także umożliwia okresowe przeszkolenie i dostrajanie, eliminując potrzebę stosowania oznaczonych zestawów danych, co byłoby logistycznie niepraktyczne, biorąc pod uwagę skalę zadania i szybką ewolucję emotikonów.
W służbie projektu badacze przeszkolony emotikon „Pseudo-Słownik” w nieoznakowanym zestawie danych Twitch, generując przy tym 444,714 XNUMX osadzeń słów, emotikonów, emoji i emotikonów.
Co więcej, wzmocnili m.in Leksykon VADER ze związkiem Leksykon emotikonów/emotikonów, a oprócz wspomnianego zbioru danych KE, wykorzystał także trzy inne publicznie dostępne zbiory danych do celów potrójny klasyfikacja nastrojów na podstawie Twittera, Rotten Tomatoes i przykładowego zbioru danych YELP.
Biorąc pod uwagę dużą różnorodność metodologii i zbiorów danych wykorzystanych w badaniu, wyniki są zróżnicowane, ale naukowcy twierdzą, że ich najlepszy przypadek był lepszy od najbliższego wcześniejszego wskaźnika o 7.36 punktu procentowego.
Naukowcy uważają, że ciągłą wartością projektu jest rozwój LOOVE, opartego na osadzaniu słowa na wektor (W2V), trenowanym na ponad 313 milionach wiadomości na czacie na Twitchu za pomocą K-najbliższy sąsiad (KNN).
Autorzy wnioskują:
„Głównym elementem tego frameworka jest pseudosłownik emotikon, który pozwala na określenie nastroju nieznanych emotikonów. Korzystając z tego pseudosłownika, stworzyliśmy tabelę sentymentów dla 22,507 XNUMX emotikonów. To pierwszy przypadek zrozumienia emotikonów na taką skalę”.
* Moja konwersja cytatów wbudowanych w hiperłącza.