stub Zrozumienie emocji Twitcha w analizie nastrojów — Unite.AI
Kontakt z nami

Artificial Intelligence

Zrozumienie emocji Twitcha w analizie nastrojów

mm
Zaktualizowano on

Publiczności rosnące użycie emotikonów, emotikonów, memów, GIF-ów i innych niewerbalnych sposobów komunikacji na platformach mediów społecznościowych w ostatnich latach coraz bardziej utrudniało wysiłki badaczy danych mające na celu zrozumienie globalnego krajobrazu socjologicznego; przynajmniej w takim stopniu, w jakim z dyskursu publicznego można dostrzec światowe trendy socjologiczne.

Chociaż w ciągu ostatniej dekady przetwarzanie języka naturalnego (NLP) stało się potężnym narzędziem w analizie nastrojów, sektor ten ma trudności nie tylko z nadążaniem za stale rozwijający się leksykon slangu i skrótów językowych w wielu językach, ale także próbując rozszyfrować znaczenie oparte na obrazie posty na platformach mediów społecznościowych, takich jak Facebook i Twitter.

Ponieważ ograniczona liczba bardzo zaludnionych platform mediów społecznościowych są jedynymi naprawdę hiperskalowymi zasobami dla tego rodzaju badań, istotne jest, aby sektor sztucznej inteligencji przynajmniej starał się dotrzymać mu kroku.

W lipcu gazeta z Tajwanu zaproponowała Nowa metoda kategoryzowanie nastrojów użytkowników na podstawie „gifów z reakcjami” publikowanych w wątkach mediów społecznościowych (patrz obrazek poniżej), przy użyciu bazy danych zawierającej 30,000 XNUMX tweetów w celu opracowania sposobu przewidywania reakcji na post. W artykule stwierdzono, że odpowiedzi oparte na obrazie są pod wieloma względami łatwiejsze do oceny, ponieważ rzadziej zawierają sarkazm, godne uwagi wyzwanie w analizie nastrojów.

W artykule z 2021 roku badacze z Tajwanu zbadali wykorzystanie animowanych GIF-ów z reakcjami jako „wskaźników redukcyjnych” nastrojów.

Na początku tego roku badania prowadzone pod kierunkiem Uniwersytetu Bostońskiego wytrenowane modele uczenia maszynowego przewidywać memy graficzne, które prawdopodobnie staną się wirusowe na Twitterze; a w sierpniu brytyjscy badacze zbadali rozwój emoji w porównaniu z emotikonami (istnieje różnica) w mediach społecznościowych, tworząc wielkoskalowy, siedmiojęzyczny zbiór danych przedstawiających piktograficzne nastroje na Twitterze.

Emotki Twitcha

Obecnie amerykańscy badacze opracowali metodologię uczenia maszynowego, aby lepiej zrozumieć, kategoryzować i mierzyć stale rozwijający się pseudoleksykon pojęć Emotions w niezwykle popularnej sieci Twitch.

Emoty to neologizmy używane na Twitchu do wyrażania emocji, nastroju lub w żartach. Ponieważ są to z definicji nowe wyrażenia, wyzwaniem dla systemu uczenia maszynowego nie jest koniecznie ciągłe katalogowanie nowych emotikonów (które mogą zostać użyte tylko raz lub szybko przestają być używane), ale lepsze zrozumienie struktury, która bez końca je generuje; oraz opracować systemy zdolne do rozpoznawania emotki jako „tymczasowo ważnego” słowa lub złożonego wyrażenia, którego temperaturę emocjonalną/polityczną trzeba oceniać całkowicie na podstawie kontekstu.

Sąsiedzi emotki „FeelsGoodMan”, której znaczenie można zmienić za pomocą niejasnych przyrostków. Źródło: https://arxiv.org/pdf/2108.08411.pdf

Sąsiedzi emotki „FeelsGoodMan”, której znaczenie można zmienić za pomocą niejasnych przyrostków. Źródło: https://arxiv.org/pdf/2108.08411.pdf

Połączenia papier jest zatytułowany FeelsGoodMan: Wnioskowanie o semantyce neologizmów Twitchai pochodzi od trzech badaczy ze Spiketrap, firmy zajmującej się analizą mediów społecznościowych z San Francisco.

Przynęta i zamiana

Pomimo swojej nowości i często krótkiego życia, emotki Twitcha często poddają recyklingowi materiały kulturowe (w tym starsze emotki) w sposób, który może skierować ramy analizy nastrojów w złym kierunku. Śledzenie zmian w znaczeniu emotki w miarę jej ewolucji może nawet ujawnić całkowite odwrócenie lub zaprzeczenie jej pierwotnego nastroju lub intencji.

Na przykład badacze zauważają, że oryginalny alt-right nadużycie tytułowego Czuje się dobrze, Man Mem Pepe-the-frog prawie całkowicie stracił swój pierwotny polityczny charakter w kontekście jego użycia na Twitchu.

Użycie tego wyrażenia wraz z wizerunkiem żaby z kreskówek z komiksu z 2005 roku autorstwa artysty Matta Furie stał się skrajnie prawicowym memem w latach 2010. Chociaż Vox napisał w 2017 r., że zawłaszczenie mema przez prawicę przetrwało zdeklarowane oświadczenie Furiego rozłączenie przy takim zastosowaniu badacze z San Francisco, którzy opublikowali nowy artykuł, odkryli co innego*:

„Kreskówkowa żaba Furie została zaadoptowana przez prawicowych plakatów na różnych forach internetowych, takich jak 4chan, na początku 2010 roku. Od tego czasu Furie prowadził kampanię mającą na celu odzyskanie znaczenia swojej postaci, a emotka zyskała coraz większą popularność w bardziej mainstreamowych użycie inne niż nienawiść i pozytywne wykorzystanie na Twitchu. Nasze wyniki na Twitchu są zgodne i pokazują, że słowa „FeelsGoodMan” i jego odpowiednik „FeelsBadMan” są używane głównie dosłownie”.

Problem w dole rzeki

Tego rodzaju „przynęta i zmiana” w odniesieniu do uogólnionych „cech” memu może utrudniać projekty badawcze NLP, które już zaklasyfikowały go jako „nienawistny”, „prawicowy” lub „nacjonalistyczny [USA]” i które porzuciły te informacje w długoterminowe repozytoria open source. Późniejsze projekty NLP mogą nie zdecydować się na audyt waluty starszych danych; może nie mieć żadnego praktycznego mechanizmu, który by to umożliwiał; i może nawet nie być świadomy takiej potrzeby.

Efektem tego jest to, że wykorzystanie zbiorów danych z 2017 r. opartych na Twitchu do sformułowania algorytmu „kategoryzacji politycznej” przypisałoby zauważalną aktywność alternatywnej prawicy na Twitchu na podstawie częstotliwości Czuje się dobrze, Man emotka. Twitch może, ale nie musi pełen wpływowych alt-prawicowych, ale według badaczy nowego artykułu nie można tego udowodnić na podstawie żaby.

Wydaje się, że 140 milionów użytkowników Twitcha (z czego 41%) przypadkowo odrzuciło polityczne znaczenie mema „Pepe” mają mniej niż 24 lat), którzy skutecznie ukradli dzieło pierwotnym złodziejom i pomalowali je na własne kolory, bez żadnego konkretnego celu.

Metoda i dane

Badacze odkryli, że oznaczone dane dotyczące emotikonów Twitcha „praktycznie nie istniały” pomimo zawarcia wcześniejsze badania że są łącznie osiem milionów emotikonów, a 400,000 XNUMX było obecnych w jednym tygodniu aktywności na Twitchu, w tygodniu wybranym przez wcześniejszych badaczy.

A Badanie 2017 zajęcie się przewidywaniem emotek na Twitchu ograniczyło się do przewidzenia tylko 30 najlepszych emotek na Twitchu, uzyskując zaledwie 0.39 punktów za przewidywanie emotek.

Aby rozwiązać ten problem, badacze z San Francisco przyjęli nowe podejście do starszych danych, dzieląc je w stosunku 80/20 pomiędzy szkolenia i testowanie oraz stosując „tradycyjne” metody uczenia maszynowego, których nie używano wcześniej do badania danych Twitcha. Metody te obejmowały Naiwny Bayes (Uwaga), Losowy las (RF), Maszyna wektorów nośnych (SVM, z jądrami liniowymi) i Regresja logistyczna.

Podejście to uzyskało lepsze wyniki niż poprzednie wartości bazowe nastrojów na Twitchu o 63.8% i umożliwiło naukowcom późniejsze opracowanie platformy LOOVE (Learning Out Of Vocabulary Emotions), która jest w stanie identyfikować neologizmy i „wzbogacać” istniejące modele o te nowe definicje.

Architektura platformy LOOVE (Learning Out Of Vocabulary Emotions) opracowanej przez badaczy.

Architektura platformy LOOVE (Learning Out Of Vocabulary Emotions) opracowanej przez badaczy.

LOOVE ułatwia nienadzorowane szkolenie w zakresie osadzania słów, a także umożliwia okresowe przeszkolenie i dostrajanie, eliminując potrzebę stosowania oznaczonych zestawów danych, co byłoby logistycznie niepraktyczne, biorąc pod uwagę skalę zadania i szybką ewolucję emotikonów.

W służbie projektu badacze przeszkolony emotka „Pseudo-słownik” w nieoznakowanym zbiorze danych Twitcha, w procesie generującym 444,714 XNUMX osadzonych słów, emotikonów, emoji i emotikonów.

Co więcej, wzmocnili m.in Leksykon VADER ze związkiem Leksykon emotikonów/emotikonów, a oprócz wspomnianego zbioru danych KE, wykorzystał także trzy inne publicznie dostępne zbiory danych do celów potrójny klasyfikacja nastrojów na podstawie Twittera, Rotten Tomatoes i przykładowego zbioru danych YELP.

Biorąc pod uwagę dużą różnorodność metodologii i zbiorów danych wykorzystanych w badaniu, wyniki są zróżnicowane, ale naukowcy twierdzą, że ich najlepszy przypadek był lepszy od najbliższego wcześniejszego wskaźnika o 7.36 punktu procentowego.

Naukowcy uważają, że ciągłą wartością projektu jest rozwój LOOVE, opartego na osadzaniu słowa na wektor (W2V), trenowanym na ponad 313 milionach wiadomości na czacie na Twitchu za pomocą K-najbliższy sąsiad (KNN).

Autorzy wnioskują:

„Główną funkcją frameworka jest pseudosłownik emotikonów, którego można używać do wyciągania wniosków na temat nieznanych emotek. Korzystając z tego pseudosłownika emotikonów, stworzyliśmy tabelę nastrojów zawierającą 22,507 XNUMX emotikonów. To pierwszy przypadek zrozumienia emocji na taką skalę.

 

* Moja konwersja cytatów wbudowanych w hiperłącza.