Kënschtlech Intelligenz

Twitch Emotes an der Sentimentanalyse verstoen

aktualiséiert on Dezember 9, 2022

De Public wuessen benotzen vun Emojis, Emotiounen, Emotiounen, Memes, GIFs an aner net-verbal Weeër fir op sozialen Medienplattformen ze kommunizéieren huet an de leschte Joren ëmmer méi d'Efforte vun Datenwëssenschaftler verwiesselt fir déi global soziologesch Landschaft ze verstoen; op d'mannst, an der Mooss datt weltwäit soziologeschen Trends aus dem ëffentlechen Discours ënnerscheeden.

Och wann Natural Language Processing (NLP) e mächtegt Tool an der Sentimentanalyse an de leschte Jorzéngt ginn ass, huet de Secteur Schwieregkeeten net nëmme mat engem ëmmer evoluéierend Lexikon vu Schlaang a sproochleche Ofkierzungen iwwer verschidde Sproochen, awer och beim Versuch, d'Bedeitung vun ze dekodéieren Bild-baséiert Posts op sozialen Medienplattformen wéi Facebook an Twitter.

zanter der limitéiert Zuel vun héichbevëlkerte soziale Medienplattformen sinn déi eenzeg wierklech hyperskala Ressource fir dës Aart vu Fuerschung, et ass essentiell fir den AI Secteur op d'mannst ze probéieren de Tempo domat ze halen.

Am Juli huet e Pabeier aus Taiwan eng nei Method fir d'Benotzersentiment ze kategoriséieren baséiert op 'Reaktiouns-GIFs', déi op sozialen Medien thread gepost ginn (kuckt Bild hei drënner), mat enger Datebank vun 30,000 Tweets fir e Wee z'entwéckelen fir Reaktiounen op e Post virauszesoen. De Pabeier huet festgestallt datt Bild-baséiert Äntwerte op vill Manéiere méi einfach ze moossen, well se manner wahrscheinlech Sarkasmus enthalen, e bemierkenswäert Erausfuerderung an der Gefillsanalyse.

Fuerscher aus Taiwan studéiert d'Benotzung vun animéierten Reaktiouns-GIFs als 'reduktiv Indikatoren' vum Gefill an engem 2021 Pabeier.

Virdrun dëst Joer, e Fuerschungseffort gefouert vun der Boston University trainéiert Maschinn Léieren Modeller Bildmemes virauszesoen, déi méiglecherweis viral op Twitter ginn; an am August hunn britesch Fuerscher de Wuesstum vun Emojis iwwerpréift am Verglach mat Emotiounen (et gëtt eng Ënnerscheed) op sozialen Medien, eng grouss-Skala 7-Sprooch Datesaz vun pictographic Twitter Gefill.

Twitch Emotiounen

Elo hunn d'US Fuerscher eng Maschinnléiermethodologie entwéckelt fir den ëmmer evoluéierende Pseudo-Lexikon besser ze verstoen, ze kategoriséieren an ze moossen emotes am immens populäre Twitch Netzwierk.

Emote sinn Neologismen déi op Twitch benotzt ginn fir Emotiounen, Stëmmung oder In-Witzen auszedrécken. Well se per Definitioun nei Ausdréck sinn, ass d'Erausfuerderung fir e Maschinnléieresystem net onbedéngt fir endlos nei Emotiounen ze katalogiséieren (déi nëmmen eemol benotzt kënne ginn, oder soss séier aus der Benotzung falen), mee e bessere Verständnis vum Kader ze kréien endlos generéiert se; a Systemer z'entwéckelen, déi fäeg sinn en Emote als "temporär valabel" Wuert oder zesummegesate Phrase z'erkennen, deem seng emotional/politesch Temperatur vläicht ganz aus dem Kontext gemooss muss ginn.

Nopere vum 'FeelsGoodMan' emote, deem seng Bedeitung duerch obskur Suffixe geännert ka ginn. Source: https://arxiv.org/pdf/2108.08411.pdf

d' Pabeier heescht FeelsGoodMan: Inferring Semantics of Twitch Neologisms, a kënnt vun dräi Fuerscher bei Spiketrap, enger Social Media Analysefirma zu San Francisco.

Bauch a Schalter

Trotz hirer Neiheet an dacks kuerzer Liewen, recycléieren Twitch Emotes dacks kulturellt Material (och eeler Emotiounen) op eng Manéier déi d'Sentimentanalysekader an déi falsch Richtung steieren kann. D'Verréckelung an der Bedeitung vun engem Emote ze tracéieren wéi se evoluéiert ka souguer eng komplett Inversioun oder Negatioun vu sengem ursprénglechen Gefill oder Absicht opdecken.

Zum Beispill bemierken d'Fuerscher datt d'Original Alt-Recht ze maachen vum eponym FeelsGoodMan Pepe-the-Frog Meme huet bal komplett hiren originelle politesche Goût verluer am Kontext vu senger Benotzung op Twitch.

D'Benotzung vun der Phrase, zesumme mat engem Bild vun engem Cartoon Frog aus engem 2005 Comic vum Kënschtler Matt Furie, gouf e wäit-riets Meme an den 2010er Joren. Obwuel Vox geschriwwen am Joer 2017 datt d'Rechtsappropriatioun vum Meme dem Furie säi selbstverständlechen iwwerlieft huet Ofbau mat esou Benotzung hunn d'San Francisco Fuerscher hannert dem neie Pabeier anescht fonnt*:

'Furie's Cartoon Frog gouf vu rietse Plakater op verschiddenen Online Foren wéi 4chan an de fréien 2010er adoptéiert. Zënterhier huet de Furie sech gekämpft fir d'Bedeitung vu sengem Charakter zréckzekréien, an den Emote huet en Opschwong a méi Mainstream gesinn net haassen Notzung a positiv Notzung op Twitch. Eis Resultater op Twitch stëmmen, a weisen datt "FeelsGoodMan" a säi Kolleg "FeelsBadMan" haaptsächlech wuertwiertlech benotzt ginn.'

Trouble Downstream

Dës Aart vu 'Köder a Schalter' betreffend déi generaliséiert 'Features' vun engem Meme kann NLP Fuerschungsprojete behënneren, déi et scho als 'haass' kategoriséiert hunn, 'rietse Flillek' oder 'nationalistesch [US]', an déi dës Informatioun gedumpt hunn. a laangfristeg Open Source Repositories. Spéider NLP Projete kënnen net wielen d'Währung vun den eelere Daten z'iwwerpréiwen; hu vläicht kee praktesche Mechanismus fir dat ze maachen; a vläicht net emol bewosst vun der Bedierfnes.

D'Resultat vun dësem ass datt d'Benotzung vun 2017 Twitch-baséiert Datesätz fir e 'politesche Kategoriséierung' Algorithmus ze formuléieren bemierkenswäert Alt-Recht Aktivitéit op Twitch zouzeschreiwen, baséiert op der Frequenz vun der FeelsGoodMan emot. Twitch kann oder vläicht net sinn voller Alt-Recht Influencer, awer, laut de Fuerscher vum neie Pabeier, kënnt Dir et net vum Fräsch beweisen.

Dem 'Pepe' Meme seng politesch Bedeitung schéngt zoufälleg vun Twitch's 140 Millioune Benotzer (41% vun deenen) verworf ze ginn sinn ënner 24), déi d'Wierk effektiv vun den ursprénglechen Déif geklaut hunn an et an hiren eegene Faarwen gemoolt hunn, ouni speziell Agenda.

Method an Daten

D'Fuerscher hunn erausfonnt datt Label Twitch emote Daten 'quasi net existéierend' waren, trotz der Conclusioun vun engem fréier Etude datt et gëtt aacht Millioune Ganzen Emotiounen, a 400,000 ware präsent an der eenzeger Woch vum Twitch Output an der Woch, déi vun deene fréiere Fuerscher gewielt gouf.

A 2017 studéieren Adresséiert emote Viraussoen op Twitch limitéiert sech fir nëmmen déi Top 30 Twitch Emotes virauszesoen, mat nëmmen 0.39 fir emote Prognose.

De Mangel unzegoen, hunn d'San Francisco Fuerscher eng nei Approche fir déi eeler Donnéeën geholl, se 80/20 tëscht Training an Testen opgedeelt, an "traditionell" Maschinnléieremethoden ugewannt, déi net virdru benotzt gi fir Twitch Daten ze studéieren. Dës Methoden abegraff Naiv Bayes (NB), Zoufälleg Bësch (RF), Ënnerstëtzung Vector Machine (SVM, mat linearem Kären), an Logistesch Regressioun.

Dës Approche huet virdrun Twitch Sentiment Baselines ëm 63.8% iwwerschratt, an huet d'Fuerscher erlaabt duerno de LOOVE (Learning Out Of Vocabulary Emotions) Kader z'entwéckelen, wat fäeg ass Neologismen z'identifizéieren an existent Modeller mat dësen neien Definitiounen ze beräicheren.

Architektur vum LOOVE (Learning Out Of Vocabulary Emotions) Kader entwéckelt vun de Fuerscher.

LOOVE erliichtert d'oniwwerwaacht Ausbildung vu Wuertbefehlungen, an empfänkt och periodesch Ausbildung a Feintuning, d'Bedierfnes fir markéiert Datesätz z'evitéieren, wat logistesch onpraktesch wier, wann Dir d'Skala vun der Aufgab an déi séier Evolutioun vun Emotiounen berécksiichtegt.

Am Déngscht vum Projet hunn d'Fuerscher trainéiert en emote 'Pseudo-Dictionnaire' op engem net-labeléierten Twitch-Datetaz, am Prozess generéiert 444,714 Embeddings vu Wierder, Emotiounen, Emojis an Emoticonen.

Weider hunn se a vergréissert VADER Lexikon mat engem Emoji/Emoticonslexikon, an zousätzlech zu der ernimmt EC Dataset, och dräi aner ëffentlech verfügbar Datesets exploitéiert fir ternär Sentiment Klassifikatioun, vun Twitter, Rotten Tomatoes an e Sample YELP Dataset.

Wéinst der grousser Varietéit vu Methodologien an Datesätz, déi an der Studie benotzt ginn, sinn d'Resultater variegéiert, awer d'Fuerscher behaapten datt hir beschte Fall Baseline déi nooste virdru Metrik ëm 7.36 Prozentpunkte besser gemaach huet.

D'Fuerscher mengen datt de lafende Wäert vum Projet d'Entwécklung vu LOOVE ass, baséiert op Word-to-Vector (W2V) Embeddings, trainéiert op iwwer 313 Milliounen Twitch Chat Messagen mat der Hëllef vun K-Noosten Noper (KNN).

D'Auteuren ofgeschloss ginn:

'Eng Fuerefunktioun hannert dem Kader ass en emote Pseudo-Wörterbuch dat benotzt ka ginn fir Gefiller fir onbekannt Emotiounen ofzeleeën. Mat dësem emote Pseudo-Wörterbuch hu mir e Gefillstabell fir 22,507 Emotiounen erstallt. Dëst ass den éischte Fall vun emote Verständnis op dëser Skala.'

* Meng Konversioun vun Inline Zitater op Hyperlinks.

Verknäppt Themen:natierlech Sproochveraarbechtung PNL Fuerschung Sozial Medien

No weider

Fuerschung an mënschlecht Verhalen hëlleft Autonom Autoen virauszesoen Foussgänger Kräizgang

Hu keng Miss

AI-baséiert Generativ Schreifmodeller dacks 'Kopie a Paste' Quelldaten

Martin Anderson

Schrëftsteller iwwer Maschinnléieren, kënschtlech Intelligenz a Big Data.
Perséinlech Säit: martinanderson.ai
Contact: [Email geschützt]
Twitter: @manders_ai