Künstliche Intelligenz
Twitch-Emotes in der Stimmungsanalyse verstehen

Die der Öffentlichkeit wachsende Nutzung Die Verbreitung von Emojis, Emoticons, Emotes, Memes, GIFs und anderen nonverbalen Möglichkeiten der Kommunikation auf Social-Media-Plattformen hat in den letzten Jahren die Bemühungen von Datenwissenschaftlern, die globale soziologische Landschaft zu verstehen, zunehmend zunichte gemacht; Zumindest soweit, dass weltweite soziologische Trends im öffentlichen Diskurs erkennbar sind.
Obwohl sich die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) im letzten Jahrzehnt zu einem leistungsstarken Werkzeug in der Stimmungsanalyse entwickelt hat, hat die Branche nicht nur Schwierigkeiten, mit der Entwicklung Schritt zu halten sich ständig weiterentwickelndes Lexikon von Slang und sprachlichen Abkürzungen in mehreren Sprachen, sondern auch beim Versuch, die Bedeutung von zu entschlüsseln bildbasiert Beiträge auf Social-Media-Plattformen wie Facebook und Twitter.
Da der begrenzte Anzahl Da die Zahl der stark frequentierten Social-Media-Plattformen die einzige wirkliche Hyperscale-Ressource für diese Art von Forschung ist, ist es für den KI-Sektor unerlässlich, zumindest zu versuchen, mit dieser Entwicklung Schritt zu halten.
Im Juli bot eine Zeitung aus Taiwan eine Neue Methode Die Nutzerstimmung anhand von „Reaktions-GIFs“ in Social-Media-Threads zu kategorisieren (siehe Abbildung unten) basiert auf einer Datenbank mit 30,000 Tweets, um die Reaktionen auf einen Beitrag vorherzusagen. Die Studie kam zu dem Schluss, dass bildbasierte Reaktionen in vielerlei Hinsicht leichter einzuschätzen sind, da sie weniger Sarkasmus enthalten. bemerkenswerte Herausforderung in der Stimmungsanalyse.

Forscher aus Taiwan untersuchten in einem Artikel aus dem Jahr 2021 die Verwendung animierter Reaktions-GIFs als „reduktive Indikatoren“ für Stimmungen.
Anfang dieses Jahres wurde eine Forschungsinitiative unter der Leitung der Boston University durchgeführt trainierte Modelle für maschinelles Lernen um Bildmemes vorherzusagen, die wahrscheinlich auf Twitter viral gehen werden; und im August untersuchten britische Forscher das Wachstum von Emojis im Vergleich zu Emoticons (es gibt eine Unterschied) in sozialen Medien und stellte einen umfangreichen siebensprachigen Datensatz der piktografischen Twitter-Stimmung zusammen.
Twitch-Emotes
Jetzt haben US-Forscher eine Methode des maschinellen Lernens entwickelt, um das sich ständig weiterentwickelnde Pseudolexikon von besser zu verstehen, zu kategorisieren und zu messen Emotes auf dem äußerst beliebten Twitch-Netzwerk.
Emotes sind Neologismen, die auf Twitch verwendet werden, um Emotionen, Stimmungen oder Insiderwitze auszudrücken. Da es sich per Definition um neue Ausdrücke handelt, besteht die Herausforderung für ein maschinelles Lernsystem nicht unbedingt darin, endlos neue Emotes zu katalogisieren (die möglicherweise nur einmal verwendet werden oder schnell außer Gebrauch geraten), sondern vielmehr darin, das Gerüst, das sie endlos generiert, besser zu verstehen und Systeme zu entwickeln, die ein Emote als „temporär gültiges“ Wort oder zusammengesetzte Phrase erkennen, deren emotionale/politische Intensität möglicherweise vollständig aus dem Kontext ermittelt werden muss.

Nachbarn des Emotes „FeelsGoodMan“, dessen Bedeutung durch obskure Suffixe verändert werden kann. Quelle: https://arxiv.org/pdf/2108.08411.pdf
Das Krepppapier ist betitelt FeelsGoodMan: Ableitung der Semantik von Twitch-Neologismen, und stammt von drei Forschern von Spiketrap, einem Social-Media-Analyseunternehmen in San Francisco.
Lockvogeltaktik
Trotz ihrer Neuheit und ihrer oft kurzen Lebensdauer recyceln Twitch-Emotes häufig kulturelles Material (einschließlich älterer Emotes) auf eine Weise, die Stimmungsanalyse-Frameworks in die falsche Richtung lenken kann. Wenn man den Bedeutungswandel eines Emotes im Laufe seiner Entwicklung verfolgt, kann sogar eine völlige Umkehrung oder Negierung seines ursprünglichen Gefühls oder seiner ursprünglichen Absicht aufgedeckt werden.
Die Forscher stellen beispielsweise fest, dass das ursprüngliche Alt-Right Missbrauch des gleichnamigen FeelsGoodMan Das Pepe-the-Frog-Meme hat im Zusammenhang mit seiner Verwendung auf Twitch fast vollständig seinen ursprünglichen politischen Charakter verloren.
Die Verwendung des Ausdrucks zusammen mit einem Bild eines Comic-Frosches aus einem Comic des Künstlers Matt Furie aus dem Jahr 2005, wurde zu einem rechtsextremen Meme in den 2010er Jahren. Obwohl Vox schrieb im Jahr 2017, dass die Aneignung des Memes durch die Rechte Furies selbsterklärte Trennung Bei einer solchen Verwendung haben die Forscher aus San Francisco, die hinter dem neuen Papier stehen, etwas anderes herausgefunden*:
„Furies Cartoon-Frosch wurde Anfang der 4er Jahre von rechten Postern in verschiedenen Online-Foren wie 2010chan übernommen.“ Seitdem setzt sich Furie dafür ein, die Bedeutung seines Charakters zurückzugewinnen, und das Emote erlebt einen Aufschwung im Mainstream Nicht-Hass-Nutzung und positive Verwendung auf Twitch. Unsere Ergebnisse auf Twitch stimmen überein und zeigen, dass „FeelsGoodMan“ und sein Gegenstück „FeelsBadMan“ hauptsächlich wörtlich verwendet werden.
Probleme stromabwärts
Diese Art von „Lockvogeltaktik“ in Bezug auf die allgemeinen „Merkmale“ eines Memes kann NLP-Forschungsprojekte behindern, die das Meme bereits als „hasserfüllt“, „rechtsgerichtet“ oder „nationalistisch [USA]“ eingestuft und die Informationen langfristig in Open-Source-Repositorien abgelegt haben. Spätere NLP-Projekte verzichten möglicherweise auf die Überprüfung der Aktualität der älteren Daten, verfügen über keinen praktischen Mechanismus dafür und sind sich der Notwendigkeit möglicherweise nicht einmal bewusst.
Das Ergebnis ist, dass die Verwendung von Twitch-basierten Datensätzen aus dem Jahr 2017 zur Formulierung eines Algorithmus zur „politischen Kategorisierung“ auf der Grundlage der Häufigkeit bemerkenswerte Alt-Right-Aktivitäten auf Twitch zuordnen würde FeelsGoodMan Emote. Zucken kann sein oder auch nicht voller Alt-Right-Influencer, aber laut den Forschern des neuen Papiers kann man es nicht mit dem Frosch beweisen.
Die politische Bedeutung des „Pepe“-Memes scheint von den 140 Millionen Twitch-Nutzern (von denen 41 % unter 24 sind), die das Werk den ursprünglichen Dieben praktisch wieder gestohlen und es in ihren eigenen Farben bemalt haben, ohne eine bestimmte Absicht zu verfolgen.
Methode und Daten
Die Forscher stellten fest, dass gekennzeichnete Twitch-Emote-Daten „praktisch nicht vorhanden“ waren, trotz der Schlussfolgerung eines frühere Studie das gibt es Insgesamt acht Millionen Emotes, und 400,000 waren in der einzigen Woche der Twitch-Ausgabe in der von diesen früheren Forschern ausgewählten Woche anwesend.
A 2017 Studie Die Untersuchung der Emote-Vorhersage auf Twitch beschränkte sich auf die Vorhersage der 30 besten Twitch-Emotes und erzielte für die Emote-Vorhersage nur einen Wert von 0.39.
Um dieses Defizit zu beheben, wählten die Forscher aus San Francisco einen neuen Ansatz für die älteren Daten. Sie teilten sie zu 80 % zwischen Training und Test auf und wandten „traditionelle“ Methoden des maschinellen Lernens an, die zuvor nicht zur Untersuchung von Twitch-Daten verwendet worden waren. Zu diesen Methoden gehörten Naiver Bayes (NB), Zufälliger Wald (RF), Unterstützung Vektor Maschine (SVM, mit linearen Kerneln) und Logistische Regression.
Dieser Ansatz übertraf frühere Twitch-Sentiment-Baselines um 63.8 % und ermöglichte den Forschern die anschließende Entwicklung des LOOVE-Frameworks (Learning Out Of Vocabulary Emotions), das in der Lage ist, Neologismen zu erkennen und bestehende Modelle mit diesen neuen Definitionen zu „bereichern“.

Architektur des von den Forschern entwickelten LOOVE-Frameworks (Learning Out Of Vocabulary Emotions).
LOOVE erleichtert das unbeaufsichtigte Training von Worteinbettungen und ermöglicht auch regelmäßige Neuschulungen und Feinabstimmungen, wodurch die Notwendigkeit beschrifteter Datensätze entfällt, was angesichts des Umfangs der Aufgabe und der schnellen Entwicklung von Emotes logistisch unpraktisch wäre.
Im Dienste des Projekts stehen die Forscher trainiert ein Emote-„Pseudo-Wörterbuch“ auf einem unbeschrifteten Twitch-Datensatz, wobei 444,714 Einbettungen von Wörtern, Emotes, Emojis und Emoticons generiert wurden.
Darüber hinaus erweiterten sie a VADER-Lexikon sowie einem Emoji/Emoticon-Lexikonund nutzte zusätzlich zum oben genannten EC-Datensatz auch drei weitere öffentlich verfügbare Datensätze für ternär Stimmungsklassifizierung, von Twitter, Rotten Tomatoes und einem ausgewählten YELP-Datensatz.
Angesichts der großen Vielfalt an Methoden und Datensätzen, die in der Studie verwendet wurden, fallen die Ergebnisse unterschiedlich aus, die Forscher behaupten jedoch, dass ihre beste Basislinie die nächsthöhere Metrik um 7.36 Prozentpunkte übertraf.
Die Forscher sind der Ansicht, dass der fortlaufende Wert des Projekts in der Entwicklung von LOOVE liegt, basierend auf Word-to-Vector (W2V)-Einbettungen, die mit Hilfe von in über 313 Millionen Twitch-Chat-Nachrichten trainiert wurden K-nächster Nachbar (KNN).
Die Autoren folgern:
Ein zentrales Element des Frameworks ist ein Emote-Pseudowörterbuch, mit dem sich Stimmungen für unbekannte Emotes ableiten lassen. Mithilfe dieses Emote-Pseudowörterbuchs haben wir eine Stimmungstabelle für 22,507 Emotes erstellt. Dies ist der erste Fall von Emote-Verständnis in diesem Ausmaß.
* Meine Umwandlung von Inline-Zitaten in Hyperlinks.