Kunstig intelligens
Forståelse af Twitch Emotes i Sentiment Analyse

Offentlighedens voksende brug af emojis, emoticons, emotes, memes, GIF’er og andre ikke-verbale måder at kommunikere på sociale medieplatforme har i de seneste år mere og mere forvirret datavidenskabens bestræbelser på at forstå det globale sociologiske landskab; i hvert fald, i den udstrækning, hvori verdensomspændende sociologiske tendenser kan afledes af offentlig diskurs.
Selv om Natural Language Processing (NLP) er blevet et kraftfuldt værktøj i sentimentanalyse over det sidste årti, har sektoren vanskeligheder ikke kun med at følge med en evolverende leksikon af slang og lingvistiske genveje på tværs af multiple sprog, men også med at forsøge at afkode betydningen af billede-baserede indlæg på sociale medieplatforme som Facebook og Twitter.
Da det begrænsede antal af højtbefolkede sociale medieplatforme er den eneste virkelig hyperskalaressource til denne type forskning, er det essentiel for AI-sektoren at i det mindste forsøge at holde trit med det.
I juli tilbød en artikel fra Taiwan en ny metode til at kategorisere brugerens sentiment baseret på ‘reaktions-GIF’er’, der er offentliggjort på sociale medie-tråde (se billedet nedenfor), ved hjælp af en database på 30.000 tweets til at udvikle en måde at forudsige reaktioner på et indlæg. Artiklen fandt, at billede-baserede svar ofte er lettere at måle, da de er mindre sandsynlige for at indeholde sarkasme, en bemærkelsesværdig udfordring i sentimentanalyse.

Forskere fra Taiwan studerede brugen af animerede reaktions-GIF’er som ‘reductive indikatorer’ for sentiment i en artikel fra 2021.
Tidligere i år udviklede en forskningsindsats ledet af Boston University trænede maskinlæringsmodeller til at forudsige billede-memes, der sandsynligvis vil gå viralt på Twitter; og i august undersøgte britiske forskere væksten af emojis i forhold til emoticons (der er en forskel) på sociale medie, og samlede en stor skala 7-sprog-datasæt af billedbaseret Twitter-sentiment.
Twitch Emotes
Nu har amerikanske forskere udviklet en maskinlæringsmetodologi til bedre at forstå, kategorisere og måle det evolverende pseudo-leksikon af emotes på det meget populære Twitch-netværk.
Emotes er neologismer, der bruges på Twitch til at udtrykke følelse, humør eller indforståede vittigheder. Da de per definition er nye udtryk, er udfordringen for et maskinlærningssystem ikke nødvendigvis at katalogisere nye emotes (der kun kan bruges én gang eller også hurtigt gå ud af brug), men at opnå en bedre forståelse af rammen, der konstant genererer dem; og at udvikle systemer, der kan genkende en emote som et ‘midlertidigt gyldigt’ ord eller sammensat frase, hvis emotionel/politisk temperatur måske kun kan måles ud fra konteksten.

Naboer af ‘FeelsGoodMan’-emoten, hvis betydning kan ændres af dunkle suffikser. Kilde: https://arxiv.org/pdf/2108.08411.pdf
Artiklen er titlen FeelsGoodMan: Inferring Semantics of Twitch Neologisms og kommer fra tre forskere ved Spiketrap, et socialt medieanalysefirma i San Francisco.
Bait and Switch
Trods deres nytænkning og ofte korte liv, genbruger Twitch-emotes ofte kulturelt materiale (herunder ældre emotes) på en måde, der kan føre sentimentanalyse-rammer i den forkerte retning. At spore ændringen i betydningen af en emote, da den udvikler sig, kan endda afsløre en fuldstændig inversion eller negation af dens oprindelige sentiment eller hensigt.
For eksempel bemærker forskerne, at den oprindelige alt-right misbrug af den omtalte FeelsGoodMan Pepe-the-frog-meme næsten fuldstændigt har mistet sin oprindelige politiske smag i sammenhængen med dens brug på Twitch.
Brugen af udtrykket, sammen med et billede af en tegneseriefrø fra en 2005-tegneserie af kunstneren Matt Furie, blev en højreorienteret meme i 2010’erne. Selv om Vox skrev i 2017, at højrefløjens tilpasning af mimen havde overlevet Furies selv-erklærede afstandtagen fra en sådan brug, har San Francisco-forskerne bag den nye artikel fundet noget andet*:
‘Furies tegneseriefrø blev adopteret af højreorienterede brugere på forskellige online-fora som 4chan i begyndelsen af 2010’erne. Siden da har Furie ført kampagne for at genskabe betydningen af sin figur, og emoten har set en opblomstring i mere mainstream ikke-had-usage og positiv brug på Twitch. Vores resultater på Twitch er enige, og viser, at “FeelsGoodMan” og dets modstykke “FeelsBadMan” primært bruges bogstaveligt.’
Problemer længere nede
Denne type ‘bait and switch’ angående de generelle ‘egenskaber’ af en meme kan forhindre NLP-forskningsprojekter, der allerede har kategoriseret den som ‘hadefulde’, ‘højreorienterede’ eller ‘nationalistiske [US]’, og som har dumpet denne information i lange åbne kilde-repositorier. Senere NLP-projekter kan ikke vælge at gennemgå den ældre datas valuta; kan ikke have nogen praktisk mekanisme til at gøre det; og kan ikke engang være bekendt med behovet.
Konsekvensen heraf er, at brugen af 2017 Twitch-baserede datasæt til at formulere en ‘politisk kategorisering’-algoritme ville tilskrive betydelig højreorienteret aktivitet på Twitch, baseret på hyppigheden af FeelsGoodMan-emoten. Twitch kan eller kan ikke være fuld af højreorienterede påvirkere, men ifølge forskerne bag den nye artikel kan man ikke bevise det med frøen.
‘Pepe’-mimens politiske betydning synes at være blevet kasseret af Twitch’s 140 millioner brugere (41% af hvem er under 24), der har effektivt genstjålet arbejdet fra de oprindelige tyve og malet det i deres egne farver, uden nogen særlig dagsorden.
Metode og Data
Forskerne fandt, at mærket Twitch-emote-data ‘virtuelt ikke eksisterer’, på trods af konklusionen i en tidligere studie, at der er otte millioner i alt emotes, og 400.000 var til stede i den ene uge af Twitch-udgang i ugen, der blev valgt af tidligere forskere.
En 2017-studie, der behandlede emote-prædiktion på Twitch, begrænsede sig til at forudsige kun de 30 bedste Twitch-emotes, og scorede kun 0,39 for emote-prædiktion.
For at imødegå manglen tog San Francisco-forskerne en ny tilgang til den ældre data, og splittede den 80/20 mellem træning og test, og anvendte ‘traditionelle’ maskinlæringsmetoder, der ikke tidligere var blevet brugt til at studere Twitch-data. Disse metoder inkluderede Naive Bayes (NB), Random Forest (RF), Support Vector Machine (SVM, med lineære kernel), og Logistic Regression.
Denne tilgang overgik tidligere Twitch-sentiment-baselines med 63,8%, og gjorde det muligt for forskerne at derefter udvikle LOOVE (Learning Out Of Vocabulary Emotions)-rammen, der kan identificere neologismer og ‘berige’ eksisterende modeller med disse nye definitioner.

Arkitektur af LOOVE (Learning Out Of Vocabulary Emotions)-rammen udviklet af forskerne.
LOOVE faciliterer uovervåget træning af ord-embedding, og kan også rumme periodisk gen-træning og fin-justering, og eliminerer behovet for mærket datasæt, der ville være logistisk umuligt, når man tager hensyn til opgavens omfang og den hurtige udvikling af emotes.
I forbindelse med projektet trænede forskerne en emote ‘Pseudo-Ordbog’ på et umærket Twitch-datasæt, og genererede herefter 444.714 embedding af ord, emotes, emojis og emoticons.
Yderligere udvidede de en VADER-ordbog med en emoji/emoticon-ordbog, og udnyttede, foruden det nævnte EC-datasæt, også tre andre offentligt tilgængelige datasæt for ternær sentiment-klassificering, fra Twitter, Rotten Tomatoes og et samplet YELP-datasæt.
Givet den store variation af metoder og datasæt, der blev brugt i studiet, er resultaterne varierede, men forskerne hævder, at deres bedste baseline overgik den nærmeste tidligere metrik med 7,36 procentpoint.
Forskerne mener, at det fortsatte værdi af projektet er udviklingen af LOOVE, baseret på ord-til-vektor (W2V)-embedding trænet på over 313 millioner Twitch-chat-besked med hjælp af K-Nearest Neighbor (KNN).












