Connect with us

Kunstig intelligens

Forståelse av Twitch-emotikon i sentimentanalyse

mm

Den offentlige økende bruken av emojis, emotikoner, emotes, memes, GIF-er og andre ikke-verbale måter å kommunisere på sosiale medier har i de senere år stadig mer forvirret dataforskeres forsøk på å forstå det globale sosiologiske landskapet; i alle fall, i den utstrekning at globale sosiologiske trender kan avledes fra offentlig diskurs.

Selv om Natural Language Processing (NLP) har blitt et kraftig verktøy i sentimentanalyse over de siste ti årene, har sektoren vanskeligheter ikke bare med å holde pace med en evolverende leksikon av slang og lingvistiske kortveier på flere språk, men også i å forsøke å avkode betydningen av bildebaserte innlegg på sosiale medier som Facebook og Twitter.

Ettersom det begrensede antallet av høyt befolkede sosiale medier er de eneste virkelig hyperskalaressursene for denne type forskning, er det essensielt for AI-sektoren å i alle fall forsøke å holde pace med det.

I juli presenterte en artikkel fra Taiwan en ny metode for å kategorisere brukerens sentiment basert på ‘reaksjons-GIF-er’ postet på sosiale medier (se bildet under), ved å bruke en database på 30 000 tweets til å utvikle en måte å forutsi reaksjoner på en post. Artikkelen fant at bildebaserte svar ofte er lettere å måle, siden de er mindre sannsynlig å inneholde sarkasme, en merkbart utfordring i sentimentanalyse.

Forskere fra Taiwan studerte bruken av animerte reaksjons-GIF-er som ‘reduktive indikatorer’ for sentiment i en artikkel fra 2021.

Tidligere i år utviklet en forskningsinnsats ledet av Boston University maskinlæringsmodeller for å forutsi bilde-memene som sannsynligvis vil gå viralt på Twitter; og i august undersøkte britiske forskere veksten av emojis i sammenligning med emotikoner (det er en forskjell) på sosiale medier, ved å samle en stor skala 7-språk datasett av bildelige Twitter-sentiment.

Twitch Emotes

Nå har amerikanske forskere utviklet en maskinlæringsmetodologi for bedre å forstå, kategorisere og måle det evolverende pseudo-leksikonet av emotes på det svært populære Twitch-nettverket.

Emotes er neologismer brukt på Twitch for å uttrykke følelse, humør eller internsjanger. Ettersom de er definert som nye uttrykk, er utfordringen for et maskinlæringsystem ikke nødvendigvis å katalogisere nye emotes (som kan bare brukes en gang, eller også raskt gå ut av bruk), men å få en bedre forståelse av rammen som evolverer dem; og å utvikle systemer i stand til å gjenkjenne en emote som et ‘midlertidig gyldig’ ord eller sammensatt frase hvis emosjonell/politiske temperatur kan trenge å måles helt fra konteksten.

Naboer av 'FeelsGoodMan'-emoten, hvis betydning kan endres av obskure suffikser. Kilde: https://arxiv.org/pdf/2108.08411.pdf

Naboer av ‘FeelsGoodMan’-emoten, hvis betydning kan endres av obskure suffikser. Kilde: https://arxiv.org/pdf/2108.08411.pdf

Artikkelen hefter tittelen FeelsGoodMan: Inferring Semantics of Twitch Neologisms, og kommer fra tre forskere ved Spiketrap, et selskap for sosial medieanalyse i San Francisco.

Bait and Switch

Til tross for deres nyskaping og ofte korte liv, gjentar Twitch-emotes ofte kulturelt materiale (inkludert eldre emotes) på en måte som kan styre sentimentanalyse-rammer i feil retning. Å spore skiftet i betydningen av en emote mens den evolverer, kan til og med avsløre en fullstendig inversjon eller negasjon av dens opprinnelige sentiment eller intensjon.

For eksempel bemerker forskerne at den opprinnelige alt-høyre misbruk av den eponymiske FeelsGoodMan Pepe-the-frog-meme har nesten fullstendig tapt sin opprinnelige politiske smak i sammenheng med dens bruk på Twitch.

Bruken av uttrykket, sammen med et bilde av en tegneserie-frosk fra en tegneserie fra 2005 av kunstneren Matt Furie, ble en høyre-ekstrem meme på 2010-tallet. Selv om Vox skrev i 2017 at høyresidens appropriasjon av memen hadde overlevd Furies selv-erklæring frakobling fra slik bruk, har de sanfranciskanske forskerne bak den nye artikkelen funnet noe annet*:

‘Furies tegneserie-frosk ble adoptert av høyre-ekstreme poster på ulike nettforum som 4chan tidlig på 2010-tallet. Siden da har Furie kampanjet for å gjenvinne betydningen av sin karakter, og emoten har sett en økning i mer mainstream ikke-hat-bruk og positiv bruk på Twitch. Våre resultater på Twitch er enige, og viser at “FeelsGoodMan” og dens motstykke “FeelsBadMan” hovedsakelig brukes bokstavelig.’

Trouble Downstream

Dette slaget ‘bait and switch’ med hensyn til de generaliserte ‘egenskapene’ til en meme kan hindre NLP-forskningsprosjekter som allerede har kategorisert den som ‘hatfull’, ‘høyre-ekstrem’ eller ‘nasjonalistisk [US]’, og som har dumpet denne informasjonen i lange åpne kilde-repositorier. Senere NLP-prosjekter kan ikke velge å auditere den eldre datas valuta; kan ikke ha noen praktisk mekanisme for å gjøre det; og kan ikke engang være klar over behovet.

Konsekvensen av dette er at bruk av Twitch-baserte datasett fra 2017 for å formulere en ‘politisk kategorisering’-algoritme ville tilskrive merkbar høyre-ekstrem aktivitet på Twitch, basert på hyppigheten av FeelsGoodMan-emoten. Twitch kan eller kan ikke være full av høyre-ekstreme influencere, men ifølge forskerne bak den nye artikkelen, kan du ikke bevise det med frosken.

‘Pepe’-memens politiske betydning synes å ha blitt kastet av Twitch sine 140 millioner brukere (41% av dem er under 24), som har effektivt stjålet arbeidet fra de opprinnelige tyvene og malt det i sine egne farger, uten noen særskilt agenda.

Metode og Data

Forskerne fant at merket Twitch-emote-data var ‘virtuelt ikke-eksisterende’, til tross for konklusjonen i en tidligere studie at det finnes åtte millioner totale emotes, og 400 000 var til stede i den ene uken med Twitch-utgang i uken valgt av disse tidligere forskerne.

En 2017-studie som omhandlet emote-prediksjon på Twitch begrenset seg til å forutsi bare de øverste 30 Twitch-emotene, og scoret bare 0,39 for emote-prediksjon.

For å møte denne mangelen, tok de sanfranciskanske forskerne en ny tilnærming til den eldre dataen, ved å splitte den 80/20 mellom trening og testing, og anvende ‘tradisjonelle’ maskinlæringsmetoder, som ikke hadde blitt brukt tidligere til å studere Twitch-data. Disse metodene inkluderte Naive Bayes (NB), Random Forest (RF), Support Vector Machine (SVM, med lineære kjerner), og Logistisk Regresjon.

Dette tilnærmingen overgikk tidligere Twitch-sentiment-baselinjer med 63,8%, og muliggjorde at forskerne deretter utviklet LOOVE-rammen (Learning Out Of Vocabulary Emotions), som er i stand til å identifisere neologismer og ‘berike’ eksisterende modeller med disse nye definisjonene.

Arkitektur for LOOVE-rammen (Learning Out Of Vocabulary Emotions) utviklet av forskerne.

Arkitektur for LOOVE-rammen (Learning Out Of Vocabulary Emotions) utviklet av forskerne.

LOOVE muliggjør uovervåket trening av ord-embeddings, og akkommoderer også periodisk om-trening og finjustering, og eliminerer behovet for merket datasets, som ville være logistisk umulig, med tanke på skalaen av oppgaven og den raske evolusjonen av emotes.

I tjenesten for prosjektet trente forskerne en emote-‘Pseudo-Ordbok’ på en umerket Twitch-datasett, og genererte 444 714 embeddings av ord, emotes, emojis og emotikoner.

Videre supplerte de en VADER-ordliste med en emoji/emotikon-ordliste, og i tillegg til den ovennevnte EC-datasett, utnyttet de også tre andre offentlig tilgjengelige datasett for ternær sentiment-klassifisering, fra Twitter, Rotten Tomatoes og et samplet YELP-datasett.

Gitt den store variasjonen av metodene og datasettene brukt i studien, er resultater varierte, men forskerne hevder at deres beste baseline overgikk den nærmeste forrige målet med 7,36 prosentpoeng.

Forskerne mener at den pågående verdien av prosjektet er utviklingen av LOOVE, basert på ord-til-vektor (W2V)-embeddings trent på over 313 millioner Twitch-chat-meldinger med hjelp av K-Nearest Neighbor (KNN).

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.