Kontakt med oss

Kunstig intelligens

Forstå Twitch Emotes i sentimentanalyse

mm

Publikums økende bruk av emojis, uttrykksikoner, emotes, memes, GIF-er og andre ikke-verbale måter å kommunisere på sosiale medieplattformer har de siste årene i økende grad forvirret innsatsen til dataforskere for å forstå det globale sosiologiske landskapet; i det minste i den grad verdensomspennende sosiologiske trender kan skjelnes fra offentlig diskurs.

Selv om Natural Language Processing (NLP) har blitt et kraftig verktøy i sentimentanalyse i løpet av det siste tiåret, har sektoren ikke bare problemer med å holde tritt med en leksikon i stadig utvikling av slang og språklige snarveier på tvers av flere språk, men også i forsøk på å avkode betydningen av bildebasert innlegg på sosiale medieplattformer som Facebook og Twitter.

Siden begrenset antall Selv om mange svært folkerike sosiale medieplattformer er den eneste virkelig hyperskala ressursen for denne typen forskning, er det viktig at AI-sektoren i det minste forsøker å holde tritt med den.

I juli tilbød en avis fra Taiwan en Ny metode å kategorisere brukersentimenter basert på «reaksjons-GIF-er» lagt ut i tråder på sosiale medier (se bildet nedenfor), ved å bruke en database med 30,000 XNUMX tweets for å utvikle en måte å forutsi reaksjoner på et innlegg. Artikkelen fant at bildebaserte svar på mange måter er enklere å måle, siden de har mindre sannsynlighet for å inneholde sarkasme, en bemerkelsesverdig utfordring i sentimentanalyse.

Forskere fra Taiwan studerte bruken av animerte reaksjons-GIF-er som «reduktive indikatorer» på sentiment i en artikkel fra 2021.

Tidligere i år, en forskningsinnsats ledet av Boston University trente maskinlæringsmodeller å forutsi bildememer som sannsynligvis vil gå viralt på Twitter; og i august undersøkte britiske forskere veksten av emojier sammenlignet med emotikoner (det er en forskjell) på sosiale medier, og kompilerte et storstilt 7-språks datasett med piktografisk Twitter-følelse.

Twitch Emotes

Nå har amerikanske forskere utviklet en maskinlæringsmetodikk for å bedre forstå, kategorisere og måle det stadig utviklende pseudo-leksikonet til følelser på det enormt populære Twitch-nettverket.

Emoter er neologismer som brukes på Twitch for å uttrykke følelser, humør eller interne vitser. Siden de per definisjon er nye uttrykk, er utfordringen for et maskinlæringssystem ikke nødvendigvis å endeløst katalogisere nye emoter (som kanskje bare brukes én gang, eller som raskt faller ut av bruk), men å få en bedre forståelse av rammeverket som genererer dem i det uendelige; og å utvikle systemer som er i stand til å gjenkjenne en emote som et «midlertidig gyldig» ord eller en sammensatt frase hvis emosjonelle/politiske temperatur kanskje må måles utelukkende ut fra kontekst.

Naboer til "FeelsGoodMan"-emosjonen, hvis betydning kan endres med obskure suffikser. Kilde: https://arxiv.org/pdf/2108.08411.pdf

Naboer til «FeelsGoodMan»-emoten, hvis betydning kan endres av obskure suffikser. Kilde: https://arxiv.org/pdf/2108.08411.pdf

Ocuco papir har tittelen FeelsGoodMan: Inferring Semantics of Twitch Neologisms, og kommer fra tre forskere ved Spiketrap, et analyseselskap for sosiale medier i San Francisco.

Agn og bryter

Til tross for deres nyhet og ofte korte liv, resirkulerer Twitch-emosjoner ofte kulturelt materiale (inkludert eldre følelser) på en måte som kan styre rammeverk for sentimentanalyse i feil retning. Å spore skiftet i betydningen av en følelse når den utvikler seg kan til og med avsløre en fullstendig inversjon eller negasjon av dens opprinnelige følelse eller hensikt.

For eksempel bemerker forskerne at den opprinnelige alt-høyre misbruk av eponyme FeelsGoodMan Pepe-the-frog meme har nesten fullstendig mistet sin opprinnelige politiske smak i sammenheng med bruken på Twitch.

Bruken av uttrykket, sammen med et bilde av en tegneseriefrosk fra en tegneserie fra 2005 av artisten Matt Furie, ble et høyreekstreme meme på 2010-tallet. Skjønt Vox skrev i 2017 at høyresidens tilegnelse av memen hadde overlevd Furies selverklærte disassociation med slik bruk har San Francisco-forskerne bak det nye papiret funnet noe annet*:

'Furies tegneseriefrosk ble adoptert av høyreorienterte plakater på forskjellige nettfora som 4chan på begynnelsen av 2010-tallet. Siden den gang har Furie aksjonert for å gjenvinne betydningen av karakteren hans, og følelsen har sett en oppgang i mer mainstream ikke hatbruk og positiv bruk på Twitch. Resultatene våre på Twitch stemmer overens, og viser at «FeelsGoodMan» og motstykket «FeelsBadMan» hovedsakelig brukes bokstavelig.

Problemer nedstrøms

Denne typen «agn og bytte» angående de generaliserte «funksjonene» til et meme kan hindre NLP-forskningsprosjekter som allerede har kategorisert det som «hatefullt», «høyreorientert» eller «nasjonalistisk [USA]», og som har dumpet denne informasjonen i langsiktige åpen kildekode-arkiv. Senere NLP-prosjekter velger kanskje ikke å revidere de eldre dataenes aktualitet; har kanskje ikke noen praktisk mekanisme for å gjøre det; og er kanskje ikke engang klar over behovet.

Resultatet av dette er at bruk av 2017 Twitch-baserte datasett for å formulere en 'politisk kategoriserings'-algoritme vil tilskrive bemerkelsesverdig alt-høyre-aktivitet på Twitch, basert på frekvensen av FeelsGoodMan emote. Twitch kan være det eller ikke full av alt-right-influensere, men ifølge forskerne i den nye artikkelen kan du ikke bevise det med frosken.

Den politiske betydningen av «Pepe»-memen ser ut til å ha blitt lett forkastet av Twitchs 140 millioner brukere (hvorav 41 % er under 24), som effektivt har stjålet verket fra de originale tyvene og malt det i sine egne farger, uten noen spesiell agenda.

Metode og data

Forskerne fant ut at merkede Twitch-emotedata var «praktisk talt ikke-eksisterende», til tross for konklusjonen av en tidligere studie at det er totalt åtte millioner følelser, og 400,000 XNUMX var til stede i den eneste uken med Twitch-utgang i uken valgt av de tidligere forskerne.

A 2017 studie adressering av emote-prediksjon på Twitch begrenset seg til å forutsi bare de 30 beste Twitch-emosjonene, og scoret bare 0.39 for emote-prediksjon.

For å håndtere mangelen tok forskerne i San Francisco en ny tilnærming til de eldre dataene, og delte dem 80/20 mellom trening og testing, og brukte «tradisjonelle» maskinlæringsmetoder, som ikke hadde blitt brukt tidligere for å studere Twitch-data. Disse metodene inkluderte Naiv Bayes (NB), Tilfeldig skog (RF), Støtt vektormaskin (SVM, med lineære kjerner), og Logistisk regresjon.

Denne tilnærmingen overgikk tidligere Twitch-sentimentgrunnlinjer med 63.8 %, og gjorde det mulig for forskerne å deretter utvikle LOOVE-rammeverket (Learning Out Of Vocabulary Emotions), som er i stand til å identifisere neologismer og «berike» eksisterende modeller med disse nye definisjonene.

Arkitektur av rammeverket LOOVE (Learning Out Of Vocabulary Emotions) utviklet av forskerne.

Arkitektur av rammeverket LOOVE (Learning Out Of Vocabulary Emotions) utviklet av forskerne.

LOOVE forenkler opplæring uten tilsyn av ordinnbygginger, og rommer også periodisk omskolering og finjustering, og eliminerer behovet for merkede datasett, noe som ville være logistisk upraktisk, tatt i betraktning oppgavens omfang og den raske utviklingen av emotes.

I prosjektets tjeneste har forskerne trent en emote «Pseudo-Dictionary» på et umerket Twitch-datasett, som i prosessen genererer 444,714 XNUMX innebygginger av ord, emotes, emojier og emotikoner.

Videre forsterket de en VADER-leksikon med en emoji/emoticon-leksikon, og i tillegg til det nevnte EC-datasettet, også utnyttet tre andre offentlig tilgjengelige datasett for trefoldig sentimentklassifisering, fra Twitter, Rotten Tomatoes og et utvalgt YELP-datasett.

Gitt den store variasjonen av metoder og datasett som er brukt i studien, er resultatene varierte, men forskerne hevder at deres best-case baseline overgikk den nærmeste tidligere metrikken med 7.36 prosentpoeng.

Forskerne vurderer at den pågående verdien av prosjektet er utviklingen av LOOVE, basert på ord-til-vektor (W2V)-innbygginger trent på over 313 millioner Twitch chat-meldinger ved hjelp av K-nærmeste nabo (KNN).

Forfatterne konkluderer med:

«En drivende funksjon bak rammeverket er en pseudo-ordbok for emoter som kan brukes til å utlede sentiment for ukjente emoter. Ved å bruke denne pseudo-ordboken for emoter laget vi en sentimenttabell for 22,507 XNUMX emoter. Dette er det første tilfellet av forståelse av emoter på denne skalaen.»

 

* Min konvertering av innebygde sitater til hyperkoblinger.

 

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai