stub Förstå Twitch Emotes i Sentiment Analysis - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

Förstå Twitch Emotes i Sentiment Analysis

mm
Uppdaterad on

Allmänhetens växande användning av emojis, uttryckssymboler, emotes, memes, GIF:er och andra icke-verbala sätt att kommunicera på sociala medieplattformar har under de senaste åren alltmer förvirrat dataforskarnas ansträngningar att förstå det globala sociologiska landskapet; åtminstone i den mån världsomspännande sociologiska trender kan urskiljas från det offentliga samtalet.

Även om Natural Language Processing (NLP) har blivit ett kraftfullt verktyg för sentimentanalys under det senaste decenniet, har sektorn svårt att inte bara hänga med i ständigt utvecklande lexikon av slang och språkliga genvägar över flera språk, men också i att försöka avkoda innebörden av bildbaserad inlägg på sociala medieplattformar som Facebook och Twitter.

Eftersom den begränsat antal av folkrika sociala medieplattformar är den enda verkligt hyperskaliga resursen för denna typ av forskning, det är viktigt för AI-sektorn att åtminstone försöka hålla jämna steg med det.

I juli erbjöd en tidning från Taiwan en Ny metod att kategorisera användarsentiment baserat på "reaktions-gifs" som lagts upp i sociala medier-trådar (se bilden nedan), med hjälp av en databas med 30,000 XNUMX tweets för att utveckla ett sätt att förutsäga reaktioner på ett inlägg. Tidningen fann att bildbaserade svar på många sätt är lättare att mäta, eftersom de är mindre benägna att innehålla sarkasm, en anmärkningsvärd utmaning i sentimentanalys.

Forskare från Taiwan studerade användningen av animerade reaktions-GIF:er som "reduktiva indikatorer" på sentiment i en uppsats från 2021.

Tidigare i år, en forskningssatsning ledd av Boston University utbildade maskininlärningsmodeller att förutsäga bildmemes som sannolikt kommer att bli virala på Twitter; och i augusti undersökte brittiska forskare tillväxten av emojis i jämförelse med uttryckssymboler (det finns en Skillnaden) på sociala medier, och sammanställer en storskalig 7-språkig datamängd med piktogramsk Twitter-sentiment.

Twitch Emotes

Nu har amerikanska forskare utvecklat en maskininlärningsmetod för att bättre förstå, kategorisera och mäta det ständigt utvecklande pseudo-lexikonet för emotes på det enormt populära Twitch-nätverket.

Känslor är neologismer som används på Twitch för att uttrycka känslor, humör eller skämt. Eftersom de per definition är nya uttryck, är utmaningen för ett maskininlärningssystem inte nödvändigtvis att oändligt katalogisera nya emotes (som bara kan användas en gång, annars faller ur användning snabbt), utan att få en bättre förståelse av ramverket som genererar dem oändligt; och att utveckla system som kan känna igen en emote som ett "tillfälligt giltigt" ord eller sammansatt fras vars emotionella/politiska temperatur kan behöva mätas helt utifrån sammanhanget.

Grannar till emote 'FeelsGoodMan', vars betydelse kan ändras med obskyra suffix. Källa: https://arxiv.org/pdf/2108.08411.pdf

Grannar till emote 'FeelsGoodMan', vars betydelse kan ändras med obskyra suffix. Källa: https://arxiv.org/pdf/2108.08411.pdf

Smakämnen papper har titeln FeelsGoodMan: Inferring Semantics of Twitch Neologisms, och kommer från tre forskare vid Spiketrap, ett analysföretag för sociala medier i San Francisco.

Bete och växel

Trots deras nyhet och ofta korta liv, återvinner Twitch emotes ofta kulturellt material (inklusive äldre emotes) på ett sätt som kan styra ramar för sentimentanalys i fel riktning. Att spåra förändringen i betydelsen av en emote när den utvecklas kan till och med avslöja en fullständig inversion eller negation av dess ursprungliga känsla eller avsikt.

Till exempel noterar forskarna att den ursprungliga alt-right missbruka av den eponymous FeelsGoodMan Pepe-the-frog meme har nästan helt förlorat sin ursprungliga politiska smak i samband med dess användning på Twitch.

Användningen av frasen, tillsammans med en bild av en tecknad groda från en serie från 2005 av konstnären Matt Furie, blev ett högerextrema meme på 2010-talet. Fast Vox skrev 2017 att högerns tillägnande av meme hade överlevt Furies självförklarade disassociation med sådan användning har San Francisco-forskarna bakom den nya uppsatsen funnit något annat*:

'Furies tecknade groda adopterades av högerorienterade affischer på olika onlineforum som 4chan i början av 2010-talet. Sedan dess har Furie kampanjat för att återta innebörden av sin karaktär, och emote har sett ett uppsving i mer mainstream icke hatanvändning och positiv användning på Twitch. Våra resultat på Twitch överensstämmer, vilket visar att "FeelsGoodMan" och dess motsvarighet "FeelsBadMan" huvudsakligen används bokstavligt.'

Problem nedströms

Den här typen av "bete och byta" när det gäller de generaliserade "funktionerna" i ett meme kan hindra NLP-forskningsprojekt som redan har kategoriserat det som "hatfullt", "högern" eller "nationalistiskt [USA]", och som har dumpat den informationen till långsiktiga arkiv med öppen källkod. Senare NLP-projekt kanske inte väljer att granska de äldre uppgifternas valuta; kanske inte har någon praktisk mekanism för att göra det; och kanske inte ens är medveten om behovet.

Resultatet av detta är att användning av 2017 Twitch-baserade datauppsättningar för att formulera en "politisk kategoriseringsalgoritm" skulle tillskriva anmärkningsvärd alt-höger-aktivitet på Twitch, baserat på frekvensen av FeelsGoodMan emote. Twitch kan eller kanske inte full av alt-right influencers, men enligt forskarna i den nya tidningen kan du inte bevisa det av grodan.

"Pepe"-memes politiska betydelse tycks ha slentrianmässigt förkastats av Twitchs 140 miljoner användare (varav 41 % är under 24), som effektivt har stulit verket från de ursprungliga tjuvarna och målat det i sina egna färger, utan någon särskild agenda.

Metod och data

Forskarna fann att märkt Twitch emote-data var "nästan obefintligt", trots slutsatsen av en tidigare studie att det finns totalt åtta miljoner emotes, och 400,000 XNUMX var närvarande under den enda veckan av Twitch-utdata under veckan som valdes av de tidigare forskarna.

A 2017 studie Att ta itu med emote-förutsägelse på Twitch begränsade sig till att bara förutsäga de 30 bästa Twitch-emotes, och fick bara 0.39 för emote-förutsägelse.

För att ta itu med bristen tog forskarna från San Francisco ett nytt tillvägagångssätt till äldre data, delade upp dem 80/20 mellan träning och testning och tillämpade "traditionella" maskininlärningsmetoder, som inte hade använts tidigare för att studera Twitch-data. Dessa metoder ingår Naiva Bayes (OBS), Slumpmässig skog (RF), Stöd Vector Machine (SVM, med linjära kärnor), och Logistisk återgång.

Detta tillvägagångssätt överträffade tidigare Twitch-sentimentbaslinjer med 63.8 % och gjorde det möjligt för forskarna att därefter utveckla ramverket LOOVE (Learning Out Of Vocabulary Emotions), som kan identifiera nybildningar och "berika" befintliga modeller med dessa nya definitioner.

Arkitektur av ramverket LOOVE (Learning Out Of Vocabulary Emotions) utvecklat av forskarna.

Arkitektur av ramverket LOOVE (Learning Out Of Vocabulary Emotions) utvecklat av forskarna.

LOOVE underlättar oövervakad träning av ordinbäddningar, och rymmer också periodisk omskolning och finjustering, vilket eliminerar behovet av märkta datamängder, vilket skulle vara logistiskt opraktiskt, med tanke på uppgiftens omfattning och den snabba utvecklingen av emotes.

I projektets tjänst har forskarna tränad en emote 'Pseudo-Dictionary' på en omärkt Twitch-datauppsättning, som i processen genererar 444,714 XNUMX inbäddningar av ord, emotes, emojis och uttryckssymboler.

Vidare förstärkte de en VADER lexikon med en emoji/emoticons lexikon, och utöver den tidigare nämnda EG-datauppsättningen, även utnyttjat tre andra offentligt tillgängliga datauppsättningar för ternära sentimentklassificering, från Twitter, Rotten Tomatoes och ett urval av YELP-datauppsättningar.

Med tanke på den stora variationen av metoder och datauppsättningar som används i studien är resultaten varierande, men forskarna hävdar att deras baslinje i bästa fall överträffade den närmaste tidigare mätningen med 7.36 procentenheter.

Forskarna anser att det pågående värdet av projektet är utvecklingen av LOOVE, baserat på ord-till-vektor (W2V) inbäddningar tränade på över 313 miljoner Twitch-chattmeddelanden med hjälp av K-Närmaste granne (KNN).

Författarna sluter till:

"En drivande funktion bakom ramverket är en emote-pseudo-ordbok som kan användas för att härleda känslor för okända emotes. Med hjälp av denna emote-pseudo-ordbok skapade vi en sentimenttabell för 22,507 XNUMX emotes. Detta är det första fallet av emote-förståelse i denna skala.'

 

* Min konvertering av inline-citat till hyperlänkar.