Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

FörstÄ Twitch Emotes i Sentiment Analysis

mm

AllmÀnhetens vÀxande anvÀndning av emojis, uttryckssymboler, emotes, memes, GIF:er och andra icke-verbala sÀtt att kommunicera pÄ sociala medieplattformar har under de senaste Ären alltmer förvirrat dataforskarnas anstrÀngningar att förstÄ det globala sociologiska landskapet; Ätminstone i den mÄn vÀrldsomspÀnnande sociologiska trender kan urskiljas frÄn det offentliga samtalet.

Även om Natural Language Processing (NLP) har blivit ett kraftfullt verktyg för sentimentanalys under det senaste decenniet, har sektorn svĂ„rt att inte bara hĂ€nga med i stĂ€ndigt utvecklande lexikon av slang och sprĂ„kliga genvĂ€gar över flera sprĂ„k, men ocksĂ„ i att försöka avkoda innebörden av bildbaserad inlĂ€gg pĂ„ sociala medieplattformar som Facebook och Twitter.

Eftersom den begrÀnsat antal av mycket populÀra sociala medieplattformar Àr den enda verkligt hyperskaliga resursen för den hÀr typen av forskning, Àr det viktigt för AI-sektorn att Ätminstone försöka hÄlla jÀmna steg med den.

I juli erbjöd en tidning frÄn Taiwan en Ny metod att kategorisera anvÀndarnas sentiment baserat pÄ "reaktions-GIF:er" som publicerats i trÄdar pÄ sociala medier (se bilden nedan), med hjÀlp av en databas med 30,000 XNUMX tweets för att utveckla ett sÀtt att förutsÀga reaktioner pÄ ett inlÀgg. Artikeln fann att bildbaserade svar pÄ mÄnga sÀtt Àr lÀttare att mÀta, eftersom de Àr mindre benÀgna att innehÄlla sarkasm, en anmÀrkningsvÀrd utmaning i sentimentanalys.

Forskare frÄn Taiwan studerade anvÀndningen av animerade reaktions-GIF-bilder som "reduktiva indikatorer" pÄ sentiment i en artikel frÄn 2021.

Tidigare i Är, en forskningssatsning ledd av Boston University utbildade maskininlÀrningsmodeller att förutsÀga bildmemes som sannolikt kommer att bli virala pÄ Twitter; och i augusti undersökte brittiska forskare tillvÀxten av emojis i jÀmförelse med emotikoner (det finns en Skillnaden) pÄ sociala medier, och sammanstÀller en storskalig 7-sprÄkig datamÀngd med piktogramsk Twitter-sentiment.

Twitch Emotes

Nu har amerikanska forskare utvecklat en maskininlÀrningsmetod för att bÀttre förstÄ, kategorisera och mÀta det stÀndigt utvecklande pseudo-lexikonet för emotes pÄ det enormt populÀra Twitch-nÀtverket.

Emotes Àr neologismer som anvÀnds pÄ Twitch för att uttrycka kÀnslor, humör eller interna skÀmt. Eftersom de per definition Àr nya uttryck Àr utmaningen för ett maskininlÀrningssystem inte nödvÀndigtvis att oÀndligt katalogisera nya emotes (som kanske bara anvÀnds en gÄng, eller annars snabbt försvinner ur anvÀndning), utan att fÄ en bÀttre förstÄelse för det ramverk som oÀndligt genererar dem; och att utveckla system som kan kÀnna igen en emote som ett "tillfÀlligt giltigt" ord eller en sammansatt fras vars kÀnslomÀssiga/politiska temperatur kan behöva mÀtas helt utifrÄn sitt sammanhang.

Grannar till emote 'FeelsGoodMan', vars betydelse kan Àndras med obskyra suffix. KÀlla: https://arxiv.org/pdf/2108.08411.pdf

Grannar till emotionen 'FeelsGoodMan', vars betydelse kan Àndras med obskyra suffix. KÀlla: https://arxiv.org/pdf/2108.08411.pdf

Ocuco-landskapet papper har titeln FeelsGoodMan: Inferring Semantics of Twitch Neologisms, och kommer frÄn tre forskare vid Spiketrap, ett analysföretag för sociala medier i San Francisco.

Bete och vÀxel

Trots deras nyhet och ofta korta liv, Ätervinner Twitch emotes ofta kulturellt material (inklusive Àldre emotes) pÄ ett sÀtt som kan styra ramar för sentimentanalys i fel riktning. Att spÄra förÀndringen i betydelsen av en emote nÀr den utvecklas kan till och med avslöja en fullstÀndig inversion eller negation av dess ursprungliga kÀnsla eller avsikt.

Till exempel noterar forskarna att den ursprungliga alt-right missbruka av den eponymous FeelsGoodMan Pepe-the-frog meme har nÀstan helt förlorat sin ursprungliga politiska smak i samband med dess anvÀndning pÄ Twitch.

AnvÀndningen av frasen, tillsammans med en bild av en tecknad groda frÄn en serie frÄn 2005 av konstnÀren Matt Furie, blev ett högerextrema meme pÄ 2010-talet. Fast Vox skrev Är 2017 att högerns tillÀgnande av memen hade överlevt Furies sjÀlvutnÀmnda disassociation med sÄdan anvÀndning har San Francisco-forskarna bakom den nya uppsatsen funnit nÄgot annat*:

'Furies tecknade groda adopterades av högerorienterade affischer pĂ„ olika onlineforum som 4chan i början av 2010-talet. Sedan dess har Furie kampanjat för att Ă„terta innebörden av sin karaktĂ€r, och emote har sett ett uppsving i mer mainstream icke hatanvĂ€ndning och positiv anvĂ€ndning pĂ„ Twitch. VĂ„ra resultat pĂ„ Twitch överensstĂ€mmer och visar att ”FeelsGoodMan” och dess motsvarighet ”FeelsBadMan” huvudsakligen anvĂ€nds bokstavligt.

Problem nedströms

Den hÀr typen av "lockbeten" gÀllande de generaliserade "funktionerna" hos ett meme kan hindra NLP-forskningsprojekt som redan har kategoriserat det som "hatiskt", "högerextremt" eller "nationalistiskt [USA]", och som har dumpat den informationen i lÄngsiktiga arkiv med öppen kÀllkod. Senare NLP-projekt kanske inte vÀljer att granska den Àldre datans aktualitet; kanske inte har nÄgon praktisk mekanism för att göra det; och kanske inte ens Àr medvetna om behovet.

Resultatet av detta Àr att anvÀndning av 2017 Twitch-baserade datauppsÀttningar för att formulera en "politisk kategoriseringsalgoritm" skulle tillskriva anmÀrkningsvÀrd alt-höger-aktivitet pÄ Twitch, baserat pÄ frekvensen av FeelsGoodMan emote. Twitch kan eller kanske inte full av alt-right influencers, men enligt forskarna i den nya artikeln kan man inte bevisa det med grodan.

"Pepe"-memens politiska betydelse verkar ha blivit nonchalant förkastad av Twitchs 140 miljoner anvÀndare (varav 41 % Àr under 24), som effektivt har stulit verket frÄn de ursprungliga tjuvarna och mÄlat det i sina egna fÀrger, utan nÄgon sÀrskild agenda.

Metod och data

Forskarna fann att mÀrkta Twitch-emotedata var "praktiskt taget obefintlig", trots slutsatsen av en tidigare studie att det finns totalt Ätta miljoner emotes, och 400,000 XNUMX var nÀrvarande under den enda veckan av Twitch-utdata under veckan som valdes av de tidigare forskarna.

A 2017 studie Att ta itu med emote-förutsÀgelse pÄ Twitch begrÀnsade sig till att bara förutsÀga de 30 bÀsta Twitch-emotes, och fick bara 0.39 för emote-förutsÀgelse.

För att ÄtgÀrda bristen tog forskarna i San Francisco ett nytt tillvÀgagÄngssÀtt för den Àldre datan, delade den 80/20 mellan trÀning och testning, och tillÀmpade "traditionella" maskininlÀrningsmetoder, som inte tidigare anvÀnts för att studera Twitch-data. Dessa metoder inkluderade Naiva Bayes (OBS), SlumpmÀssig skog (RF), Stöd Vector Machine (SVM, med linjÀra kÀrnor), och Logistisk ÄtergÄng.

Denna metod övertrÀffade tidigare Twitch-sentimentbaslinjer med 63.8 % och gjorde det möjligt för forskarna att dÀrefter utveckla LOOVE-ramverket (Learning Out Of Vocabulary Emotions), vilket kan identifiera neologismer och "berika" befintliga modeller med dessa nya definitioner.

Arkitektur av ramverket LOOVE (Learning Out Of Vocabulary Emotions) utvecklat av forskarna.

Arkitektur av ramverket LOOVE (Learning Out Of Vocabulary Emotions) utvecklat av forskarna.

LOOVE underlÀttar oövervakad trÀning av ordinbÀddningar, och rymmer ocksÄ periodisk omskolning och finjustering, vilket eliminerar behovet av mÀrkta datamÀngder, vilket skulle vara logistiskt opraktiskt, med tanke pÄ uppgiftens omfattning och den snabba utvecklingen av emotes.

I projektets tjÀnst har forskarna trÀnad en emote 'Pseudo-Dictionary' pÄ en omÀrkt Twitch-datauppsÀttning, som i processen genererar 444,714 XNUMX inbÀddningar av ord, emotes, emojis och emotikoner.

Vidare förstÀrkte de en VADER lexikon med en emoji/emoticons lexikon, och utöver den tidigare nÀmnda EG-datauppsÀttningen, Àven utnyttjat tre andra offentligt tillgÀngliga datauppsÀttningar för ternÀra sentimentklassificering, frÄn Twitter, Rotten Tomatoes och ett urval av YELP-datauppsÀttningar.

Med tanke pÄ den stora variationen av metoder och datauppsÀttningar som anvÀnds i studien Àr resultaten varierande, men forskarna hÀvdar att deras baslinje i bÀsta fall övertrÀffade den nÀrmaste tidigare mÀtningen med 7.36 procentenheter.

Forskarna anser att det pÄgÄende vÀrdet av projektet Àr utvecklingen av LOOVE, baserat pÄ ord-till-vektor (W2V) inbÀddningar trÀnade pÄ över 313 miljoner Twitch-chattmeddelanden med hjÀlp av K-NÀrmaste granne (KNN).

Författarna sluter till:

"En drivande funktion bakom ramverket Àr en pseudo-ordbok för emotes som kan anvÀndas för att hÀrleda sentiment för okÀnda emotes. Med hjÀlp av denna pseudo-ordbok för emotes skapade vi en sentimenttabell för 22,507 XNUMX emotes. Detta Àr det första fallet av emoteförstÄelse i denna skala."

 

* Min konvertering av inline-citat till hyperlÀnkar.

 

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai