Kunsmatige Intelligensie

Verstaan Twitch Emotes in sentimentanalise

Opgedateer on Desember 9, 2022

Die publiek s'n groeiende gebruik van emoji's, emoticons, emotes, memes, GIF's en ander nie-verbale maniere om op sosiale media-platforms te kommunikeer, het in onlangse jare die pogings van datawetenskaplikes om die globale sosiologiese landskap te verstaan, toenemend verwar; ten minste, tot die mate dat wêreldwye sosiologiese tendense uit openbare diskoers onderskei kan word.

Alhoewel natuurlike taalverwerking (NLP) oor die afgelope dekade 'n kragtige instrument in sentimentanalise geword het, sukkel die sektor nie net om tred te hou met 'n steeds ontwikkelende leksikon van sleng en linguistiese kortpaaie oor verskeie tale, maar ook in die poging om die betekenis van te dekodeer beeldgebaseer plasings op sosiale media platforms soos Facebook en Twitter.

Sedert die beperkte aantal van hoogbevolkte sosialemedia-platforms die enigste werklik hiperskaal hulpbron vir hierdie soort navorsing is, is dit noodsaaklik vir die KI-sektor om ten minste te probeer om tred daarmee te handhaaf.

In Julie het 'n koerant van Taiwan 'n aangebied Nuwe metode om gebruikerssentiment te kategoriseer gebaseer op 'reaksie GIF's' wat op sosiale media-drade geplaas is (sien prent hieronder), deur 'n databasis van 30,000 XNUMX twiets te gebruik om 'n manier te ontwikkel om reaksies op 'n plasing te voorspel. Die koerant het bevind dat beeldgebaseerde antwoorde op baie maniere makliker is om te bepaal, aangesien dit minder geneig is om sarkasme te bevat, 'n noemenswaardige uitdaging in sentimentanalise.

Navorsers van Taiwan het die gebruik van geanimeerde reaksie-GIF's as 'reduktiewe aanwysers' van sentiment in 'n 2021-artikel bestudeer.

Vroeër vanjaar, 'n navorsingspoging gelei deur Boston Universiteit opgeleide masjienleermodelle om beeldmemes te voorspel wat waarskynlik virale op Twitter gaan word; en in Augustus het Britse navorsers die groei van emoji's ondersoek in vergelyking met emoticons (daar is 'n verskil) op sosiale media, wat 'n grootskaalse 7-taaldatastel van piktografiese Twitter-sentiment saamstel.

Twitch Emotes

Nou het Amerikaanse navorsers 'n masjienleermetodologie ontwikkel om die immer ontwikkelende pseudo-leksikon van beter te verstaan, te kategoriseer en te meet. emotes op die uiters gewilde Twitch-netwerk.

Emosies is neologismes wat op Twitch gebruik word om emosie, bui of in-grappies uit te druk. Aangesien dit per definisie nuwe uitdrukkings is, is die uitdaging vir 'n masjienleerstelsel nie noodwendig om eindeloos nuwe emosies te katalogiseer nie (wat net een keer gebruik mag word, of anders vinnig buite gebruik raak), maar om 'n beter begrip te kry van die raamwerk wat genereer hulle eindeloos; en om sisteme te ontwikkel wat in staat is om 'n emotie te herken as 'n 'tydelik geldige' woord of saamgestelde frase waarvan die emosionele/politieke temperatuur moontlik geheel en al vanuit konteks gemeet moet word.

Bure van die 'FeelsGoodMan'-emosie, wie se betekenis deur obskure agtervoegsels verander kan word. Bron: https://arxiv.org/pdf/2108.08411.pdf

Die papier is getiteld FeelsGoodMan: Inferring Semantics of Twitch Neologisms, en kom van drie navorsers by Spiketrap, 'n sosiale media-ontledingsmaatskappy in San Francisco.

Aas en skakelaar

Ten spyte van hul nuutheid en dikwels kort lewens, herwin Twitch-emosies gereeld kulturele materiaal (insluitend ouer emosies) op 'n manier wat sentimentontledingsraamwerke in die verkeerde rigting kan stuur. Om die verskuiwing in die betekenis van 'n emotie na te spoor soos dit ontwikkel, kan selfs 'n volledige inversie of ontkenning van sy oorspronklike sentiment of bedoeling openbaar.

Byvoorbeeld, die navorsers merk op dat die oorspronklike alt-regs misbruik van die gelyknamige VoelGoodMan Pepe-die-padda-meme het sy oorspronklike politieke geur amper heeltemal verloor in die konteks van die gebruik daarvan op Twitch.

Die gebruik van die frase, tesame met 'n beeld van 'n spotprentpadda uit 'n 2005-strokiesprent deur kunstenaar Matt Furie, 'n verregse meme geword in die 2010's. Alhoewel Vox geskryf in 2017 dat die reg se toeëiening van die meme Furie se selfbetuiging oorleef het Disassociation met so 'n gebruik het die San Francisco-navorsers agter die nuwe referaat anders gevind*:

'Furie se spotprentpadda is in die vroeë 4's deur regse plakkate op verskeie aanlynforums soos 2010chan aangeneem. Sedertdien het Furie 'n veldtog gevoer om die betekenis van sy karakter te herwin, en die emotie het 'n oplewing in meer hoofstroom gesien nie haatgebruik nie en positiewe gebruik op Twitch. Ons resultate op Twitch stem saam, wat wys dat "FeelsGoodMan" en sy eweknie "FeelsBadMan" hoofsaaklik letterlik gebruik word.'

Probleme stroomaf

Hierdie soort 'aas en skakelaar' met betrekking tot die algemene 'kenmerke' van 'n meme kan NLP-navorsingsprojekte belemmer wat dit reeds as 'haatlik', 'regse' of 'nasionalistiese [VS]' gekategoriseer het, en wat daardie inligting gestort het in langtermyn oopbronbewaarplekke. Latere NLP-projekte mag dalk nie kies om die ouer data se geldeenheid te oudit nie; mag nie enige praktiese meganisme hê om dit te doen nie; en is dalk nie eers bewus van die behoefte nie.

Die gevolg hiervan is dat die gebruik van 2017 Twitch-gebaseerde datastelle om 'n 'politieke kategorisering'-algoritme te formuleer noemenswaardige alt-regs-aktiwiteit op Twitch sal toeskryf, gebaseer op die frekwensie van die VoelGoodMan emosie. Twitch mag of mag nie wees nie vol alt-reg beïnvloeders, maar volgens die navorsers van die nuwe koerant kan jy dit nie deur die padda bewys nie.

Die 'Pepe' meme se politieke betekenis blyk te wees terloops weggegooi deur Twitch se 140 miljoen gebruikers (van wie 41% is onder 24), wat die werk effektief weer van die oorspronklike diewe gesteel het en dit in hul eie kleure geverf het, sonder enige spesifieke agenda.

Metode en data

Die navorsers het bevind dat gemerkte Twitch emote-data 'feitlik nie bestaan nie', ondanks die gevolgtrekking van 'n vroeër studie dat daar is agt miljoen totale emosies, en 400,000 was teenwoordig in die enkele week van Twitch-uitset in die week wat deur daardie vroeëre navorsers gekies is.

A 2017 studie die aanspreek van emote-voorspelling op Twitch het hom beperk tot die voorspelling van slegs die top 30 Twitch-emoties, met slegs 0.39 vir emote-voorspelling.

Om die tekort aan te spreek, het die San Francisco-navorsers 'n nuwe benadering tot die ouer data geneem, dit 80/20 verdeel tussen opleiding en toetsing, en 'tradisionele' masjienleermetodes toegepas, wat nie voorheen gebruik is om Twitch-data te bestudeer nie. Hierdie metodes ingesluit Naïewe Bayes (NB), Random Forest (RF), Ondersteun vektormasjien (SVM, met lineêre pitte), en Logistieke regressie.

Hierdie benadering het vorige Twitch-sentiment-basislyne met 63.8% oortref, en het die navorsers in staat gestel om daarna die LOOVE (Learning Out Of Vocabulary Emotions)-raamwerk te ontwikkel, wat in staat is om neologismes te identifiseer en bestaande modelle met hierdie nuwe definisies te 'verryk'.

Argitektuur van die LOOVE (Learning Out Of Vocabulary Emotions)-raamwerk wat deur die navorsers ontwikkel is.

LOOVE fasiliteer die opleiding sonder toesig van woordinbeddings, en akkommodeer ook periodieke heropleiding en verfyning, wat die behoefte aan benoemde datastelle uitskakel, wat logisties onprakties sou wees, met inagneming van die omvang van die taak en die vinnige evolusie van emotes.

In diens van die projek het die navorsers opgelei 'n emote 'Pseudo-woordeboek' op 'n ongemerkte Twitch-datastel, wat in die proses 444,714 XNUMX inbeddings van woorde, emotes, emoji's en emoticons genereer.

Verder het hulle a VADER leksikon met 'n emoji/emotikoon leksikon, en benewens die voorgenoemde EC-datastel, ook drie ander publiek beskikbare datastelle ontgin vir drieledige sentimentklassifikasie, vanaf Twitter, Rotten Tomatoes en 'n steekproef YELP-datastel.

Gegewe die groot verskeidenheid metodologieë en datastelle wat in die studie gebruik is, is die resultate uiteenlopend, maar die navorsers beweer dat hul beste-geval basislyn die naaste vorige maatstaf met 7.36 persentasiepunte beter gevaar het.

Die navorsers is van mening dat die voortdurende waarde van die projek die ontwikkeling van LOOVE is, gebaseer op woord-tot-vektor (W2V) inbeddings wat op meer as 313 miljoen Twitch-kletsboodskappe opgelei is met behulp van K-Naaste Buurman (KNN).

Die outeurs concludeer:

''n Dryfkenmerk agter die raamwerk is 'n emote pseudo-woordeboek wat gebruik kan word om sentiment vir onbekende emotes af te lei. Deur hierdie emote pseudo-woordeboek te gebruik, het ons 'n sentimenttabel vir 22,507 XNUMX emotes geskep. Dit is die eerste geval van emosiebegrip op hierdie skaal.'

* My omskakeling van inlyn-aanhalings na hiperskakels.