Liity verkostomme!

Tekoäly

Twitch-emotien ymmärtäminen tunneanalyysissä

mm

Yleisön kasvava käyttö emojit, hymiöt, hymiöt, meemit, GIF-tiedostot ja muut sanattomat kommunikointitavat sosiaalisen median alustoilla on viime vuosina hämmentäneet datatieteilijöiden pyrkimyksiä ymmärtää globaalia sosiologista maisemaa; ainakin siinä määrin kuin maailmanlaajuiset sosiologiset suuntaukset voidaan erottaa julkisesta keskustelusta.

Vaikka luonnollisen kielen käsittelystä (NLP) on tullut viime vuosikymmenen aikana tehokas työkalu mielialan analysoinnissa, alalla ei ole vain vaikeuksia pysyä mukana jatkuvasti kehittyvä sanasto slangia ja kielellisiä pikanäppäimiä useilla kielillä, mutta myös yrittäessään purkaa slangin merkitystä kuvapohjainen julkaisuja sosiaalisessa mediassa, kuten Facebookissa ja Twitterissä.

Koska rajoitettu määrä Koska erittäin suositut sosiaalisen median alustat ovat ainoa todella hyperskaalautuva resurssi tällaiselle tutkimukselle, on tärkeää, että tekoälyala ainakin yrittää pysyä sen vauhdissa.

Heinäkuussa taiwanilainen lehti tarjosi a Uusi menetelmä luokitella käyttäjien mielipiteitä sosiaalisen median keskusteluketjuihin lähetettyjen "reaktio-GIFien" perusteella (katso kuva alla) käyttämällä 30,000 XNUMX twiitin tietokantaa kehittääkseen tavan ennustaa reaktioita julkaisuun. Tutkimuksessa havaittiin, että kuvapohjaisia ​​​​reaktioita on monella tapaa helpompi arvioida, koska ne sisältävät vähemmän todennäköisesti sarkasmia, a merkittävä haaste tunneanalyysissä.

Taiwanilaiset tutkijat tarkastelivat animoitujen reaktio-GIF-kuvien käyttöä mielipiteiden "reduktiivisina indikaattoreina" vuonna 2021 julkaistussa artikkelissa.

Aiemmin tänä vuonna Bostonin yliopiston johtama tutkimus koulutetut koneoppimismallit ennustaakseen kuvameemejä, jotka todennäköisesti leviävät viraaliksi Twitterissä; ja elokuussa brittiläiset tutkijat tarkastelivat emojien kasvua verrattuna hymiöihin (on olemassa ero) sosiaalisessa mediassa kokoamalla laajan 7-kielisen tietojoukon Twitterin kuvallisesta tunteesta.

Twitch Emotes

Nyt yhdysvaltalaiset tutkijat ovat kehittäneet koneoppimismetodologian ymmärtääkseen, luokitellakseen ja mitatakseen paremmin jatkuvasti kehittyvää pseudo-sanakirjaa. tunteet erittäin suositussa Twitch-verkossa.

Hymiöt ovat Twitchissä käytettyjä uudissanoja, joilla ilmaistaan ​​tunteita, mielialoja tai vitsejä. Koska ne ovat määritelmän mukaan uusia ilmaisuja, koneoppimisjärjestelmän haasteena ei välttämättä ole loputon uusien hymiöiden luettelointi (joita voidaan käyttää vain kerran tai jotka muuten poistuvat käytöstä nopeasti), vaan paremman ymmärryksen saavuttaminen kehyksestä, joka niitä loputtomasti luo; ja sellaisten järjestelmien kehittäminen, jotka kykenevät tunnistamaan hymin "väliaikaisesti päteväksi" sanaksi tai yhdyssanaksi, jonka emotionaalinen/poliittinen lämpötila on ehkä mitattava kokonaan kontekstista.

FeelsGoodMan-hymiön naapurit, joiden merkitystä voidaan muuttaa epäselvillä jälkiliitteillä. Lähde: https://arxiv.org/pdf/2108.08411.pdf

'FeelsGoodMan'-hymiön naapurit, joiden merkitystä voidaan muuttaa epäselvillä päätteillä. Lähde: https://arxiv.org/pdf/2108.08411.pdf

- paperi on otsikko FeelsGoodMan: Twitch-neologismien semantiikan päättäminen, ja se tulee kolmelta tutkijalta Spiketrapista, sosiaalisen median analyysiyrityksestä San Franciscossa.

Bait ja Switch

Huolimatta uutuudestaan ​​ja usein lyhyistä elämästään Twitch-emotit kierrättävät usein kulttuurimateriaalia (mukaan lukien vanhemmat hymiöt) tavalla, joka voi ohjata tunteiden analyysin kehyksiä väärään suuntaan. Hymiön merkityksen muutoksen jäljittäminen sen kehittyessä voi jopa paljastaa sen alkuperäisen tunteen tai tarkoituksen täydellisen käänteisyyden tai kieltämisen.

Esimerkiksi tutkijat huomauttavat, että alkuperäinen alt-right väärinkäyttö samannimisestä Feels GoodMan Pepe-the-frog -meemi on lähes kokonaan menettänyt alkuperäisen poliittisen makunsa Twitchin käytön yhteydessä.

Ilmauksen käyttö yhdessä taiteilija Matt Furien vuoden 2005 sarjakuvan sarjakuvasammakon kuvan kanssa, siitä tuli äärioikeistolainen meemi 2010-luvulla. Vaikka Vox kirjoitti vuonna 2017, että oikeiston meemin haltuunotto oli selvinnyt Furien itsensä tunnustamasta disassociation tällaisella käytöllä uuden paperin takana olevat San Franciscon tutkijat ovat havainneet toisin*:

"Furien sarjakuvasammakko omaksuttiin oikeistojulisteissa eri verkkofoorumeilla, kuten 4chanilla 2010-luvun alussa. Siitä lähtien Furie on kampanjoinut saadakseen takaisin hahmonsa merkityksen, ja emote on nähnyt nousun valtavirtaan. ei vihamielinen käyttö ja positiivista käyttöä Twitchissä. Twitch-tuloksemme ovat yhtäpitäviä ja osoittavat, että ”FeelsGoodMan” ja sen vastinetta ”FeelsBadMan” käytetään pääasiassa kirjaimellisesti.

Ongelma loppupäässä

Tällainen yleistettyihin meemin "ominaisuuksiin" liittyvä "syötti ja vaihto" voi haitata NLP-tutkimusprojekteja, jotka ovat jo luokitteleneet sen "vihamieliseksi", "oikeistolaiseksi" tai "nationalistiseksi [USA]" ja jotka ovat dumpanneet tiedot pitkäaikaisiin avoimen lähdekoodin arkistoihin. Myöhemmät NLP-projektit eivät välttämättä halua auditoida vanhemman datan ajantasaisuutta; niillä ei ehkä ole käytännöllistä mekanismia tehdä niin; eivätkä ne välttämättä ole edes tietoisia tarpeesta.

Lopputulos on, että käyttämällä vuoden 2017 Twitch-pohjaisia ​​tietojoukkoja "poliittisen luokittelualgoritmin" laatimiseen, Twitchille annettaisiin huomattavaa alt-right-toimintaa, joka perustuu Feels GoodMan hymiö. Twitch voi olla tai ei täynnä alt-right vaikuttajia, mutta uuden tutkimuksen tutkijoiden mukaan sitä ei voi todistaa sammakon avulla.

Twitchin 140 miljoonaa käyttäjää (joista 41 % ovat alle 24-vuotiaita), jotka ovat tehokkaasti varastaneet teoksen alkuperäisiltä varkailta ja maalanneet sen omilla väreillään ilman erityistä agendaa.

Menetelmä ja tiedot

Tutkijat havaitsivat, että merkittyjä Twitch-hymiötietoja oli "käytännössä olemattomia", huolimatta tutkimuksen johtopäätöksestä. aikaisempi tutkimus että siellä on kahdeksan miljoonaa hymiötä, ja 400,000 XNUMX oli läsnä yhdellä Twitch-tuotannon viikolla aiempien tutkijoiden valitsemalla viikolla.

A 2017 tutkimus emote-ennusteen käsitteleminen Twitchissä rajoittui ennustamaan vain 30 parasta Twitch-hymiötä, ja pistemäärä 0.39 hymiön ennustamisesta.

San Franciscon tutkijat korjasivat puutteen ottamalla uuden lähestymistavan vanhempaan dataan jakamalla sen 80/20 koulutuksen ja testauksen kesken ja soveltamalla "perinteisiä" koneoppimismenetelmiä, joita ei ollut aiemmin käytetty Twitch-datan tutkimiseen. Näihin menetelmiin kuuluivat Naiivi Bayes (HUOM), Satunnainen metsä (RF), Tuki Vector Machine (SVM, lineaarisilla ytimillä) ja Logistinen regressio.

Tämä lähestymistapa ylitti aiemmat Twitchin tunnetilanneperusarvot 63.8 prosentilla ja mahdollisti tutkijoiden myöhemmin kehittää LOOVE (Learning Out Of Vocabulary Emotions) -kehyksen, joka pystyy tunnistamaan uudissanoja ja "rikasttamaan" olemassa olevia malleja näillä uusilla määritelmillä.

Tutkijoiden kehittämä LOOVE (Learning Out Of Vocabulary Emotions) -kehyksen arkkitehtuuri.

Tutkijoiden kehittämä LOOVE (Learning Out Of Vocabulary Emotions) -kehyksen arkkitehtuuri.

LOOVE helpottaa sanan upotusten ohjaamatonta koulutusta ja mahdollistaa myös säännöllisen uudelleenkoulutuksen ja hienosäädön, jolloin ei tarvita merkittyjä tietojoukkoja, mikä olisi logistisesti epäkäytännöllistä, kun otetaan huomioon tehtävän laajuus ja hymiöiden nopea kehitys.

Hankkeen palveluksessa tutkijat koulutettu hymiö 'Pseudo-Dictionary' nimeämättömässä Twitch-tietokannassa, prosessissa luoden 444,714 XNUMX sanojen, hymiöiden, emojien ja hymiöiden upotusta.

Lisäksi he lisäsivät a VADER-sanakirja kanssa emoji / hymiösanakirja, ja edellä mainitun EY-tietojoukon lisäksi hyödynsi myös kolmea muuta julkisesti saatavilla olevaa tietojoukkoa kolmiosainen tunteiden luokittelu Twitteristä, Rotten Tomatoesista ja näytteistä YELP-tietojoukosta.

Kun otetaan huomioon tutkimuksessa käytettyjen metodologioiden ja tietokokonaisuuksien suuri valikoima, tulokset ovat vaihtelevia, mutta tutkijat väittävät, että heidän parhaan tapauksensa lähtötaso ylitti lähimmän aikaisemman mittarin 7.36 prosenttiyksiköllä.

Tutkijat katsovat, että projektin jatkuva arvo on LOOVEn kehittäminen, joka perustuu Word-to-Vector (W2V) -upotuksiin, jotka on koulutettu yli 313 miljoonalle Twitch-chat-viestille. K-lähin naapuri (KNN).

Kirjoittajat päättelevät:

"Viitekehyksen taustalla on hymiö-pseudosanakirja, jota voidaan käyttää tuntemattomien hymiöiden tunnetilojen johtamiseen. Tämän hymiö-pseudosanakirjan avulla loimme tunnetilataulukon 22,507 XNUMX hymiölle. Tämä on ensimmäinen kerta, kun hymiöitä ymmärretään tässä mittakaavassa."

 

* Muutokseni upotetut lainaukset hyperlinkeiksi.