Tekoäly

Twitch-emotien ymmärtäminen tunneanalyysissä

Päivitetty on Joulukuu 9, 2022

Yleisön kasvava käyttö emojit, hymiöt, hymiöt, meemit, GIF-tiedostot ja muut sanattomat kommunikointitavat sosiaalisen median alustoilla on viime vuosina hämmentäneet datatieteilijöiden pyrkimyksiä ymmärtää globaalia sosiologista maisemaa; ainakin siinä määrin kuin maailmanlaajuiset sosiologiset suuntaukset voidaan erottaa julkisesta keskustelusta.

Vaikka luonnollisen kielen käsittelystä (NLP) on tullut viime vuosikymmenen aikana tehokas työkalu mielialan analysoinnissa, alalla ei ole vain vaikeuksia pysyä mukana jatkuvasti kehittyvä sanasto slangia ja kielellisiä pikanäppäimiä useilla kielillä, mutta myös yrittäessään purkaa slangin merkitystä kuvapohjainen julkaisuja sosiaalisessa mediassa, kuten Facebookissa ja Twitterissä.

Koska rajoitettu määrä erittäin väkilukuiset sosiaalisen median alustat ovat ainoa todella ylimitoitettu resurssi tällaiselle tutkimukselle, joten tekoälysektorin on ainakin pyrittävä pysymään sen tahdissa.

Heinäkuussa taiwanilainen lehti tarjosi a Uusi menetelmä Luokittelemaan käyttäjien mielipiteitä sosiaalisen median viestiketjuihin lähetettyjen "reaktio-GIF-tiedostojen" perusteella (katso kuva alla) käyttämällä 30,000 XNUMX twiitin tietokantaa kehittääkseen tavan ennustaa viestiin kohdistuvia reaktioita. Paperi havaitsi, että kuvapohjaisia vastauksia on monin tavoin helpompi mitata, koska ne sisältävät vähemmän todennäköisesti sarkasmia, merkittävä haaste tunneanalyysissä.

Taiwanilaiset tutkijat tutkivat animoitujen reaktio-GIF-kuvien käyttöä tunteen "pelkistävänä indikaattorina" vuoden 2021 paperissa.

Aiemmin tänä vuonna Bostonin yliopiston johtama tutkimus koulutetut koneoppimismallit ennustaa kuvameemejä, jotka todennäköisesti leviävät Twitterissä; ja elokuussa brittitutkijat tutkivat hymiöiden kasvua hymiöihin verrattuna (on ero) sosiaalisessa mediassa kokoamalla laajan 7-kielisen tietojoukon Twitterin kuvallisesta tunteesta.

Twitch Emotes

Nyt yhdysvaltalaiset tutkijat ovat kehittäneet koneoppimismetodologian ymmärtääkseen, luokitellakseen ja mitatakseen paremmin jatkuvasti kehittyvää pseudo-sanakirjaa. tunteet erittäin suositussa Twitch-verkossa.

Emotit ovat neologismeja, joita käytetään Twitchissä tunteiden, mielialan tai vitsien ilmaisemiseen. Koska ne ovat määritelmän mukaan uusia ilmaisuja, koneoppimisjärjestelmän haasteena ei välttämättä ole luetteloida loputtomasti uusia hymiöitä (jotka voidaan käyttää vain kerran tai muuten poistuvat käytöstä nopeasti), vaan saada parempi käsitys viitekehyksestä, joka luo niitä loputtomasti; ja kehittää järjestelmiä, jotka pystyvät tunnistamaan hymiön "tilapäisesti päteväksi" sanaksi tai yhdistelmälauseeksi, jonka emotionaalinen/poliittinen lämpötila saattaa olla tarpeen mitata kokonaan kontekstista.

FeelsGoodMan-hymiön naapurit, joiden merkitystä voidaan muuttaa epäselvillä jälkiliitteillä. Lähde: https://arxiv.org/pdf/2108.08411.pdf

- paperi on otsikko FeelsGoodMan: Twitch-neologismien semantiikan päättäminen, ja se tulee kolmelta tutkijalta Spiketrapista, sosiaalisen median analyysiyrityksestä San Franciscossa.

Bait ja Switch

Huolimatta uutuudestaan ja usein lyhyistä elämästään Twitch-emotit kierrättävät usein kulttuurimateriaalia (mukaan lukien vanhemmat hymiöt) tavalla, joka voi ohjata tunteiden analyysin kehyksiä väärään suuntaan. Hymiön merkityksen muutoksen jäljittäminen sen kehittyessä voi jopa paljastaa sen alkuperäisen tunteen tai tarkoituksen täydellisen käänteisyyden tai kieltämisen.

Esimerkiksi tutkijat huomauttavat, että alkuperäinen alt-right väärinkäyttö samannimisestä Feels GoodMan Pepe-the-frog -meemi on lähes kokonaan menettänyt alkuperäisen poliittisen makunsa Twitchin käytön yhteydessä.

Ilmauksen käyttö yhdessä taiteilija Matt Furien vuoden 2005 sarjakuvan sarjakuvasammakon kuvan kanssa, siitä tuli äärioikeistolainen meemi 2010-luvulla. Vaikka Vox kirjoitti vuonna 2017, että oikeistolainen meemi oli selvinnyt Furien itsensä tunnustamisesta disassociation tällaisella käytöllä uuden paperin takana olevat San Franciscon tutkijat ovat havainneet toisin*:

"Furien sarjakuvasammakko omaksuttiin oikeistojulisteissa eri verkkofoorumeilla, kuten 4chanilla 2010-luvun alussa. Siitä lähtien Furie on kampanjoinut saadakseen takaisin hahmonsa merkityksen, ja emote on nähnyt nousun valtavirtaan. ei vihamielinen käyttö ja positiivista käyttöä Twitchissä. Tuloksemme Twitchissä ovat samaa mieltä osoittaen, että "FeelsGoodMan" ja sen vastine "FeelsBadMan" käytetään pääasiassa kirjaimellisesti.

Ongelma loppupäässä

Tällainen "syötti ja kytkin" koskien meemin yleisiä "ominaisuuksia" voi haitata NLP-tutkimusprojekteja, jotka ovat jo luokitelleet sen "vihamieliseksi", "oikeistosiipi" tai "nationalistiseksi [USA]" ja jotka ovat jättäneet tämän tiedon. pitkän aikavälin avoimen lähdekoodin tietovarastoihin. Myöhemmät NLP-projektit eivät ehkä halua auditoida vanhemman datan valuuttaa; ei ehkä ole mitään käytännön mekanismia sen tekemiseen; eivätkä ehkä ole edes tietoisia tarpeesta.

Lopputulos on, että käyttämällä vuoden 2017 Twitch-pohjaisia tietojoukkoja "poliittisen luokittelualgoritmin" laatimiseen, Twitchille annettaisiin huomattavaa alt-right-toimintaa, joka perustuu Feels GoodMan hymiö. Twitch voi olla tai ei täynnä alt-right vaikuttajia, mutta uuden lehden tutkijoiden mukaan et voi todistaa sitä sammakon avulla.

Twitchin 140 miljoonaa käyttäjää (joista 41 %) näyttää hylkääneen "Pepe"-meemin poliittisen merkityksen. ovat alle 24-vuotiaita), jotka ovat tehokkaasti varastaneet teoksen alkuperäisiltä varkailta ja maalanneet sen omilla väreillään ilman erityistä agendaa.

Menetelmä ja tiedot

Tutkijat havaitsivat, että merkitty Twitch-emote-data oli "käytännöllisesti katsoen olematon" huolimatta aikaisempi tutkimus että siellä on kahdeksan miljoonaa hymiötä, ja 400,000 XNUMX oli läsnä yhdellä Twitch-tuotannon viikolla aiempien tutkijoiden valitsemalla viikolla.

A 2017 tutkimus emote-ennusteen käsitteleminen Twitchissä rajoittui ennustamaan vain 30 parasta Twitch-hymiötä, ja pistemäärä 0.39 hymiön ennustamisesta.

Puutteen korjaamiseksi San Franciscon tutkijat omaksuivat uuden lähestymistavan vanhoihin tietoihin jakaen sen 80/20 koulutuksen ja testauksen välillä ja soveltaen "perinteisiä" koneoppimismenetelmiä, joita ei ollut aiemmin käytetty Twitch-tietojen tutkimiseen. Nämä menetelmät sisälsivät Naiivi Bayes (HUOM), Satunnainen metsä (RF), Tuki Vector Machine (SVM, lineaarisilla ytimillä) ja Logistinen regressio.

Tämä lähestymistapa ylitti aiemmat Twitch-tunnelman perusviivat 63.8 %:lla ja mahdollisti tutkijoiden myöhemmin kehittää LOOVE (Learning Out Of Vocabulary Emotions) -kehyksen, joka pystyy tunnistamaan neologismeja ja "rikastuttamaan" olemassa olevia malleja näillä uusilla määritelmillä.

Tutkijoiden kehittämä LOOVE (Learning Out Of Vocabulary Emotions) -kehyksen arkkitehtuuri.

LOOVE helpottaa sanan upotusten ohjaamatonta koulutusta ja mahdollistaa myös säännöllisen uudelleenkoulutuksen ja hienosäädön, jolloin ei tarvita merkittyjä tietojoukkoja, mikä olisi logistisesti epäkäytännöllistä, kun otetaan huomioon tehtävän laajuus ja hymiöiden nopea kehitys.

Hankkeen palveluksessa tutkijat koulutettu emote "pseudo-Dictionary" nimeämättömässä Twitch-tietojoukossa, joka tuottaa 444,714 XNUMX upotusta sanoja, hymiöitä, hymiöitä ja hymiöitä.

Lisäksi he lisäsivät a VADER-sanakirja kanssa emoji / hymiösanakirja, ja edellä mainitun EY-tietojoukon lisäksi hyödynsi myös kolmea muuta julkisesti saatavilla olevaa tietojoukkoa kolmiosainen tunteiden luokittelu Twitteristä, Rotten Tomatoesista ja näytteistä YELP-tietojoukosta.

Kun otetaan huomioon tutkimuksessa käytettyjen metodologioiden ja tietokokonaisuuksien suuri valikoima, tulokset ovat vaihtelevia, mutta tutkijat väittävät, että heidän parhaan tapauksensa lähtötaso ylitti lähimmän aikaisemman mittarin 7.36 prosenttiyksiköllä.

Tutkijat katsovat, että projektin jatkuva arvo on LOOVEn kehittäminen, joka perustuu Word-to-Vector (W2V) -upotuksiin, jotka on koulutettu yli 313 miljoonalle Twitch-chat-viestille. K-lähin naapuri (KNN).

Kirjoittajat päättelevät:

"Viimeinen ominaisuus kehyksen takana on emote-pseudosanakirja, jota voidaan käyttää tuntemattomien hymiöiden johtamiseen. Tämän emote-pseudosanakirjan avulla loimme tunnetaulukon 22,507 XNUMX hymiölle. Tämä on ensimmäinen tapaus tunteiden ymmärtämisestä tässä mittakaavassa.

* Muutokseni upotetut lainaukset hyperlinkeiksi.

Liittyvät aiheet:luonnollinen kielenkäsittely NLP tutkimus Sosiaalinen media

Seuraavaksi

Ihmisten käyttäytymisen tutkimus auttaa autonomisia autoja ennustamaan jalankulkijoiden ylityksiä

Älä missaa

Tekoälyyn perustuvat generatiiviset kirjoitusmallit "kopioivat ja liittävät" usein lähdetietoja

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai