Mākslīgais intelekts

Izpratne par Twitch emocijām sentimenta analīzē

Atjaunināts on Decembris 9, 2022

Sabiedrības pieaugošs lietojums Emociju, emocijzīmju, emocijzīmju, mēmu, GIF un citu neverbālu saziņas veidu izmantošana sociālo mediju platformās pēdējos gados ir arvien vairāk apgrūtinājusi datu zinātnieku centienus izprast globālo socioloģisko ainavu; vismaz tiktāl, cik pasaules socioloģiskās tendences var atšķirt no publiskā diskursa.

Lai gan dabiskās valodas apstrāde (NLP) pēdējo desmit gadu laikā ir kļuvusi par spēcīgu instrumentu noskaņojuma analīzē, nozarei ir grūtības ne tikai sekot līdzi nemitīgi attīstās leksika slengu un lingvistiskos īsceļus vairākās valodās, bet arī mēģinot atšifrēt uz attēla bāzes ziņas sociālo mediju platformās, piemēram, Facebook un Twitter.

Kopš ierobežots skaits ļoti apdzīvotās sociālo mediju platformas ir vienīgais patiesi hipermēroga resurss šāda veida pētījumiem, ir svarīgi, lai mākslīgā intelekta nozare vismaz mēģinātu ar to neatpalikt.

Jūlijā laikraksts no Taivānas piedāvāja a jaunā metode lai klasificētu lietotāju noskaņojumu, pamatojoties uz “reakcijas GIF”, kas publicēti sociālo mediju pavedienos (skatiet attēlu zemāk), izmantojot 30,000 XNUMX tvītu datubāzi, lai izstrādātu veidu, kā paredzēt reakcijas uz ziņu. Rakstā konstatēts, ka uz attēliem balstītas atbildes daudzējādā ziņā ir vieglāk novērtēt, jo tās, visticamāk, nesatur sarkasmu, ievērojams izaicinājums sentimenta analīzē.

Pētnieki no Taivānas 2021. gada rakstā pētīja animētu reakciju GIF izmantošanu kā noskaņojuma “samazināšanas rādītājus”.

Šī gada sākumā Bostonas universitātes vadītie pētījumi apmācīti mašīnmācīšanās modeļi paredzēt attēlu mēmes, kas, visticamāk, izplatīsies vietnē Twitter; un augustā britu pētnieki pētīja emocijzīmju pieaugumu salīdzinājumā ar emocijzīmēm (ir atšķirība) sociālajos medijos, apkopojot apjomīgu 7 valodu datu kopu par piktogrāfisko Twitter noskaņojumu.

Twitch Emotes

Tagad ASV pētnieki ir izstrādājuši mašīnmācīšanās metodoloģiju, lai labāk izprastu, klasificētu un izmērītu nepārtraukti mainīgo pseidoleksiku. emotes ļoti populārajā Twitch tīklā.

Emotes ir neoloģismi, ko Twitch izmanto, lai izteiktu emocijas, noskaņojumu vai jokus. Tā kā tās pēc definīcijas ir jaunas izteiksmes, mašīnmācīšanās sistēmas uzdevums ir ne vienmēr bezgalīgi kataloģizēt jaunas emocijzīmes (kuras var izmantot tikai vienu reizi vai arī ātri izkrist no lietošanas), bet gan iegūt labāku izpratni par sistēmu, bezgalīgi ģenerē tos; un izstrādāt sistēmas, kas spēj atpazīt emociju kā “īslaicīgi derīgu” vārdu vai saliktu frāzi, kuras emocionālā/politiskā temperatūra var būt pilnībā jānovērtē no konteksta.

Emocijas “FeelsGoodMan” kaimiņi, kuru nozīmi var mainīt ar neskaidriem sufiksiem. Avots: https://arxiv.org/pdf/2108.08411.pdf

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts FeelsGoodMan: Twitch neoloģismu semantikas izsecināšana, un nāk no trim pētniekiem Spiketrap, sociālo mediju analīzes uzņēmumā Sanfrancisko.

Ēsma un slēdzis

Neskatoties uz to novitāti un nereti īso dzīvi, Twitch emocijzīmes bieži pārstrādā kultūras materiālus (tostarp vecākas emocijzīmes) tādā veidā, kas var novirzīt noskaņojuma analīzes sistēmas nepareizā virzienā. Izsekojot emociju nozīmes maiņu tās attīstības gaitā, var pat atklāt tās sākotnējā noskaņojuma vai nodoma pilnīgu apvērsumu vai noliegumu.

Piemēram, pētnieki atzīmē, ka sākotnējais alt-right nepareiza lietošana no tāda paša nosaukuma Feels GoodMan Mēma Pepe-the-Frog ir gandrīz pilnībā zaudējusi savu sākotnējo politisko aromātu saistībā ar tās izmantošanu pakalpojumā Twitch.

Šīs frāzes izmantošana kopā ar multfilmas vardes attēlu no mākslinieka Meta Fūrija 2005. gada komiksa, kļuva par galēji labējo mēmu 2010. gados. Lai gan Vox rakstīja: 2017. gadā, ka mēma tiesību piesavināšanās ir pārdzīvojusi Fjūrija pašapziņu disociācija ar šādu izmantošanu Sanfrancisko pētnieki, kas atradās jaunā dokumentā, ir atklājuši citādi*:

Fūrija multfilmu varde 4. gadu sākumā pieņēma labējā spārna plakāti dažādos tiešsaistes forumos, piemēram, 2010chan. Kopš tā laika Fūrijs ir veicis kampaņu, lai atgūtu sava rakstura nozīmi, un emocijām ir tendence pieaugt. lietošana bez naida un pozitīvs Twitch lietojums. Mūsu rezultāti vietnē Twitch sakrīt, parādot, ka “FeelsGoodMan” un tā līdzinieks “FeelsBadMan” galvenokārt tiek lietots burtiski.

Problēmas lejup pa straumi

Šāda veida "ēsma un pārslēgšana" attiecībā uz mēma vispārinātajām "iezīmēm" var kavēt NLP pētniecības projektus, kas jau ir klasificēti kā "naidīgs", "labējais spārns" vai "nacionālistisks [ASV]" un kuri ir izmetuši šo informāciju. ilgtermiņa atvērtā koda krātuvēs. Vēlāki NLP projekti var neizvēlēties auditēt vecāku datu valūtu; var nebūt praktiska mehānisma, lai to izdarītu; un var pat neapzināties nepieciešamību.

Rezultāts ir tāds, ka, izmantojot 2017. gada Twitch balstītas datu kopas, lai formulētu “politiskās kategorizēšanas” algoritmu, Twitch tiktu attiecināta ievērojama “alt-right” darbība, pamatojoties uz Twitch darbības biežumu. Feels GoodMan emociju. Twitch var būt un var nebūt pilns ar alt-right influenceriem, taču, pēc jaunā darba pētnieku domām, ar vardi to nevar pierādīt.

Šķiet, ka 140 miljoni Twitch lietotāju (no kuriem 41% ir jaunāki par 24 gadiem), kuri bez īpašas dienas kārtības efektīvi pārzaguši darbu no sākotnējiem zagļiem un krāsojuši to savās krāsās.

Metode un dati

Pētnieki atklāja, ka marķētie Twitch emociju dati “praktiski neeksistēja”, neskatoties uz secinājumu agrāks pētījums ka ir astoņi miljoni emociju, un 400,000 XNUMX bija klāt vienā Twitch izlaiduma nedēļā nedēļā, ko izvēlējās šie agrākie pētnieki.

A 2017 pētījums Emociju prognozēšanas risināšana pakalpojumā Twitch aprobežojās ar 30 populārāko Twitch emociju prognozēšanu, saņemot tikai 0.39 par emociju prognozēšanu.

Risinot trūkumu, Sanfrancisko pētnieki izmantoja jaunu pieeju vecākiem datiem, sadalot tos 80/20 starp apmācību un testēšanu un piemērojot "tradicionālās" mašīnmācīšanās metodes, kas iepriekš netika izmantotas Twitch datu pētīšanai. Šīs metodes ietvēra Naivie Beiji (NB), Nejaušais mežs (RF), Atbalstiet vektoru mašīnu (SVM, ar lineāriem kodoliem) un Loģistiskā regresija.

Šī pieeja pārspēja iepriekšējās Twitch noskaņojuma bāzes līnijas par 63.8% un ļāva pētniekiem pēc tam izstrādāt LOOVE (vārdu emociju apguve) sistēmu, kas spēj identificēt neoloģismus un "bagātināt" esošos modeļus ar šīm jaunajām definīcijām.

Pētnieku izstrādātā ietvara LOOVE (Learning Out Of Vocabulary Emotions) arhitektūra.

LOOVE atvieglo vārdu iegulšanas apmācību bez uzraudzības, kā arī nodrošina periodisku pārmācību un precizēšanu, novēršot vajadzību pēc marķētām datu kopām, kas būtu loģistiski nepraktiski, ņemot vērā uzdevuma mērogu un emociju straujo attīstību.

Projekta kalpošanā pētnieki apmācīts emociju “pseidovārdnīca” neiezīmētā Twitch datu kopā, kas ģenerē 444,714 XNUMX vārdu, emocijzīmju, emocijzīmju un emocijzīmju iegulšanas.

Turklāt viņi palielināja a VADER leksika ar emocijzīmju/emociju leksikons, un papildus iepriekš minētajai EK datu kopai izmantoja arī trīs citas publiski pieejamas datu kopas trīskāršs noskaņojuma klasifikācija no Twitter, Rotten Tomatoes un atlasītās YELP datu kopas.

Ņemot vērā pētījumā izmantoto metodoloģiju un datu kopu lielo dažādību, rezultāti ir daudzveidīgi, taču pētnieki apgalvo, ka viņu labākā gadījuma bāzlīnija par 7.36 procentu punktiem pārsniedza tuvāko iepriekšējo rādītāju.

Pētnieki uzskata, ka projekta pašreizējā vērtība ir LOOVE izstrāde, kuras pamatā ir iegulšana no vārda uz vektoru (W2V), kas apmācīta vairāk nekā 313 miljonos Twitch tērzēšanas ziņojumu, izmantojot K-Tuvākais kaimiņš (KNN).

Autori secina:

“Sistēmas pamatfunkcija ir emociju pseidovārdnīca, ko var izmantot, lai iegūtu noskaņojumu par nezināmām emocijām. Izmantojot šo emociju pseidovārdnīcu, mēs izveidojām noskaņojuma tabulu 22,507 XNUMX emocijām. Šis ir pirmais emociju izpratnes gadījums šādā mērogā.

* Mana iekļauto citātu pārvēršana par hipersaitēm.

Nākošais

Cilvēku uzvedības izpēte palīdz autonomajām automašīnām paredzēt gājēju pārejas

Nepalaidiet garām

AI balstīti ģeneratīvās rakstīšanas modeļi bieži “kopē un ielīmē” avota datus

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai