Kacerdasan buatan

Ngartos Twitch Emotes dina Analisis Sentimen

diropéa on Désémber 9, 2022

publik urang pamakéan tumuwuh tina emojis, emoticons, emotes, memes, GIFs jeung cara non-verbal séjén pikeun komunikasi dina platform média sosial geus, dina taun panganyarna, beuki confounded usaha élmuwan data ngartos bentang sosiologis global; sahenteuna, nepi ka extent yén tren sosiologis sakuliah dunya bisa discerned tina wacana publik.

Sanaos Pangolahan Basa Alam (NLP) parantos janten alat anu kuat dina analisa sentimen salami dasawarsa ka tukang, séktor ieu henteu ngan ukur sesah pikeun ngajaga léksikon anu terus mekar tina slang jeung potong kompas linguistik sakuliah sababaraha basa, tapi ogé dina usaha pikeun decode harti tina dumasar-gambar tulisan dina platform média sosial sapertos Facebook sareng Twitter.

ti jumlah kawates tina platform média sosial anu padat pisan mangrupikeun hiji-hijina sumber anu leres-leres hyperscale pikeun panalitian sapertos kitu, penting pisan pikeun séktor AI sahenteuna nyobian ngajaga lajuna.

Dina Juli, kertas ti Taiwan ditawarkeun a metoda anyar pikeun ngagolongkeun sentimen pamaké dumasar kana 'réaksi GIFs' dipasang dina média sosial threads (tingali gambar di handap), ngagunakeun database 30,000 tweets pikeun ngembangkeun cara pikeun ngaduga réaksi ka pos. Tulisan ieu mendakan yén réspon dumasar kana gambar ku sababaraha cara langkung gampang diukur, kumargi aranjeunna langkung dipikaresep ngandung sindiran, tantangan kasohor dina analisis sentimen.

Panaliti ti Taiwan nalungtik panggunaan GIF réaksi animasi salaku 'indikator réduksi' sentimen dina makalah 2021.

Baheula taun ieu, usaha panalungtikan dipingpin ku Universitas Boston model pembelajaran mesin dilatih pikeun ngaduga memes gambar anu dipikaresep jadi viral on Twitter; jeung dina bulan Agustus, peneliti Inggris nalungtik tumuwuhna emojis dibandingkeun emoticons (aya a bédana) dina média sosial, compiling a badag skala dataset 7-basa tina sentimen Twitter pictographic.

Kedutan Emotes

Ayeuna, peneliti AS parantos ngembangkeun metodologi pembelajaran mesin pikeun langkung ngartos, ngagolongkeun sareng ngukur pseudo-lexicon anu kantos mekar. emote dina jaringan Twitch anu populer pisan.

Emotes mangrupikeun neologisme anu dianggo dina Twitch pikeun nganyatakeun émosi, wanda, atanapi guyonan. Kusabab aranjeunna ku harti éksprési anyar, tangtangan pikeun sistem pembelajaran mesin teu kudu endlessly katalog emotes anyar (anu ngan bisa dipaké sakali, atawa nu sejenna ragrag kaluar tina pamakéan gancang), tapi pikeun meunangkeun pamahaman hadé ngeunaan kerangka nu. endlessly dibangkitkeun aranjeunna; sareng ngamekarkeun sistem anu tiasa mikawanoh émote salaku kecap atanapi frasa gabungan anu 'samentara valid' anu suhu émosional/politikna kedah diukur sadayana tina kontéks.

Tatanggana tina emote 'FeelsGoodMan', anu hartina bisa dirobah ku sufiks anu teu jelas. Sumber: https://arxiv.org/pdf/2108.08411.pdf

nu keretas judulna FeelsGoodMan: Inferring Semantik of Twitch Neologisms, sarta asalna ti tilu peneliti di Spiketrap, hiji parusahaan analisis média sosial di San Fransisco.

Bait sareng Ngalih

Sanajan kahirupan anyar jeung mindeng-singket maranéhanana, Twitch emotes remen ngadaur mulangkeunana bahan budaya (kaasup emotes heubeul) dina cara nu bisa steer kerangka analisis sentimen dina arah salah. Nyukcruk pergeseran dina harti hiji emote sakumaha eta evolves malah bisa nembongkeun inversion lengkep atanapi negation tina sentimen aslina na.

Salaku conto, panalungtik dicatet yén alt-katuhu aslina nyelewengkeun tina eponymous FeelsGoodMan Pepe-the-bangkong meme geus ampir sakabéhna leungit rasa pulitik aslina dina konteks pamakéan na on Twitch.

Pamakéan frasa, sareng gambar bangkong kartun tina komik 2005 ku seniman Matt Furie, janten meme katuhu jauh dina 2010s. Padahal Vox nulis dina 2017 yén apropriasi katuhu tina meme éta salamet tina sumpah diri Furie. ngaleupaskeun Kalayan ngagunakeun sapertos kitu, para panalungtik San Fransisco di tukangeun makalah anyar mendakan anu sanés *:

Kodok kartun Furie diadopsi ku poster sayap kanan dina sababaraha forum online sapertos 4chan dina awal 2010s. Ti saprak éta, Furie parantos ngampanyekeun pikeun ngarebut deui hartos karakterna, sareng emote parantos ningali paningkatan dina arus utama. pamakéan non hate sarta pamakéan positif dina Twitch. Hasil kami dina Twitch satuju, nunjukkeun yén "FeelsGoodMan" sareng pasanganna "FeelsBadMan" biasana dianggo sacara harfiah.'

Kasulitan Hilir

Jenis 'bait sareng switch' ieu ngeunaan 'fitur' umum tina meme tiasa ngahalangan proyék panalungtikan NLP anu parantos ngagolongkeunana salaku 'hateful', 'sayap katuhu' atanapi 'nasionalis [AS]', sareng anu ngaleungitkeun inpormasi éta. kana repositories open source jangka panjang. Proyék NLP engké moal tiasa milih pikeun ngaudit mata uang data anu langkung lami; bisa jadi teu boga mékanisme praktis pikeun ngalakukeunana; komo meureun teu sadar kana kabutuhan.

Hasilna tina ieu nyaéta ngagunakeun set data basis Twitch 2017 pikeun ngarumuskeun algoritma 'categorization politik' bakal atribut kagiatan alt-katuhu anu kasohor dina Twitch, dumasar kana frékuénsi FeelsGoodMan emote. Kedutan tiasa atanapi henteu pinuh ku influencers alt-katuhu, Tapi, numutkeun panalungtik kertas anyar, anjeun moal bisa ngabuktikeun eta ku bangkong.

Pentingna politik meme 'Pepe' sigana parantos dibuang ku 140 juta pangguna Twitch (41% diantarana. aya di handapeun 24), anu geus éféktif ulang dipaling karya ti maling aslina tur dicét dina kelir sorangan, tanpa agenda husus.

Métode jeung Data

Para panalungtik manggihan yén dilabélan data Twitch emote éta 'ampir teu aya', sanajan kacindekan tina hiji diajar baheula bilih aya dalapan juta total emotes, sarta 400,000 éta hadir dina minggu tunggal kaluaran kedutan dina minggu dipilih ku maranéhanana peneliti saméméhna.

A ulikan 2017 alamat prediksi emote on kedutan ngawatesan sorangan mun ngaramal ngan luhureun 30 kedutan emotes, nyetak ngan 0.39 pikeun prediksi emote.

Ngatasi kakurangan éta, peneliti San Fransisco nyandak pendekatan anyar kana data anu langkung lami, ngabagi 80/20 antara latihan sareng uji, sareng nerapkeun metode pembelajaran mesin 'tradisional', anu henteu acan dianggo sateuacan diajar data Twitch. métode ieu kaasup Bayes naif (NB), Leuweung Acak (RF), Rojongan Mesin Véktor (SVM, kalawan kernels linier), jeung Logistik Regresi.

Pendekatan ieu outperformed saméméhna sentimen Twitch baselines ku 63.8%, sarta sangkan panalungtik salajengna ngamekarkeun kerangka LOOVE (Learning Out Of Vocabulary Emotions), anu tiasa ngaidentipikasi neologisms sareng 'enrich' model anu tos aya sareng definisi anyar ieu.

Arsitéktur kerangka LOOVE (Learning Out Of Vocabulary Emotions) dikembangkeun ku panalungtik.

LOOVE ngagampangkeun latihan unsupervised of embeddings kecap, sarta ogé accommodates palatihan balik periodik jeung fine-tuning, obviating kabutuhan datasets dilabélan, nu bakal logistically praktis, tempo skala tugas jeung évolusi gancang tina emotes.

Dina jasa proyék, peneliti dilatih emote 'Pseudo-Dictionary' dina set data Twitch anu teu dilabélan, dina prosés ngahasilkeun 444,714 émbeddings kecap, émotes, emojis sareng emoticon.

Salajengna, aranjeunna augmented a léksikon VADER kalawan emoji / emoticon leksikon, jeung sajaba ti dataset EC anu disebut tadi, ogé dieksploitasi tilu datasets sadia umum lianna pikeun ternary klasifikasi sentimen, ti Twitter, Rotten Tomat sareng set data YELP sampel.

Dibikeun rupa-rupa metodologi sareng set data anu dianggo dina pangajaran, hasilna variegated, tapi para panalungtik negeskeun yén garis dasar-kasus anu pangsaéna ngaleuwihan métrik sateuacana pangcaketna ku 7.36 poin persentase.

Panaliti nganggap yén nilai anu lumangsung dina proyék nyaéta pamekaran LOOVE, dumasar kana embeddings word-to-vector (W2V) anu dilatih dina langkung ti 313 juta pesen obrolan Twitch kalayan bantosan K-Tatangga Pangdeukeutna (KNN).

Nu nulis disimpulkeun:

'A fitur nyetir balik kerangka mangrupa emote pseudo-kamus nu bisa dipaké pikeun nurunkeun sentimen keur emotes kanyahoan. Ngagunakeun emote pseudo-kamus ieu, urang nyieun tabel sentimen pikeun 22,507 emotes. Ieu kasus munggaran pamahaman emote dina skala ieu.'

* Konversi abdi tina citations inline kana hyperlinks.

nepi salajengna

Panalungtikan kana Paripolah Manusa Ngabantosan Mobil Otonom Ngaramalkeun Pameuntasan Pedestrian

Ulah Cik

Model Nulis Generatif Berbasis AI Sering 'Salin sareng Témpél' Data Sumber

Martin Anderson

Panulis ngeunaan pembelajaran mesin, intelijen buatan sareng data ageung.
situs pribadi: martinanderson.ai
kontak: [email dijaga]
Twitter: @manders_ai