potongan Memahami Twitch Emotes dalam Analisis Sentimen - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Memahami Twitch Emotes dalam Analisis Sentimen

mm
Updated on

Publik semakin banyak digunakan emoji, emotikon, emote, meme, GIF, dan cara non-verbal lainnya untuk berkomunikasi di platform media sosial, dalam beberapa tahun terakhir, semakin membingungkan upaya para ilmuwan data untuk memahami lanskap sosiologis global; setidaknya, sejauh tren sosiologis di seluruh dunia dapat dilihat dari wacana publik.

Meskipun Natural Language Processing (NLP) telah menjadi alat yang ampuh dalam analisis sentimen selama dekade terakhir, sektor ini tidak hanya mengalami kesulitan dalam mengikuti perkembangan. leksikon yang terus berkembang jalan pintas slang dan linguistik di berbagai bahasa, tetapi juga dalam upaya untuk memecahkan kode makna berbasis gambar posting di platform media sosial seperti Facebook dan Twitter.

Karena nomer terbatas platform media sosial yang sangat padat adalah satu-satunya sumber daya yang benar-benar berskala besar untuk penelitian semacam ini, penting bagi sektor AI untuk setidaknya berusaha mengimbanginya.

Pada bulan Juli, sebuah makalah dari Taiwan menawarkan a Metode baru untuk mengkategorikan sentimen pengguna berdasarkan 'GIF reaksi' yang diposting ke utas media sosial (lihat gambar di bawah), menggunakan basis data 30,000 tweet untuk mengembangkan cara memprediksi reaksi terhadap sebuah postingan. Makalah tersebut menemukan bahwa tanggapan berbasis gambar dalam banyak hal lebih mudah untuk diukur, karena cenderung mengandung sarkasme, sebuah tantangan penting dalam analisis sentimen.

Peneliti dari Taiwan mempelajari penggunaan GIF reaksi animasi sebagai 'indikator reduktif' sentimen dalam makalah tahun 2021.

Awal tahun ini, sebuah upaya penelitian dipimpin oleh Boston University model pembelajaran mesin terlatih untuk memprediksi meme gambar yang kemungkinan besar akan menjadi viral di Twitter; dan pada bulan Agustus, peneliti Inggris memeriksa pertumbuhan emoji dibandingkan dengan emotikon (ada a perbedaan) di media sosial, menyusun dataset 7 bahasa skala besar dari sentimen Twitter piktografik.

Twitch Emote

Kini, para peneliti Amerika telah mengembangkan metodologi pembelajaran mesin untuk lebih memahami, mengkategorikan, dan mengukur leksikon semu yang terus berkembang. emote di jaringan Twitch yang sangat populer.

Emote adalah neologisme yang digunakan di Twitch untuk mengekspresikan emosi, suasana hati, atau lelucon. Karena menurut definisi mereka adalah ekspresi baru, tantangan untuk sistem pembelajaran mesin tidak harus membuat katalog emotes baru tanpa henti (yang hanya dapat digunakan sekali, atau tidak digunakan lagi dengan cepat), tetapi untuk mendapatkan pemahaman yang lebih baik tentang kerangka kerja yang menghasilkan mereka tanpa henti; dan untuk mengembangkan sistem yang mampu mengenali emosi sebagai kata atau frase majemuk yang 'valid untuk sementara' yang suhu emosi/politiknya mungkin perlu diukur seluruhnya dari konteks.

Tetangga dari emote 'FeelsGoodMan', yang artinya dapat diubah dengan sufiks yang tidak jelas. Sumber: https://arxiv.org/pdf/2108.08411.pdf

Tetangga dari emote 'FeelsGoodMan', yang artinya dapat diubah dengan sufiks yang tidak jelas. Sumber: https://arxiv.org/pdf/2108.08411.pdf

Grafik kertas berjudul FeelsGoodMan: Menyimpulkan Semantik dari Neologisme Twitch, dan datang dari tiga peneliti di Spiketrap, sebuah perusahaan analisis media sosial di San Francisco.

Umpan dan Beralih

Terlepas dari kehidupan mereka yang baru dan seringkali singkat, Twitch emotes sering mendaur ulang materi budaya (termasuk emotes lama) dengan cara yang dapat mengarahkan kerangka kerja analisis sentimen ke arah yang salah. Menelusuri pergeseran makna emote saat berevolusi bahkan dapat mengungkapkan inversi atau negasi lengkap dari sentimen atau niat aslinya.

Misalnya, para peneliti mencatat bahwa alt-right asli penyalahgunaan dari eponim Pria yang Baik Meme pepe-the-frog hampir sepenuhnya kehilangan cita rasa politik aslinya dalam konteks penggunaannya di Twitch.

Penggunaan frasa tersebut, bersama dengan gambar kartun katak dari komik tahun 2005 karya seniman Matt Furie, menjadi meme sayap kanan di tahun 2010-an. Padahal Vox menulis pada tahun 2017 bahwa perampasan hak atas meme tersebut telah bertahan dari pengakuan diri Furie disassociation dengan penggunaan seperti itu, para peneliti San Francisco di balik makalah baru menemukan sebaliknya *:

Katak kartun Furie diadopsi oleh poster sayap kanan di berbagai forum online seperti 4chan di awal 2010-an. Sejak itu, Furie telah berkampanye untuk mendapatkan kembali makna dari karakternya, dan emote tersebut telah mengalami peningkatan di arus utama. penggunaan tanpa kebencian dan penggunaan positif di Twitch. Hasil kami di Twitch setuju, menunjukkan bahwa "FeelsGoodMan" dan pasangannya "FeelsBadMan" sebagian besar digunakan secara harfiah.'

Hilir Bermasalah

Jenis 'umpan dan pengalihan' mengenai 'fitur' umum dari sebuah meme dapat menghambat proyek penelitian NLP yang telah mengkategorikannya sebagai 'kebencian', 'sayap kanan' atau 'nasionalis [AS]', dan yang telah membuang informasi tersebut ke repositori open source jangka panjang. Proyek NLP selanjutnya mungkin tidak memilih untuk mengaudit mata uang data lama; mungkin tidak memiliki mekanisme praktis untuk melakukannya; dan bahkan mungkin tidak menyadari kebutuhan.

Hasilnya adalah bahwa menggunakan dataset berbasis Twitch 2017 untuk merumuskan algoritme 'kategorisasi politik' akan mengaitkan aktivitas alt-right yang terkenal di Twitch, berdasarkan frekuensi Pria yang Baik emote. Kedutan mungkin atau mungkin tidak penuh dengan influencer alt-right, tetapi, menurut para peneliti makalah baru, Anda tidak dapat membuktikannya dengan katak.

Signifikansi politik meme 'Pepe' tampaknya telah dibuang begitu saja oleh 140 juta pengguna Twitch (41% di antaranya berada di bawah 24), yang secara efektif mencuri kembali karya dari pencuri aslinya dan melukisnya dengan warna mereka sendiri, tanpa agenda tertentu.

Metode dan Data

Para peneliti menemukan bahwa data emote Twitch berlabel 'hampir tidak ada', meskipun kesimpulan dari sebuah studi sebelumnya itu ada delapan juta total emotes, dan 400,000 hadir dalam satu minggu keluaran Twitch di minggu yang dipilih oleh para peneliti sebelumnya.

A 2017 studi menangani prediksi emote di Twitch membatasi diri untuk memprediksi hanya 30 emote Twitch teratas, dengan skor hanya 0.39 untuk prediksi emote.

Mengatasi kekurangan tersebut, para peneliti San Francisco mengambil pendekatan baru untuk data lama, membaginya 80/20 antara pelatihan dan pengujian, dan menerapkan metode pembelajaran mesin 'tradisional', yang belum pernah digunakan sebelumnya untuk mempelajari data Twitch. Metode ini termasuk Bayes Naif (NB), Hutan Acak (RF), Mendukung Mesin Vektor (SVM, dengan kernel linier), dan Regresi logistik.

Pendekatan ini mengungguli baseline sentimen Twitch sebelumnya sebesar 63.8%, dan memungkinkan para peneliti untuk selanjutnya mengembangkan kerangka kerja LOOVE (Learning Out Of Vocabulary Emotions), yang mampu mengidentifikasi neologisme dan 'memperkaya' model yang ada dengan definisi baru ini.

Arsitektur kerangka kerja LOOVE (Learning Out Of Vocabulary Emotions) yang dikembangkan oleh para peneliti.

Arsitektur kerangka kerja LOOVE (Learning Out Of Vocabulary Emotions) yang dikembangkan oleh para peneliti.

LOOVE memfasilitasi pelatihan penyematan kata tanpa pengawasan, dan juga mengakomodasi pelatihan ulang dan penyempurnaan berkala, meniadakan kebutuhan akan kumpulan data berlabel, yang secara logistik tidak praktis, mengingat skala tugas dan evolusi emote yang cepat.

Dalam pelayanan proyek, para peneliti terlatih emote 'Pseudo-Dictionary' pada dataset Twitch yang tidak berlabel, dalam proses menghasilkan 444,714 penyematan kata, emote, emoji, dan emotikon.

Selanjutnya, mereka menambah a kamus VADER dengan leksikon emoji/emotikon, dan selain set data EC yang disebutkan di atas, juga mengeksploitasi tiga set data lain yang tersedia untuk umum terner klasifikasi sentimen, dari Twitter, Rotten Tomatoes, dan sampel dataset YELP.

Mengingat banyaknya variasi metodologi dan kumpulan data yang digunakan dalam penelitian ini, hasilnya beraneka ragam, tetapi para peneliti menegaskan bahwa baseline kasus terbaik mereka mengungguli metrik terdekat sebelumnya sebesar 7.36 poin persentase.

Para peneliti menganggap bahwa nilai berkelanjutan dari proyek ini adalah pengembangan LOOVE, berdasarkan penyematan kata-ke-vektor (W2V) yang dilatih pada lebih dari 313 juta pesan obrolan Twitch dengan bantuan K-Tetangga Terdekat (KNN).

Penulis menyimpulkan:

'Fitur pendorong di balik kerangka kerja adalah kamus semu emote yang dapat digunakan untuk mendapatkan sentimen untuk emote yang tidak diketahui. Dengan menggunakan kamus semu emote ini, kami membuat tabel sentimen untuk 22,507 emote. Ini adalah kasus pertama dari pemahaman emosi pada skala ini.'

 

* Konversi kutipan inline saya ke hyperlink.