Kecerdasan buatan
Memahami Emotes Twitch dalam Analisis Sentimen

Penggunaan publik yang semakin meningkat dari emoji, emotikon, emotes, meme, GIF, dan cara non-verbal lain untuk berkomunikasi di platform media sosial telah, dalam beberapa tahun terakhir, semakin membingungkan upaya ilmuwan data untuk memahami lanskap sosiologis global; setidaknya, sejauh tren sosiologis global dapat ditentukan dari wacana publik.
Meskipun Pengolahan Bahasa Alami (NLP) telah menjadi alat yang kuat dalam analisis sentimen selama dekade terakhir, sektor ini memiliki kesulitan tidak hanya dalam mengikuti kosakata yang terus berkembang dari slang dan singkatan linguistik di beberapa bahasa, tetapi juga dalam mencoba untuk mendekode makna dari posting berbasis gambar di platform media sosial seperti Facebook dan Twitter.
Karena jumlah terbatas platform media sosial yang sangat populer adalah satu-satunya sumber daya hiperskala yang sebenarnya untuk jenis penelitian ini, sangat penting bagi sektor AI untuk setidaknya mencoba untuk mempertahankan kecepatan dengan itu.
Pada Juli, sebuah makalah dari Taiwan menawarkan metode baru untuk mengkategorikan sentimen pengguna berdasarkan ‘reaction GIF’ yang diposting ke thread media sosial (lihat gambar di bawah), menggunakan database 30.000 tweet untuk mengembangkan cara untuk memprediksi reaksi terhadap posting. Makalah tersebut menemukan bahwa respon berbasis gambar lebih mudah diukur, karena mereka kurang mungkin mengandung sarkasme, tantangan yang cukup besar dalam analisis sentimen.

Peneliti dari Taiwan mempelajari penggunaan animated reaction GIF sebagai ‘indikator reduktif’ sentimen dalam makalah 2021.
Awal tahun ini, upaya penelitian yang dipimpin oleh Universitas Boston melatih model pembelajaran mesin untuk memprediksi meme gambar yang kemungkinan besar akan viral di Twitter; dan pada Agustus, peneliti Inggris memeriksa pertumbuhan emoji dibandingkan dengan emotikon (ada perbedaan) di media sosial, mengompilasi dataset besar 7-bahasa tentang sentimen Twitter yang bergambar.
Emotes Twitch
Sekarang, peneliti AS telah mengembangkan metodologi pembelajaran mesin untuk lebih memahami, mengkategorikan, dan mengukur pseudo-lexicon yang terus berkembang dari emotes di jaringan Twitch yang sangat populer.
Emotes adalah neologisme yang digunakan di Twitch untuk mengungkapkan emosi, mood, atau lelucon internal. Karena mereka secara definisi merupakan ekspresi baru, tantangan bagi sistem pembelajaran mesin bukanlah untuk terus-menerus mengkatalogkan emotes baru (yang mungkin hanya digunakan sekali, atau bahkan keluar dari penggunaan dengan cepat), tetapi untuk memperoleh pemahaman yang lebih baik tentang kerangka yang terus-menerus menghasilkannya; dan mengembangkan sistem yang dapat mengenali emote sebagai ‘kata atau frasa majemuk yang valid sementara’ yang suhu emosional/politiknya mungkin perlu diukur sepenuhnya dari konteks.

Tetangga dari emote ‘FeelsGoodMan’, yang maknanya dapat diubah oleh sufiks yang tidak jelas. Sumber: https://arxiv.org/pdf/2108.08411.pdf
Makalah tersebut berjudul FeelsGoodMan: Inferring Semantics of Twitch Neologisms, dan berasal dari tiga peneliti di Spiketrap, sebuah perusahaan analisis media sosial di San Francisco.
Bait and Switch
Meskipun novitas dan umur singkat, emotes Twitch sering menggunakannya kembali bahan budaya (termasuk emotes yang lebih tua) dengan cara yang dapat mengarahkan kerangka analisis sentimen ke arah yang salah. Mengikuti perubahan makna emote saat berkembang bahkan dapat mengungkapkan inversi atau negasi total dari sentimen atau niat aslinya.
Misalnya, peneliti mencatat bahwa penggunaan asli alt-right penyalahgunaan dari meme Pepe-the-frog FeelsGoodMan hampir sepenuhnya kehilangan rasa politik aslinya dalam konteks penggunaannya di Twitch.
Penggunaan frasa, bersama dengan gambar katak kartun dari komik 2005 oleh seniman Matt Furie, menjadi meme far-right pada 2010-an. Meskipun Vox menulis pada 2017 bahwa penggunaan meme oleh kanan telah bertahan meskipun Furie mengaku memutuskan hubungan dengan penggunaan tersebut, peneliti San Francisco di balik makalah baru telah menemukan sebaliknya*:
‘Katak kartun Furie diadopsi oleh poster sayap kanan di forum online seperti 4chan pada awal 2010-an. Sejak itu, Furie berkampanye untuk merebut kembali makna karakternya, dan emote telah melihat lonjakan penggunaan non-kebencian dan positif yang lebih mainstream di Twitch. Hasil kami di Twitch setuju, menunjukkan bahwa “FeelsGoodMan” dan lawannya “FeelsBadMan” sebagian besar digunakan secara harfiah.’
Trouble Downstream
Jenis ‘bait and switch’ ini mengenai ‘fitur’ umum dari meme dapat menghambat proyek penelitian NLP yang telah mengkategorikan sebagai ‘kebencian’, ‘sayap kanan’ atau ‘nasionalis [AS]’, dan yang telah membuang informasi tersebut ke repositori sumber terbuka jangka panjang. Proyek NLP selanjutnya mungkin tidak memilih untuk memeriksa keabsahan data yang lebih lama; mungkin tidak memiliki mekanisme praktis untuk melakukannya; dan mungkin tidak menyadari kebutuhan.
Akibatnya adalah bahwa menggunakan dataset Twitch berdasarkan tahun 2017 untuk merumuskan algoritma ‘kategorisasi politis’ akan mengatributkan aktivitas alt-right yang signifikan di Twitch, berdasarkan frekuensi emote FeelsGoodMan. Twitch mungkin atau mungkin tidak penuh dengan influencer sayap kanan, tetapi, menurut peneliti makalah baru, Anda tidak bisa membuktikannya dengan kodok.
Makna politis dari meme ‘Pepe’ tampaknya telah dibuang secara santai oleh 140 juta pengguna Twitch (41% di antaranya di bawah 24), yang secara efektif telah mencuri kembali karya dari pencuri asli dan melukisnya dengan warna mereka sendiri, tanpa agenda tertentu.
Metode dan Data
Peneliti menemukan bahwa data emote Twitch yang dilabeli ‘hampir tidak ada’, meskipun kesimpulan dari studi sebelumnya bahwa ada delapan juta emote total, dan 400.000 ada di satu minggu output Twitch dalam minggu yang dipilih oleh peneliti sebelumnya.
Studi 2017 yang membahas prediksi emote di Twitch membatasi diri untuk memprediksi hanya 30 emote Twitch teratas, dengan skor 0,39 untuk prediksi emote.
Untuk mengatasi kekurangan tersebut, peneliti San Francisco mengambil pendekatan baru terhadap data yang lebih lama, membaginya 80/20 antara pelatihan dan pengujian, dan menerapkan metode ‘tradisional’ pembelajaran mesin, yang belum pernah digunakan sebelumnya untuk mempelajari data Twitch. Metode ini termasuk Naive Bayes (NB), Random Forest (RF), Support Vector Machine (SVM, dengan kernel linier), dan Logistic Regression.
Pendekatan ini mengungguli baseline sentimen Twitch sebelumnya sebesar 63,8%, dan memungkinkan peneliti untuk kemudian mengembangkan kerangka LOOVE (Learning Out Of Vocabulary Emotions), yang dapat mengidentifikasi neologisme dan ‘memperkaya’ model yang ada dengan definisi baru.

Arsitektur kerangka LOOVE (Learning Out Of Vocabulary Emotions) yang dikembangkan oleh peneliti.
LOOVE memfasilitasi pelatihan word embeddings yang tidak diawasi, dan juga mengakomodasi pelatihan ulang dan penyetelan yang berkala, menghilangkan kebutuhan akan dataset yang dilabeli, yang akan menjadi tidak praktis secara logistik, mengingat skala tugas dan evolusi emotes yang cepat.
Dalam rangka proyek ini, peneliti melatih ‘Pseudo-Dictionary’ emote pada dataset Twitch yang tidak dilabeli, dalam proses menghasilkan 444.714 embeddings dari kata, emotes, emoji, dan emotikon.
Selanjutnya, mereka melengkapi VADER lexicon dengan lexicon emoji/emotikon, dan selain dataset EC yang disebutkan sebelumnya, juga mengeksploitasi tiga dataset lain yang tersedia secara publik untuk klasifikasi sentimen terner, dari Twitter, Rotten Tomatoes, dan dataset YELP yang disampel.
Mengingat keragaman metodologi dan dataset yang digunakan dalam studi ini, hasilnya bervariasi, tetapi peneliti menyatakan bahwa baseline terbaik mereka mengungguli metrik sebelumnya sebesar 7,36 poin persentase.
Peneliti menganggap bahwa nilai berkelanjutan dari proyek ini adalah pengembangan LOOVE, berdasarkan word-to-vector (W2V) embeddings yang dilatih pada lebih dari 313 juta pesan obrolan Twitch dengan bantuan K-Nearest Neighbor (KNN).












