Yapay Zekâ
Twitch Emotikonlarını Duygu Analizinde Anlama

Kamunun artan kullanımı ile emojis, emoticons, emotes, memes, GIF’ler ve diğer sözel olmayan iletişim yolları, son yıllarda sosyal medya platformlarında veri bilimcilerinin küresel sosyolojik manzarayı anlamalarına engel oldu; en azından, kamuoyu tartışmalarından elde edilebilen dünya sosyolojik eğilimlerinin anlaşılması açısından.
Doğal Dil İşleme (NLP), son on yılda duygu analizi alanında güçlü bir araç haline geldi, ancak sektörün, çok dilli ve çok çeşitli slang ve dil kısaltmalarının sürekli değişen sözlüğünü takip etmesi ve Facebook ve Twitter gibi sosyal medya platformlarında görsel gönderilerin anlamını çözmeye çalışması zor oldu.
Sınırlı sayıda büyük sosyal medya platformunun, bu tür araştırmalar için gerçekten hiperskala bir kaynak olması nedeniyle, AI sektörünün en azından bunu takip etmeye çalışması gerekli.
Temmuz ayında, Tayvan’dan bir makale, sosyal medya ipliklerine gönderilen ‘tepki GIF’lerine dayalı olarak kullanıcı duygusunu kategorize etmek için yeni bir yöntem sundu, 30.000 tweet veritabanını kullanarak bir gönderiye tepkileri tahmin etmek için bir yol geliştirdi. Makale, görsel yanıtların birçok方面 daha kolay ölçülebileceğini buldu, çünkü bunlar sarkazm içermeye menos muhtemeldir, duygu analizinde önemli bir zorluk.

Araştırmacılar, 2021’de bir makalede animasyonlu tepki GIF’lerinin ‘duygu göstergeleri’ olarak kullanımını inceledi.
Bu yılın başlarında, Boston Üniversitesi’nden bir araştırma ekibi, makine öğrenimi modellerini Twitter’da viral olacak görüntü memesini tahmin etmek için eğitti; ve Ağustos ayında, İngiliz araştırmacılar, sosyal medyada emojis ve emoticon’ların büyümesini karşılaştırdı, fark var ve büyük ölçekli 7 dil Twitter duygu veritabanını derledi.
Twitch Emotes
Şimdi, ABD’li araştırmacılar, devasa popüler Twitch ağındaki emotes pseudo-sözlüğünü daha iyi anlamak, kategorize etmek ve ölçmek için bir makine öğrenimi metodolojisi geliştirdi.
Emotes, Twitch’de duygu, ruh hali veya iç şakalar ifade etmek için kullanılan neologizmlerdir. Tanımlarından dolayı yeni ifadeler olduklarından, bir makine öğrenimi sisteminin zorluğu, yeni emotes’i sonsuza kadar kataloglamak değil, onları sürekli üreten çerçeveyi daha iyi anlamak ve bir emote’i ‘geçici olarak geçerli’ bir kelime veya bileşik cümle olarak tanımlayabilen sistemler geliştirmektir.

FeelsGoodMan emote’nin komşuları, anlamları belirsiz soneklerle değiştirilebilir. Kaynak: https://arxiv.org/pdf/2108.08411.pdf
Makale, FeelsGoodMan: Inferring Semantics of Twitch Neologisms olarak adlandırılmış ve San Francisco’daki sosyal medya analiz şirketi Spiketrap’tan üç araştırmacı tarafından yapılmıştır.
Bait and Switch
Kısa ömürlü olmalarına rağmen, Twitch emotes sık sık kültürel materyali (daha eski emotes dahil) geri dönüştürür ve bu, duygu analizi çerçevelerini yanlış yöne yönlendirebilir. Bir emote’nin anlamındaki değişimi izlemek, sogar orijinal duygusu veya amacının tam tersi veya inkarıyla sonuçlanabilir.
Örneğin, araştırmacılar, orijinal sağcı FeelsGoodMan Pepe-the-frog memesinin, Twitch’deki kullanımı bağlamında neredeyse tamamen orijinal siyasi lezzetini kaybettiğini belirtiyorlar.
Bu cümle, birlikte bir 2005 çizgi romanı sanatçı Matt Furie’nin bir kedi resmiyle, 2010’larda sağcı bir meme haline geldi. Vox yazdı 2017’de sağın bu meme’nin benimsenmesinin, Furie’nin böyle bir kullanımın reddinden sonra da hayatta kaldığını, ancak San Francisco’daki yeni makaledeki araştırmacılar bunun tersini buldu:
‘Furie’nin çizgi kedi, 2010’larda 4chan gibi çeşitli çevrimiçi forumlardaki sağcı gönderenler tarafından benimsendi. O zamandan beri, Furie karakterinin anlamını geri kazanmak için kampanya düzenledi ve emote, Twitch’de daha çok nötr ve pozitif kullanım gördü. Twitch’deki sonuçlarımız da bunu doğruladı, “FeelsGoodMan” ve “FeelsBadMan” emotes’inin esas olarak literal olarak kullanıldığını gösterdi.’
Trouble Downstream
Bu tür bir ‘bait and switch’, bir meme’nin genel özelliklerini engelleyebilir ve zaten ‘nefret’, ‘sağcı’ veya ‘ulusalcı [ABD]’ olarak kategorize edilmiş ve bu bilgileri uzun süreli açık kaynak depolara.dump etmiş NLP araştırma projelerini engelleyebilir. Daha sonraki NLP projeleri, daha eski verilerin güncelliğini denetlemeyebilir; bunu yapmak için pratik bir mekanizmaları olmayabilir ve bunu yapmaya gerek olmayabilir.
Bunun sonucu, 2017 Twitch tabanlı veri kümelerini kullanarak ‘siyasi kategorizasyon’ algoritması geliştirmek, FeelsGoodMan emote’nin sıklığına dayanarak Twitch’de önemli sağcı faaliyet olduğunu gösterecektir. Twitch, sağcı etkileyicilerle dolu olabilir veya olmayabilir, ancak araştırmacılara göre, bu, kurbağa ile kanıtlanamaz.
‘Pepe’ memesinin siyasi önemi, Twitch’in 140 milyon kullanıcısı (bunların %41’i 24 yaşın altında) tarafından kolayca atıldı, Bunlar, orijinal hırsızlardan çalışmayı geri çaldı ve hiçbir özel gündem olmadan kendi renkleriyle boyadı.
Method and Data
Araştırmacılar, etiketli Twitch emote verilerinin ‘pratik olarak mevcut olmadığını’ buldu, daha önceki bir çalışmanın sonucuna rağmen, 8 milyon toplam emote ve bir hafta içinde 400.000 emote bulunduğunu belirtti.
2017’de bir çalışma, Twitch’de emote tahminini ele aldı, ancak yalnızca en iyi 30 Twitch emote’ini tahmin etti ve emote tahmini için 0,39 puan aldı.
Eksikliği gidermek için, San Francisco’daki araştırmacılar, daha önceki verilere yeni bir yaklaşım benimsedi, veriyi 80/20 oranında eğitim ve test için ayırdı ve ‘geleneksel’ makine öğrenimi yöntemlerini uyguladı, bunlar daha önce Twitch verilerini incelemek için kullanılmamıştı. Bu yöntemler arasında Naive Bayes (NB), Random Forest (RF), Support Vector Machine (SVM, lineer çekirdeklerle) ve Lojistik Regresyon yer aldı.
Bu yaklaşım, önceki Twitch duygu analizi temel çizgilerini %63,8 oranında aştı ve araştırmacıların daha sonra LOOVE (Learning Out Of Vocabulary Emotions) çerçevesini geliştirmesine olanak tanıdı, bu çerçeve neologizmleri tanıyabiliyor ve mevcut modelleri bu yeni tanımlarla ‘zenginleştirebiliyor’.

Araştırmacılar tarafından geliştirilen LOOVE (Learning Out Of Vocabulary Emotions) çerçevesinin mimarisi.
LOOVE, kelime gömmelerinin denetimsüz eğitimini sağlar ve ayrıca periyodik yeniden eğitim ve ince ayarlamayı destekler, bu da lojistik olarak pratik olmayacak ve emotes’in hızlı evrimi nedeniyle gerekli olan etiketli veri kümelerine olan ihtiyacı ortadan kaldırır.
Proje kapsamında, araştırmacılar, etiketsiz bir Twitch veritabanına dayalı bir emote ‘Pseudo-Dictionary’ eğitim verdi ve bu süreçte 444.714 kelime, emote, emoji ve emoticon gömme üretti.
Ayrıca, bir VADER sözlüğünü bir emoji/emoticon sözlüğü ile genişletti ve yukarıda bahsedilen EC veri kümesinin yanı sıra, ternary duygu sınıflandırması için Twitter, Rotten Tomatoes ve örneklenen bir YELP veri kümesinden üç diğer kamu veri kümesini de kullandı.
Kullanılan metodolojilerin ve veri kümelerinin çeşitliliği nedeniyle, sonuçlar çeşitli, ancak araştırmacılar, en iyi durum temel çizgilerinin en yakın önceki metriği %7,36 oranında aştığını iddia ediyor.
Araştırmacılar, projenin devam eden değeri, 313 milyondan fazla Twitch sohbet mesajı ile K-Nearest Neighbor (KNN) yardımıyla eğitilen word-to-vector (W2V) gömmeleri temel alan LOOVE çerçevesinin geliştirilmesidir.
Yazarlar şöyle diyor:
‘Çerçevenin temel bir özelliği, bilinmeyen emotes için duygu türetmek üzere kullanılan bir emote pseudo-sözlüğüdür. Bu emote pseudo-sözlüğü kullanarak, 22.507 emote için bir duygu tablosu oluşturduk. Bu, bu ölçekte emote anlama konusundaki ilk durum.’
* İçine gömme referanslarını hiperlinklere dönüştürdüm.












