कृत्रिम बुद्धिमत्ता
ट्विच एमोट्स को सेंटिमेंट विश्लेषण में समझना

सार्वजनिक का बढ़ता उपयोग इमोजी, इमोटिकॉन, एमोट्स, मीम्स, जीआईएफ और सोशल मीडिया प्लेटफ़ॉर्म पर संवाद करने के अन्य गैर-मौखिक तरीकों ने हाल के वर्षों में, कम से कम, विश्व सामाजिक रुझानों को सार्वजनिक वार्ता से समझने के लिए डेटा वैज्ञानिकों के प्रयासों को बढ़ा दिया है।
हालांकि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) पिछले दशक में भावना विश्लेषण में एक शक्तिशाली उपकरण बन गया है, क्षेत्र को न केवल एक निरंतर विकसित होने वाले शब्दकोश के साथ तालमेल बिठाने में कठिनाई होती है स्लैंग और लinguistic शॉर्टकट्स कई भाषाओं में, लेकिन यह भी छवि-आधारित पोस्ट के अर्थ को डिकोड करने का प्रयास करने में सोशल मीडिया प्लेटफ़ॉर्म जैसे फेसबुक और ट्विटर पर।
चूंकि सीमित संख्या में उच्च जनसंख्या वाले सोशल मीडिया प्लेटफ़ॉर्म इस तरह के शोध के लिए एकमात्र वास्तव में हाइपरस्केल संसाधन हैं, यह एआई क्षेत्र के लिए यह आवश्यक है कि यह कम से कम इसके साथ तालमेल बिठाने का प्रयास करे।
जुलाई में, ताइवान से एक पत्र में ‘प्रतिक्रिया जीआईएफ’ को सोशल मीडिया थ्रेड्स पर पोस्ट करने के लिए एक नई विधि प्रदान की गई, जिसमें 30,000 ट्वीट्स के डेटाबेस का उपयोग करके एक पोस्ट की प्रतिक्रिया का अनुमान लगाने के लिए एक तरीका विकसित किया गया था। पत्र में पाया गया कि छवि-आधारित प्रतिक्रियाएं कई मामलों में आसानी से मापी जा सकती हैं, क्योंकि वे सार्केजम से कम प्रभावित होती हैं, जो भावना विश्लेषण में एक उल्लेखनीय चुनौती है।

ताइवान के शोधकर्ताओं ने 2021 के एक पत्र में ‘रिडक्टिव इंडिकेटर्स’ के रूप में सेंटिमेंट में एनिमेटेड प्रतिक्रिया जीआईएफ का अध्ययन किया।
इस साल की शुरुआत में, बोस्टन विश्वविद्यालय द्वारा नेतृत्व वाले एक शोध प्रयास ने मशीन लर्निंग मॉडल को प्रशिक्षित किया जो ट्विटर पर वायरल होने वाले छवि मीम्स का अनुमान लगा सकते हैं; और अगस्त में, ब्रिटिश शोधकर्ताओं ने सोशल मीडिया पर इमोजी और इमोटिकॉन्स के बीच के अंतर का अध्ययन किया, जिसमें एक बड़े पैमाने पर 7-भाषा डेटासेट का संकलन किया गया था। ट्विटर के भावना के लिए पिक्टोग्राफिक।
ट्विच एमोट्स
अब, अमेरिकी शोधकर्ताओं ने ट्विच नेटवर्क पर एमोट्स के निरंतर विकसित होने वाले पseudo-lexicon को बेहतर ढंग से समझने, वर्गीकृत करने और मापने के लिए एक मशीन लर्निंग पद्धति विकसित की है।
एमोट्स ट्विच पर भावना, मूड, या इन-जोक्स को व्यक्त करने के लिए उपयोग किए जाने वाले नियोलॉजिज्म हैं। चूंकि वे परिभाषा के अनुसार नए अभिव्यक्तियों हैं, मशीन लर्निंग सिस्टम के लिए चुनौती नहीं है कि नए एमोट्स (जो केवल एक बार उपयोग किए जा सकते हैं या तेजी से उपयोग से बाहर हो सकते हैं) को अनंत रूप से कैटलॉग करना है, लेकिन यह समझने के लिए कि जो फ्रेमवर्क उन्हें निरंतर रूप से उत्पन्न करता है; और उन प्रणालियों को विकसित करने के लिए जो एक एमोट को एक ‘अस्थायी रूप से वैध’ शब्द या यौगिक वाक्यांश के रूप में पहचान सकती हैं जिसका भावनात्मक/राजनीतिक तापमान पूरी तरह से संदर्भ से मापा जा सकता है।

FeelsGoodMan एमोट के पड़ोसी, जिसका अर्थ अस्पष्ट उपसर्ग द्वारा बदला जा सकता है। स्रोत: https://arxiv.org/pdf/2108.08411.pdf
पत्र का शीर्षक FeelsGoodMan: ट्विच नियोलॉजिज्म के अर्थ का अनुमान है, और यह स्पाइकेट्रैप, सैन फ्रांसिस्को में एक सोशल मीडिया विश्लेषण कंपनी में तीन शोधकर्ताओं से आया है।
बैट और स्विच
尽管 उनकी नई और अक्सर-ब्रीफ जीवन, ट्विच एमोट्स अक्सर सांस्कृतिक सामग्री (包括 पुराने एमोट्स) को रिसाइकल करते हैं जो भावना विश्लेषण फ्रेमवर्क को गलत दिशा में मोड़ सकते हैं। एक एमोट के अर्थ में परिवर्तन को ट्रेस करना जब यह विकसित होता है तो इसके मूल भावना या इरादे का पूर्ण उलट या नकार का खुलासा कर सकता है।
उदाहरण के लिए, शोधकर्ता नोट करते हैं कि मूल अल्ट-राइट दुरुपयोग के FeelsGoodMan पेपे-द-फ्रॉग मीम ने ट्विच पर इसके उपयोग के संदर्भ में अपने मूल राजनीतिक स्वाद को लगभग पूरी तरह से खो दिया है।
वाक्यांश का उपयोग, एक 2005 के कार्टून द्वारा कलाकार मैट फ्यूरी द्वारा एक कार्टून फ्रॉग की छवि के साथ, एक दूर-दूर का मीम बन गया 2010 के दशक में। हालांकि वॉक्स लिखा 2017 में कि मीम का दाएं पक्ष का उपयोग फ्यूरी के disassociation के बावजूद जारी रहा, सैन फ्रांसिस्को के शोधकर्ताओं ने पाया है कि इसके विपरीत*:
‘फ्यूरी का कार्टून फ्रॉग को दूर-दूर के पोस्टर्स द्वारा विभिन्न ऑनलाइन मंचों पर अपनाया गया था 2010 के दशक की शुरुआत में। तब से, फ्यूरी ने अपने पात्र के अर्थ को पुनः प्राप्त करने के लिए अभियान चलाया है, और एमोट ने अधिक मुख्यधारा गैर-नफ़रत उपयोग और ट्विच पर सकारात्मक उपयोग में वृद्धि देखी है। हमारे परिणाम ट्विच पर सहमत हैं, जो दिखाते हैं कि “FeelsGoodMan” और इसके समकक्ष “FeelsBadMan” मुख्य रूप से साहित्यिक रूप से उपयोग किए जा रहे हैं। ‘
ट्रबल डाउनस्ट्रीम
इस तरह का ‘बैट और स्विच’ एक मीम के सामान्यीकृत ‘विशेषताओं’ के बारे में एनएलपी शोध परियोजनाओं को बाधित कर सकता है जो पहले से ही इसे ‘नफ़रत’, ‘दूर-दूर का’ या ‘राष्ट्रवादी [यूएस]’ के रूप में वर्गीकृत कर चुके हैं, और जिन्होंने उस जानकारी को लंबे समय तक खुले स्रोत रिपॉजिटरी में डाल दिया है। बाद के एनएलपी परियोजनाएं पुराने डेटा की मुद्रा की जांच करने का विकल्प नहीं चुन सकती हैं; उन्हें ऐसा करने के लिए कोई व्यावहारिक तंत्र नहीं हो सकता है; और उन्हें इसकी आवश्यकता के बारे में पता नहीं हो सकता है।
इसका परिणाम यह है कि 2017 ट्विच-आधारित डेटासेट का उपयोग करके एक ‘राजनीतिक वर्गीकरण’ अल्गोरिदम बनाने से ट्विच पर उल्लेखनीय दूर-दूर की गतिविधि का अनुमान लगाया जा सकता है, FeelsGoodMan एमोट की आवृत्ति के आधार पर। ट्विच में दूर-दूर के प्रभावित लोग हो सकते हैं या नहीं, लेकिन शोधकर्ताओं के अनुसार, आप मेंढ़क से इसका प्रमाण नहीं दे सकते हैं।
‘पेपे’ मीम का राजनीतिक महत्व ट्विच के 140 मिलियन उपयोगकर्ताओं (जिनमें से 41% 24 से कम हैं) द्वारा आकस्मिक रूप से त्याग दिया गया प्रतीत होता है, जिन्होंने मूल चोरों से काम को पुनः प्राप्त किया है और इसे अपने रंगों में चित्रित किया है, किसी विशेष एजेंडे के बिना।
विधि और डेटा
शोधकर्ताओं ने पाया कि लेबल वाले ट्विच एमोट डेटा ‘आभासी रूप से अस्तित्वहीन’ था, इसके बावजूद कि एक पूर्व अध्ययन के निष्कर्ष कि वहां आठ मिलियन कुल एमोट्स हैं, और 400,000 एक ही सप्ताह में ट्विच आउटपुट में मौजूद थे जिसे उन शोधकर्ताओं द्वारा चुना गया था।
एक 2017 अध्ययन जिसने ट्विच पर एमोट पूर्वानुमान को संबोधित किया, केवल शीर्ष 30 ट्विच एमोट्स की भविष्यवाणी करने तक सीमित था, जो केवल 0.39 के लिए एमोट पूर्वानुमान स्कोर किया गया था।
इस कमी को संबोधित करने के लिए, सैन फ्रांसिस्को के शोधकर्ताओं ने पुराने डेटा के लिए एक नई दृष्टिकोण अपनाई, इसे 80/20 के बीच प्रशिक्षण और परीक्षण के लिए विभाजित किया, और ‘पारंपरिक’ मशीन लर्निंग विधियों को लागू किया, जो पहले ट्विच डेटा का अध्ययन करने के लिए उपयोग नहीं किया गया था। इन विधियों में नाइव बेस (एनबी), रैंडम फॉरेस्ट (आरएफ), सपोर्ट वेक्टर मशीन (एसवीएम, रेखीय केर्नेल के साथ), और लॉजिस्टिक रिग्रेशन शामिल थे।
इस दृष्टिकोण ने पिछले ट्विच भावना बेसलाइन को 63.8% से बेहतर प्रदर्शन किया, और शोधकर्ताओं को बाद में एलओओवीई (लर्निंग आउट ऑफ वोकेबुलरी एमोशन्स) फ्रेमवर्क विकसित करने में सक्षम बनाया, जो नियोलॉजिज्म की पहचान करने और इन नए परिभाषाओं के साथ मौजूदा मॉडल को ‘समृद्ध’ करने में सक्षम है।

शोधकर्ताओं द्वारा विकसित एलओओवीई (लर्निंग आउट ऑफ वोकेबुलरी एमोशन्स) फ्रेमवर्क की वास्तुकला।
एलओओवीई शब्द एम्बेडिंग के असुपरवाइज्ड प्रशिक्षण की सुविधा प्रदान करता है, और यह आवर्ती पुनः-प्रशिक्षण और फ़ाइन-ट्यूनिंग को भी समायोजित करता है, जो लेबल वाले डेटासेट की आवश्यकता को दूर करता है, जो कार्य के पैमाने और एमोट्स के तेजी से विकास को देखते हुए व्यावहारिक रूप से असंभव होगा।
इस परियोजना की सेवा में, शोधकर्ताओं ने प्रशिक्षित एक एमोट ‘प्सेवдо-डिक्शनरी’ एक अनलेबल्ड ट्विच डेटासेट पर, 444,714 एम्बेडिंग्स का उत्पादन करते हुए, जो शब्दों, एमोट्स, इमोजी और इमोटिकॉन्स हैं।
इसके अलावा, उन्होंने एक वैडर लेक्सिकॉन को एक इमोजी/इमोटिकॉन लेक्सिकॉन के साथ आगे बढ़ाया, और ईसी डेटासेट के अलावा, उन्होंने ट्विटर, रॉटेन टोमेटोज़ और एक नमूना येल्प डेटासेट से तीन अन्य सार्वजनिक रूप से उपलब्ध डेटासेट का भी शोषण किया। तृतीयक भावना वर्गीकरण के लिए।
दिए गए विभिन्न तरीकों और डेटासेट के उपयोग के कारण, परिणाम विविध हैं, लेकिन शोधकर्ता दावा करते हैं कि उनका सर्वोत्तम मामले का बेसलाइन पिछले निकटतम मीट्रिक से 7.36 प्रतिशत अंकों से बेहतर प्रदर्शन किया।
शोधकर्ता मानते हैं कि परियोजना का निरंतर मूल्य एलओओवीई का विकास है, जो 313 मिलियन से अधिक ट्विच चैट संदेशों पर प्रशिक्षित शब्द-से-वेक्टर (डब्ल्यू2वी) एम्बेडिंग पर आधारित है, जो के-निकटतम पड़ोसी (केएनएन) की मदद से है।
लेखक निष्कर्ष निकालते हैं:
‘एक ड्राइविंग फीचर पीछे फ्रेमवर्क एक एमोट प्सेवдо-डिक्शनरी है जिसका उपयोग अज्ञात एमोट्स के लिए भावना का अनुमान लगाने के लिए किया जा सकता है। इस एमोट प्सेवडो-डिक्शनरी का उपयोग करके, हमने 22,507 एमोट्स के लिए एक भावना तालिका बनाई। यह एमोट समझने का पहला मामला है इस पैमाने पर।’
* मेरा इनलाइन संदर्भों को हाइपरलिंक में रूपांतरण.












