الذكاء الاصطناعي
فهم تعبيرات Twitch في تحليل المشاعر

استخدام الجمهور المتزايد لأشكال التعبير مثل الإيموجي والرموز التعبيرية والتعابير والصور المتحركة وغيرها من الطرق غير اللفظية للتواصل على منصات وسائل الإعلام الاجتماعية قد أربك في السنوات الأخيرة جهود علماء البيانات لفهم المناظر الاجتماعية العالمية؛ على الأقل، إلى الحد الذي يمكن من خلاله اكتشاف الاتجاهات الاجتماعية العالمية من الخطاب العام.
على الرغم من أن معالجة اللغة الطبيعية (NLP) أصبحت أداة قوية في تحليل المشاعر خلال العقد الماضي، إلا أن القطاع يواجه صعوبة ليس فقط في مواكبة قاموس متطور دائمًا من اللهجات والاختصارات اللغوية عبر لغات متعددة، ولكن أيضًا في محاولة فك شفرة معنى المنشورات القائمة على الصور على منصات وسائل الإعلام الاجتماعية مثل فيسبوك وتويتر.
منذ أن كان عدد المنصات الاجتماعية الشهيرة المكتظة بالسكان محدودًا، وهي الموارد الفعلية الوحيدة لهذا النوع من البحث، من الضروري لقطاع الذكاء الاصطناعي على الأقل محاولة مواكبة ذلك.
في يوليو، قدمت ورقة من تايوان طريقة جديدة لتصنيف مشاعر المستخدمين بناءً على “تفاعلات الجي إف آي” المنشورة على خيوط وسائل الإعلام الاجتماعية (انظر الصورة أدناه)، باستخدام قاعدة بيانات تضم 30,000 تغريدة لتطوير طريقة للتنبؤ بالتفاعلات مع المنشور. وجدت الورقة أن الاستجابات القائمة على الصور أسهل في كثير من الجوانب لقياسها، لأنها أقل عرضة لاحتواء السخرية، وهو تحدي ملحوظ في تحليل المشاعر.

دراسة باحثين من تايوان استخدام تعبيرات رد الفعل المتحركة كـ “مؤشرات مختزلة” للمشاعر في ورقة عام 2021.
في وقت سابق من هذا العام، قاد بحث بجامعة بوسطن تدريب نماذج التعلم الآلي لتنبؤ الصور المتحركة التي من المحتمل أن تصبح شائعة على تويتر؛ وفي أغسطس، فحص باحثون بريطانيون نمو الإيموجي مقارنة بالرموز التعبيرية (هناك فرق) على وسائل الإعلام الاجتماعية، وجمعوا مجموعة بيانات كبيرة الحجم تضم 7 لغات من التعبيرات التلفزيونية على تويتر.
تعبيرات Twitch
الآن، طور باحثون أمريكيون منهجية تعلم الآلة لفهم وتصنيف وقياس قاموس التعبيرات المتطورة دائمًا على شبكة Twitch الشهيرة.
تُستخدم التعبيرات على Twitch للتعبير عن العواطف والمزاج أو النكات الداخلية. منذ أن تكون هذه التعبيرات تعبيرات جديدة، فإن التحدي لنظام التعلم الآلي ليس بالضرورة لتسجيل تعبيرات جديدة (التي قد تُستخدم مرة واحدة، أو تخرج من الاستخدام بسرعة)، ولكن لتطوير فهم أفضل لل_framework الذي يولد هذه التعبيرات دائمًا؛ وتطوير أنظمة قادرة على التعرف على تعبير كـ “كلمة أو عبارة صالحة مؤقتًا” التي قد تحتاج إلى قياس درجة حرارتها العاطفية / السياسية بالكامل من السياق.

جيران تعبير ‘FeelsGoodMan’، الذي يمكن تغيير معناه بواسطة لاحقات غامضة. مصدر: https://arxiv.org/pdf/2108.08411.pdf
الورقة بعنوان FeelsGoodMan: استنتاج دلالات تعبيرات Twitch الجديدة، وهي من ثلاثة باحثين في شركة Spiketrap لتحليل وسائل الإعلام الاجتماعية في سان فرانسيسكو.
الخدعة والتبديل
على الرغم من nouveenessهم وأحيانًا حياتهم القصيرة، تعبيرات Twitch غالبًا ما تعيد تدوير المواد الثقافية (بما في ذلك التعبيرات القديمة) بطريقة يمكن أن تضلل إطارات تحليل المشاعر في الاتجاه الخطأ. تتبع تحول معنى تعبير مع تطوره يمكن أن يكشف حتى عن عكس أو نفي كامل للمشاعر أو النية الأصلية.
على سبيل المثال، يشير الباحثون إلى أن الاستخدام الأصلي للميم “FeelsGoodMan” من قبل اليمين البديل قد فقد 거의 تمامًا نكهته السياسية الأصلية في سياق استخدامه على Twitch.
استخدام الجملة، جنبًا إلى جنب مع صورة ضفدع كرتوني من قصص مصورة عام 2005 للفنان مات فوري، أصبح ميمًا لليمين المتطرف في العقد الأول من القرن الحادي والعشرين. على الرغم من أن Vox كتب في عام 2017 أن تبني اليمين للميم قد نجح على الرغم من انفصال فوري المعلن عن هذا الاستخدام، إلا أن الباحثين في سان فرانسيسكو وجدوا عكس ذلك*:
‘تم تبني ضفدع فوري الكرتوني من قبل المنشورات اليمينية على منصات مختلفة مثل 4chan في أوائل العقد الأول من القرن الحادي والعشرين. منذ ذلك الحين، قام فوري بحملة لإعادة تأكيد معنى شخصيته، وشهد التعبير زيادة في استخدام أكثر شيوعًا وايجابيًا على Twitch. تظهر نتائجنا على Twitch أن “FeelsGoodMan” و “FeelsBadMan” يستخدمان بشكل رئيسي بشكل حرفي.’
المشاكل في_DOWNSTREAM
يمكن أن تعيق هذه الأنواع من “الخدعة والتبديل” مشاريع البحث في NLP التي قد صنفت بالفعل الميم على أنه “كره” أو “يميني” أو “قومي [الولايات المتحدة]”، والتي قد ألقت تلك المعلومات في مستودعات مفتوحة المصدر طويلة الأمد. قد لا تختار مشاريع NLP اللاحقة مراجعة عملة البيانات القديمة؛ قد لا يكون لديها آلية عملية للقيام بذلك؛ وقد لا تكون حتى على دراية بالحاجة.
النتيجة هي أن استخدام مجموعات بيانات Twitch لعام 2017 لصياغة خوارزمية تصنيف سياسي سيعزى إلى نشاط اليمين المتطرف على Twitch، بناءً على تكرار تعبير “FeelsGoodMan”. قد تكون Twitch مليئة بمؤثرين من اليمين المتطرف، أو قد لا تكون كذلك، ولكن وفقًا للباحثين في الورقة الجديدة، لا يمكن إثبات ذلك من خلال الضفدع.
يبدو أن الدلالة السياسية للميم “Pepe” قد تم التخلي عنها بشكل غير رسمي من قبل 140 مليون مستخدم على Twitch (41٪ منهم تحت سن 24 عامًا)، الذين سرقوا العمل بشكل فعال من اللصوص الأصليين ولوّنوه بألوانهم الخاصة، دون أي خطة محددة.
المنهج والبيانات
وجد الباحثون أن بيانات التعبيرات على Twitch المُصنفة كانت “غير موجودة تقريبًا”، على الرغم من استنتاج دراسة سابقة أن هناك ثمانية ملايين تعبير كامل، و 400,000 تعبير موجود في أسبوع واحد من إنتاج Twitch في الأسبوع الذي اختاره الباحثون السابقون.
دراسة عام 2017 حول توقع التعبيرات على Twitch محدودة بتحديد التعبيرات الأعلى على Twitch، وبلغت 0.39 فقط لتنبؤ التعبيرات.
لمواجهة النقص، اتبع الباحثون في سان فرانسيسكو نهجًا جديدًا للبيانات القديمة، وقسموها إلى 80/20 بين التدريب والاختبار، وتطبيق أساليب التعلم الآلي التقليدية، والتي لم تُستخدم من قبل لدراسة بيانات Twitch. وشملت هذه الأساليب Naive Bayes (NB) و Random Forest (RF) و Support Vector Machine (SVM، مع نوى خطية) و Logistic Regression.
هذا النهج تفوق على أسس خطوط قاعدة Twitch السابقة بنسبة 63.8٪، وأمكن للباحثين بعد ذلك تطوير إطار LOOVE (التعلم من خارج القاموس العاطفي)، الذي يمكنه تحديد الكلمات الجديدة وتحسين النماذج الحالية بهذه التعريفات الجديدة.

هيكل إطار LOOVE (التعلم من خارج القاموس العاطفي) الذي طوّره الباحثون.
يسمح إطار LOOVE بتدريب التضمين الكلمة دون إشراف، ويتضمن أيضًا إعادة التدريب والتحسين الدوري، مما يلغي الحاجة إلى مجموعات بيانات مُصنفة، والتي سيكون من الصعب تنفيذها من الناحية اللوجستية، مع考虑ًا لمساحة المهمة وتطور التعبيرات السريع.
في خدمة المشروع، قام الباحثون بتدريب “قاموس التعبيرات الزائفة” على مجموعة بيانات Twitch غير المُصنفة، وأنشأوا 444,714 تضمينًا للكلمات والتعبيرات والإيموجي والرموز التعبيرية.
علاوة على ذلك، قاموا بتعزيز قاموس VADER مع قاموس إيموجي / رمز تعبيري، بالإضافة إلى مجموعة بيانات EC المذكورة أعلاه، استغلوا ثلاث مجموعات بيانات عامة أخرى لتصنيف المشاعر الثلاثي، من تويتر و Rotten Tomatoes ومجموعة بيانات YELP العينة.
نظرًا لتعدد الأساليب ومجموعات البيانات المستخدمة في الدراسة، فإن النتائج متنوعة، لكن الباحثين يؤكدون أن أفضل أساس خطوط قاعدة لهم تفوق أقرب مقياس سابق بنسبة 7.36 نقطة مئوية.
يعتبر الباحثون أن القيمة المستمرة للمشروع هي تطوير إطار LOOVE، بناءً على تضمين الكلمة إلى المتجه (W2V) المُدرج على أكثر من 313 مليون رسالة دردشة على Twitch بمساعدة K-Nearest Neighbor (KNN).
يختم الباحثون:
‘ميزة رئيسية خلف الإطار هي قاموس تعبيرات زائف يمكن استخدامه لاستخراج المشاعر للتعبيرات غير المعروفة. باستخدام هذا القاموس، قمنا بإنشاء جدول مشاعر لـ 22,507 تعبير. هذا هو أول حالة لفهم التعبيرات على هذا النطاق.’












