الذكاء الاصطناعي

إنشاء الدعاية وتحديدها باستخدام التعلم الآلي

تحديث on 9 كانون الأول، 2022

يقدم بحث جديد من الولايات المتحدة وقطر طريقة جديدة لتحديد الأخبار المزيفة التي تمت كتابتها بالطريقة التي يستخدمها البشر الكتابة في الواقع الأخبار المزيفة - من خلال تضمين تصريحات غير دقيقة في سياق حقيقي إلى حد كبير ، وباستخدام تقنيات الدعاية الشعبية مثل يناشد السلطة و اللغة المحملة.

نتج عن المشروع إنشاء مجموعة بيانات جديدة للتدريب على اكتشاف الأخبار المزيفة تسمى بروبا نيوز، الذي يدمج هذه التقنيات. وجد مؤلفو الدراسة أن الكواشف المدربة على مجموعة البيانات الجديدة أكثر دقة بنسبة 7.3-12٪ في اكتشاف المعلومات المضللة المكتوبة من قبل الإنسان مقارنة بأحدث الأساليب السابقة.

من الورقة الجديدة ، أمثلة على "الاحتكام إلى السلطة" و "اللغة المحملة". المصدر: https://arxiv.org/pdf/2203.05386.pdf

يدعي المؤلفون أنه على حد علمهم ، فإن المشروع هو أول من دمج تقنيات الدعاية (بدلاً من عدم الدقة الواقعية المباشرة) في أمثلة نصية مولدة آليًا تهدف إلى تغذية أجهزة كشف الأخبار المزيفة.

ويؤكدون أن أحدث الأعمال في هذا المجال قد درست التحيز، أو أعادت صياغة بيانات "الدعاية" في سياق التحيز (يمكن القول إن التحيز أصبح قطاع تعلم آلي قابل للتمويل بشكل كبير في عصر ما بعد أناليتيكا).

يذكر المؤلفون:

في المقابل ، يولد عملنا أخبارًا كاذبة من خلال دمج تقنيات الدعاية والحفاظ على غالبية المعلومات الصحيحة. ومن ثم ، فإن نهجنا أكثر ملاءمة لدراسة الدفاع ضد الأخبار المزيفة التي يكتبها الإنسان.

وهي توضح كذلك الحاجة الملحة المتزايدة لتقنيات كشف الدعاية الأكثر تطورًا *:

المعلومات المضللة [المكتوبة بشريًا] ، والتي غالبًا ما تستخدم للتلاعب ببعض السكان ، كان لها تأثير كارثي على أحداث متعددة ، مثل 2016 الانتخابات الرئاسية الأمريكية, Brexitأطلقت حملة وباء COVID-19، والهجوم الروسي الأخير على أوكرانيا. وبالتالي ، نحن في حاجة ماسة إلى آلية دفاعية ضد المعلومات المضللة التي كتبها الإنسان.

• ورقة بعنوان الأخبار المزيفة للكشف عن الأخبار الوهمية الحقيقية: توليد بيانات التدريب المحملة بالدعاية، ويأتي من خمسة باحثين في جامعة إلينوي ، أوربانا شامبين ، وجامعة كولومبيا ، وجامعة حمد بن خليفة في قطر ، وجامعة واشنطن ، ومعهد ألين للذكاء الاصطناعي.

تعريف الكذب

يعد تحدي تحديد كمية الدعاية تحديًا لوجستيًا إلى حد كبير: من المكلف للغاية توظيف البشر للتعرف على مواد العالم الحقيقي والتعليق عليها بخصائص تشبه الدعاية لإدراجها في مجموعة بيانات تدريبية ، ومن المحتمل أن يكون استخراج الميزات عالية المستوى واستخدامها أرخص بكثير. التي من المحتمل أن تعمل على بيانات مستقبلية "غير مرئية".

في خدمة حل أكثر قابلية للتوسع ، جمع الباحثون في البداية مقالات معلومات مضللة من صنع الإنسان من مصادر إخبارية تعتبر منخفضة في الدقة الواقعية ، عبر موقع Media Bias Fact Check.

ووجدوا أن 33٪ من المقالات التي تمت دراستها تستخدم تقنيات دعاية خادعة ، بما في ذلك مصطلحات تثير المشاعر, المغالطات المنطقيةو مناشدة السلطات. احتوت 55٪ إضافية من المقالات على معلومات غير دقيقة ممزوجة بمعلومات دقيقة.

توليد النداءات إلى السلطة

• طعن أمام السلطة يحتوي النهج على حالتي استخدام: الاستشهاد ببيانات غير دقيقة ، والاستشهاد ببيانات وهمية تمامًا. يركز البحث على حالة الاستخدام الثانية.

من المشروع الجديد ، يحدد إطار عمل استدلال اللغة الطبيعية RoBERTa مثالين آخرين لمناشدة السلطة واللغة المحملة.

بهدف إنشاء دعاية مولدة آليًا لمجموعة البيانات الجديدة ، استخدم الباحثون بنية seq2seq سابقة التدريب بارت لتحديد الجمل البارزة التي يمكن تحويلها لاحقًا إلى دعاية. نظرًا لعدم وجود مجموعة بيانات متاحة للجمهور تتعلق بهذه المهمة ، استخدم المؤلفون نموذج تلخيص استخلاصي المقترح في 2019 لتقدير أهمية الجملة.

بالنسبة لمقالة واحدة من كل منفذ إخباري تمت دراسته ، استبدل الباحثون هذه الجمل "المميزة" بحجج مزيفة من "السلطات" مستمدة من خدمة استعلام ويكي بيانات ومن السلطات المذكورة في المقالات (أي الأشخاص و / أو المنظمات).

توليد اللغة المحملة

اللغة المحملة يتضمن كلمات ، غالبًا ما تكون ظروفاً وصفات مثيرة (كما في المثال الموضح أعلاه) ، والتي تحتوي على أحكام قيمة ضمنية متداخلة في سياق تقديم حقيقة.

لاشتقاق البيانات المتعلقة باللغة المحملة ، استخدم المؤلفون مجموعة بيانات من ملف 2019 الدراسة تحتوي على 2,547 اللغة المحملة حالات. استخدم الباحثون ، نظرًا لأن جميع الأمثلة في بيانات 2019 لم تتضمن ظروفًا أو صفات تثير المشاعر سبا لأداء تحليل التبعية وعلامات جزء من الكلام (PoS) ، مع الاحتفاظ فقط بأمثلة مناسبة لإدراجها في إطار العمل.

أسفرت عملية الترشيح عن 1,017 عينة صالحة اللغة المحملة. تم استخدام مثيل آخر من BART لإخفاء واستبدال الجمل البارزة في المستندات المصدر بلغة محملة.

مجموعة بيانات PropaNews

بعد التدريب على النموذج المتوسط الذي تم إجراؤه في عام 2015 مجموعة بيانات CNN / DM من Google Deep Mind وجامعة أكسفورد ، أنشأ الباحثون مجموعة بيانات PropaNews ، وقاموا بتحويل المقالات غير التافهة من مصادر "جديرة بالثقة" مثل نيو يورك تايمز و The Guardian في الإصدارات "المعدلة" التي تحتوي على دعاية حسابية متقنة.

تم تصميم التجربة على نموذج 2013 الدراسة من هانوفر ، والتي أنتجت تلقائيًا ملخصات التسلسل الزمني للقصص الإخبارية عبر 17 حدثًا إخباريًا ، وما مجموعه 4,535 قصة.

تم تقديم المعلومات المضللة التي تم إنشاؤها إلى 400 عامل فريد في Amazon Mechanical Turk (AMT) ، تغطي 2000 مهمة ذكاء بشرية (HITs). فقط المقالات المحملة بالدعاية تعتبر دقيق من قبل العمال تم تضمينها في النسخة النهائية من PropaNews. تم تسجيل الحكم على الخلافات من خلال اتفاقية العمال مع شركة Aggregate (واوا) طريقة.

يحتوي الإصدار الأخير من PropaNews على 2,256 مقالة ، متوازنة بين المخرجات الوهمية والحقيقية ، 30٪ منها نفوذ طعن أمام السلطة، مع استخدام 30٪ أخرى اللغة المحملة. يحتوي الباقي ببساطة على معلومات غير دقيقة من النوع الذي شغل إلى حد كبير مجموعات البيانات السابقة في هذا المجال البحثي.

تم تقسيم البيانات 1,256،500: 500: XNUMX عبر توزيعات التدريب والاختبار والتحقق من الصحة.

مجموعة بيانات HumanNews

لتقييم فعالية إجراءات الكشف عن الدعاية المدربة ، قام الباحثون بتجميع 200 مقال إخباري مكتوب بشريًا ، بما في ذلك المقالات التي فضحتها Politifact ، ونشرت بين 2015-2020.

تم تعزيز هذه البيانات بمقالات إضافية تم فضحها من وسائل الإعلام الإخبارية غير الجديرة بالثقة ، وإجمالي الحقائق التي تم التحقق منها بواسطة طالب دراسات عليا في علوم الكمبيوتر.

تتضمن مجموعة البيانات النهائية ، بعنوان HumanNews ، أيضًا 100 مقالة من لوس أنجلوس تايمز.

اختبارات

تم إجراء عملية الكشف مقابل الأطر السابقة في شكلين: PN- فضي، والذي يتجاهل التحقق من صحة التعليقات التوضيحية AMT ، و PN الذهب، والذي يتضمن التحقق من الصحة كمعيار.

تضمنت الأطر المنافسة عرض 2019 جروفر جين، 2020 حقيقة-جنرالو حدث مزيف، حيث يتم استبدال المقالات من PN-Silver بالمستندات التي تم إنشاؤها بواسطة هذه الطرق القديمة.

أثبتت متغيرات Grover و RoBERTa أنها أكثر فاعلية عند تدريبها على مجموعة بيانات PropaNews الجديدة ، حيث خلص الباحثون إلى أن "أجهزة الكشف المدربة على PROPANEWS تعمل بشكل أفضل في تحديد المعلومات المضللة المكتوبة من قبل الإنسان مقارنة بالتدريب على مجموعات البيانات الأخرى".

لاحظ الباحثون أيضًا أنه حتى مجموعة بيانات الاجتثاث شبه المعطلة PN-Silver تتفوق في الأداء على الأساليب القديمة في مجموعات البيانات الأخرى.

انتهت صلاحيته؟

يكرر المؤلفون عدم وجود بحث حتى الآن فيما يتعلق بالتوليد الآلي للأخبار المزيفة التي تركز على الدعاية والتعرف عليها ، ويحذرون من استخدام النماذج المدربة على البيانات قبل الأحداث الحرجة (مثل COVID ، أو ، يمكن القول ، الوضع الحالي في المنطقة الشرقية). أوروبا) على النحو الأمثل:

حوالي 48٪ من المعلومات المضللة المكتوبة بشريًا والتي تم تصنيفها بشكل خاطئ ناتجة عن عدم القدرة على اكتساب المعرفة الديناميكية من مصادر الأخبار الجديدة. على سبيل المثال ، عادةً ما يتم نشر المقالات المتعلقة بـ COVID بعد عام 2020 ، بينما تم تدريب ROBERTA مسبقًا على المقالات الإخبارية التي تم إصدارها قبل عام 2019. من الصعب جدًا على ROBERTA اكتشاف المعلومات المضللة عن مثل هذه الموضوعات ما لم يكن الكاشف مزودًا بقدرات اكتساب المعرفة الديناميكية من المقالات الإخبارية.

لاحظ المؤلفون كذلك أن RoBERTa تحقق دقة بنسبة 69.0٪ للكشف عن المقالات الإخبارية المزيفة حيث تم نشر المواد قبل عام 2019 ، لكنها تنخفض إلى 51.9٪ من الدقة عند تطبيقها على المقالات الإخبارية المنشورة بعد هذا التاريخ.

المراوغة والسياق

على الرغم من أن الدراسة لا تتناولها بشكل مباشر ، فمن المحتمل أن هذا النوع من الغوص العميق في التأثير الدلالي يمكن أن يعالج في النهاية تسليح أكثر دقة للغة ، مثل المراوغة - الاستخدام الذاتي والانتقائي للبيانات الصادقة من أجل الحصول على النتيجة المرجوة التي قد تتعارض مع الروح المتصورة ونية الأدلة الداعمة المستخدمة.

هناك خط بحث ذي صلة وأكثر تطورًا قليلاً في البرمجة اللغوية العصبية ورؤية الكمبيوتر والبحث متعدد الوسائط دراسة السياق كعنصر مساعد للمعنى ، حيث تصبح إعادة ترتيب الحقائق الحقيقية أو إعادة وضعها في سياقها الانتقائي وذاتية الخدمة مكافئة لمحاولة إثبات رد فعل مختلف عما قد تؤثر عليه الحقائق عادةً ، لو تم تقديمها بطريقة أوضح وأكثر خطية.

* تحويل الاقتباسات المضمنة للمؤلفين إلى ارتباطات تشعبية مباشرة.

نُشر لأول مرة في 11 مارس 2022.