رطم معهد ماساتشوستس للتكنولوجيا: قياس تحيز الوسائط في منافذ الأخبار الرئيسية باستخدام التعلم الآلي - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

معهد ماساتشوستس للتكنولوجيا: قياس انحياز الوسائط في منافذ الأخبار الرئيسية باستخدام التعلم الآلي

mm
تحديث on

استخدمت دراسة من معهد ماساتشوستس للتكنولوجيا تقنيات التعلم الآلي لتحديد الصياغة المتحيزة عبر حوالي 100 من أكبر منافذ الأخبار وأكثرها تأثيرًا في الولايات المتحدة وخارجها، بما في ذلك 83 من المنشورات الإخبارية المطبوعة الأكثر تأثيرًا. إنه جهد بحثي يوضح الطريق نحو أنظمة آلية يمكنها أن تصنف تلقائيًا الطابع السياسي للمنشور، وتمنح القراء نظرة أعمق حول الموقف الأخلاقي لمنفذ ما حول الموضوعات التي قد يشعرون بشغف تجاهها.

يركز العمل على طريقة معالجة الموضوعات بصياغة معينة ، مثل مهاجر غير موثق | مهاجر غير شرعي, جنين | الطفل الذي لم يولد بعد, المتظاهرين | الفوضويين.

استخدم المشروع تقنيات معالجة اللغات الطبيعية (NLP) لاستخراج وتصنيف مثل هذه الأمثلة من اللغة "المشحونة" (على افتراض أن المصطلحات الأكثر "حيادية" على ما يبدو تمثل أيضًا موقفًا سياسيًا) في رسم خرائط واسع يكشف عن التحيز نحو اليسار واليمين. عبر أكثر من ثلاثة ملايين مقالة من حوالي 100 منفذ إخباري، مما أدى إلى إنشاء موقع قابل للملاحة المشهد التحيز من المنشورات المعنية.

ورقة يأتي من Samantha D'Alonzo و Max Tegmark في قسم الفيزياء بمعهد ماساتشوستس للتكنولوجيا ، ويلاحظ أن عددًا من المبادرات الحديثة حول "التحقق من الحقائق" ، في أعقاب العديد من فضائح "الأخبار الكاذبة" ، يمكن أن تكون تفسر على أنها مخادعة وخدمة أسباب المصالح الخاصة. يهدف المشروع إلى توفير نهج يعتمد بشكل أكبر على البيانات لدراسة استخدام التحيز واللغة "المؤثرة" في سياق إخباري يُفترض أنه محايد.

مجموعة من العبارات (حرفياً) من اليسار إلى اليمين ، كما هو مشتق من الدراسة. المصدر: https://arxiv.org/pdf/2109.00024.pdf

مجموعة من العبارات (حرفياً) من اليسار إلى اليمين ، كما هو مشتق من الدراسة. المصدر: https://arxiv.org/pdf/2109.00024.pdf

معالجة البرمجة اللغوية العصبية

تم الحصول على بيانات المصدر من الدراسة من المصدر المفتوح قاعدة بيانات جريدة 3K، وتضم 3,078,624 مقالاً تم الحصول عليها من 100 مصدر إخباري إعلامي ، بما في ذلك 83 صحيفة. تم اختيار الصحف على أساس مدى وصولها ، بينما تضمنت مصادر وسائل الإعلام على الإنترنت أيضًا مقالات من موقع تحليل الأخبار العسكرية الدفاع واحدو علوم.

المصادر المستخدمة في الدراسة.

المصادر المستخدمة في الدراسة.

تشير الورقة إلى أن النص الذي تم تنزيله تمت معالجته مسبقًا "بالحد الأدنى". تم حذف الاقتباسات المباشرة ، لأن الدراسة مهتمة باللغة التي يختارها الصحفيون (على الرغم من أن اختيارات الاقتباس هي بحد ذاتها مجال دراسة مثير للاهتمام).

تم تغيير التهجئات البريطانية إلى اللغة الأمريكية لتوحيد قاعدة البيانات ، وإزالة جميع علامات الترقيم ، وإزالة جميع الأرقام باستثناء الأرقام الترتيبية أيضًا. تم تحويل الكتابة بالأحرف الكبيرة للجملة الأولية إلى الأحرف الصغيرة ، ولكن تم الاحتفاظ بجميع الأحرف الكبيرة الأخرى.

تم تحديد أول 100,000 عبارة الأكثر شيوعًا ، وتم ترتيبها في النهاية ، وتم حذفها ودمجها في قائمة العبارات. تم حذف جميع العبارات الزائدة التي يمكن تحديدها (مثل "مشاركة هذه المقالة" و "إعادة نشر المقالة"). تم توحيد الاختلافات عبر العبارات المتطابقة بشكل أساسي (مثل "التكنولوجيا الكبيرة" و "التكنولوجيا الكبيرة" و "الأمن السيبراني" و "الأمن السيبراني").

"قطف البندق"

كان الاختبار الأولي حول موضوع "حياة السود مهمة" ، وتمكن من تمييز تحيز العبارة ومرادفات التكافؤ عبر البيانات.

المكونات الأساسية المعممة للمقالات حول Black Lives Matter (BLM). نرى الأشخاص المشاركين في العمل المدني يتصفون ، حرفياً ومجازياً ، من اليسار إلى اليمين ، كمتظاهرين وفوضويين ، وفي أقصى يمين الطيف ، بـ "مثيري الشغب". يتم تمثيل الصحف التي نشأت العبارة في اللوحة اليمنى.

المكونات الأساسية المعممة للمقالات حول Black Lives Matter (BLM). نرى الأشخاص المشاركين في العمل المدني يتصفون ، حرفياً ومجازياً ، من اليسار إلى اليمين ، كمتظاهرين وفوضويين ، وفي أقصى يمين الطيف ، بـ "مثيري الشغب". يتم تمثيل الصحف التي نشأت العبارة في اللوحة اليمنى.

بينما ينتقل `` المحتجون '' من `` الفوضويين '' إلى `` المشاغبين '' بينما ننزلق على طول الموقف السياسي للمنفذ المعني ، تشير الورقة إلى أن موقف استخراج وتحليل البرمجة اللغوية العصبية يعوقه ممارسة `` جمع الجوزاء '' - حيث توجد وسيلة إعلامية سوف يقتبس عبارة تعتبر صالحة من قبل شريحة سياسية مختلفة من المجتمع ، ويمكن (على ما يبدو) الاعتماد على قرائها لعرض العبارة بشكل سلبي. تستشهد الصحيفة بـ "defund the Police" كمثال على ذلك.

بطبيعة الحال ، هذا يعني أن عبارة `` ذات ميول يسارية '' تظهر في سياق يميني بخلاف ذلك ، وتمثل تحديًا غير عادي لنظام البرمجة اللغوية العصبية الذي يعتمد على عبارات مقننة لتكون بمثابة دلالات للمواقف السياسية.

مثل هذه العبارات هي "ثنائية التكافؤ" [SIC] ، في حين أن بعض العبارات الأخرى لها دلالة سلبية عالمية (مثل "وأد الأطفال") بحيث يتم تمثيلها دائمًا على أنها سلبية عبر مجموعة من المنافذ.

يكشف البحث أيضًا عن تعيينات مماثلة لموضوعات "ساخنة" مثل الإجهاض والرقابة التكنولوجية والهجرة الأمريكية والسيطرة على الأسلحة.

هواية الخيول

هناك بعض الميول السياسية المثيرة للجدل في وسائل الإعلام التي لا تنقسم بشكل متوقع بهذه الطريقة ، مثل موضوع الإنفاق العسكري. ووجدت الصحيفة أن شبكة CNN "ذات الميول اليسارية" انتهى بها المطاف بجوار National Review ذات الميول اليمنى وفوكس نيوز حول هذا الموضوع.

بشكل عام ، ومع ذلك ، يمكن تحديد الموقف السياسي بعبارات أخرى ، مثل تفضيل عبارة "مجمع صناعي عسكري" على "صناعة دفاعية" ذات توجه يميني. تظهر النتائج أن السابق يتم استخدامه من قبل المنافذ الحرجة للمؤسسة مثل كناري و المحافظ الأمريكي، بينما يتم استخدام الأخير في كثير من الأحيان بواسطة Fox و CNN.

يؤسس البحث العديد من التطورات الأخرى من اللغة الحرجة للمؤسسة إلى اللغة المؤيدة للمؤسسة ، بما في ذلك السلسلة الكاملة من "القتل بالرصاص" إلى "قتل" الأكثر سلبية ؛ "مجرمي النزلاء" إلى "الأشخاص المسجونين" ؛ و "منتجي النفط" إلى "النفط الكبار".

مرادفات عيد الحب مع تحيز المؤسسة ، من الأعلى إلى الأسفل.

مرادفات عيد الحب مع تحيز المؤسسة ، من الأعلى إلى الأسفل.

يقر البحث أن المنافذ الإعلامية سوف "تتأرجح" عن موقفها السياسي الأساسي ، إما على المستوى اللغوي (مثل استخدام العبارات ثنائية التكافؤ) ، أو لدوافع أخرى مختلفة. على سبيل المثال ، المنشور اليميني الموقر في المملكة المتحدة والمشاهد، التي تأسست في عام 1828 ، تعرض بشكل متكرر وبشكل بارز قطع فكرية يسارية تتلاشى ضد التدفق السياسي العام لتيار محتواها. سواء تم ذلك بدافع الشعور بالحياد في التقارير أو لإثارة قرائها الأساسيين بشكل دوري في عواصف التعليقات المولدة لحركة المرور ، فهي مسألة تخمين - وليست حالة سهلة لنظام التعلم الآلي الذي يبحث عن رموز واضحة ومتسقة.

هذه "خيول الهواية" الخاصة والاستخدام الغامض لوجهات النظر "المتناقضة" بين المؤسسات الإخبارية الفردية يربك إلى حد ما رسم الخرائط بين اليسار واليمين الذي يقدمه البحث في النهاية ، على الرغم من أنه يقدم مؤشرًا واسعًا للانتماء السياسي.

الأهمية المحجوبة

على الرغم من تأريخها في الثاني من سبتمبر ونشرها في نهاية أغسطس 2 ، إلا أنها اكتسبت القليل من الزخم نسبيًا. قد يرجع ذلك جزئيًا إلى أن البحث النقدي الذي يستهدف وسائل الإعلام الرئيسية من غير المرجح أن يستقبله بحماس ؛ ولكن قد يرجع ذلك أيضًا إلى إحجام المؤلفين عن إنتاج رسوم بيانية واضحة لا لبس فيها مقسمة إلى طبقات حيث تقف المنشورات الإعلامية المؤثرة والقوية حول قضايا مختلفة ، جنبًا إلى جنب مع القيم المجمعة التي تشير إلى مدى ميل المنشور نحو اليسار أو اليمين. في الواقع ، يبدو أن المؤلفين يبذلون جهدًا لتخفيف التأثير الحارق المحتمل للنتائج.

وبالمثل ، فإن النطاق الواسع البيانات المنشورة من المشروع عدد مرات تكرار حوادث الكلمات ، ولكن يبدو أنه مجهول الهوية ، مما يجعل من الصعب الحصول على صورة واضحة للتحيز الإعلامي عبر المنشورات التي تمت دراستها. بدون تشغيل المشروع بطريقة ما ، فإن هذا يترك فقط الأمثلة المختارة المعروضة في الورقة.

من المحتمل أن تكون الدراسات اللاحقة من هذا النوع أكثر فائدة إذا كانت لا تنظر فقط في الصياغة المستخدمة في الموضوعات ، ولكن ما إذا كان قد تم تغطية الموضوع على الإطلاق ، نظرًا لأن الصمت يتحدث عن مجلدات، وله في حد ذاته طابع سياسي مميز يتحدث في كثير من الأحيان عن أكثر من مجرد قيود الميزانية أو عوامل براغماتية أخرى قد تساعد في اختيار الأخبار.

ومع ذلك ، يبدو أن دراسة معهد ماساتشوستس للتكنولوجيا هي الأكبر من نوعها حتى الآن ، ويمكن أن تشكل إطارًا لأنظمة التصنيف المستقبلية ، وحتى التقنيات الثانوية مثل المكونات الإضافية للمتصفح التي قد تنبه القراء العاديين إلى اللون السياسي للمنشور. يقرأ حاليا.

فقاعات وتحيز ونكسات

بالإضافة إلى ذلك ، يجب النظر في ما إذا كانت هذه الأنظمة ستزيد من تعقيد أحد أكثر الجوانب إثارة للجدل في أنظمة التوصية الخوارزمية - الميل إلى توجيه المشاهد إلى بيئات لا يرى فيها أبدًا وجهة نظر متناقضة أو صعبة ، وهو ما من المرجح أن يؤدي إلى تقليص موقف القارئ من القضايا الجوهرية.

أم لا مثل هذا فقاعة المحتوى هي "بيئة آمنة" ، أو عائقًا أمام النمو الفكري ، أو حماية ضد الدعاية الجزئية ، فهي حكم قيمي - وهي مسألة فلسفية يصعب التعامل معها من وجهة النظر الآلية والإحصائية لأنظمة التعلم الآلي.

علاوة على ذلك ، بقدر ما بذلت دراسة معهد ماساتشوستس للتكنولوجيا جهدًا للسماح للبيانات بتحديد النتائج ، فإن تصنيف القيمة السياسية للعبارات هو حتماً أيضًا نوع من الحكم على القيمة ، والذي لا يمكنه بسهولة تحمل قدرة اللغة على إعادة ترميز محتوى سام أو مثير للجدل في عبارات جديدة غير موجودة في الكتيب أو قواعد المنتدى أو قاعدة بيانات التدريب.

إذا أصبح التدوين من هذا النوع جزءًا لا يتجزأ من الأنظمة الشائعة عبر الإنترنت ، فمن المحتمل أن تتطور الجهود المستمرة لتحديد درجة الحرارة الأخلاقية والسياسية لمنافذ الأخبار الرئيسية إلى حرب باردة بين قدرة الذكاء الاصطناعي على تمييز التحيز وقدرة الناشرين على التعبير عن وجهة نظرهم في لغة متطورة مصممة بشكل روتيني لتفوق فهم التعلم الآلي للدلالات.


14/09/21 - 1.41 GMT + 2 - تم تغيير "100 صحيفة" إلى "100 منفذ إخباري"
4:58 مساءً - الاقتباس الورقي المصحح ليشمل Samantha D'Alonzo ، والتصحيحات ذات الصلة.