الذكاء الاصطناعي
جهاز الكشف عن التحيز المدفوع بالذكاء الاصطناعي للتقارير الإخبارية، متاح في بايثون

قام باحثون في كندا والهند والصين وأستراليا بالتعاون لإنتاج حزمة بايثون متاحة مجانًا يمكن استخدامها بشكل فعال لتحديد واستبدال “اللغة غير العادلة” في النسخ الإخبارية.
النظام، الذي يحمل عنوان Dbias، يستخدم تقنيات وتخزينًا متعددين للتعلم الآلي لتطوير تدفق دائري من ثلاث مراحل يمكن أن يرقق النص المتحيز حتى يعود بنسخة غير متحيزة أو على الأقل أكثر محايدة.

لغة محملة في مقتطف إخباري تم تحديدها على أنها “متحيزة” يتم تحويلها إلى نسخة أقل إشكالية بواسطة Dbias. مصدر: https://arxiv.org/ftp/arxiv/papers/2207/2207.03938.pdf
النظام يمثل трубة قابلة لإعادة الاستخدام ومحتوى ذاتي يمكن تثبيته عبر Pip من Hugging Face، ودمجه في المشاريع الحالية كمرحلة إضافية أو إضافة أو مكون إضافي.
في أبريل، تم انتقاد وظيفة مماثلة تم تنفيذها في Google Docs جاءت تحت الانتقاد، ليس أقلها لعدم وجود تحرير. من ناحية أخرى، يمكن تدريب Dbias بشكل أكثر تحديدًا على أي مجموعة من المقالات الإخبارية التي يرغب المستخدم النهائي في ذلك، مع الحفاظ على القدرة على تطوير إرشادات عادلة مخصصة.
الفرق الحاسم هو أن трубة Dbias旨 في تحويل “اللغة المحملة” (الكلمات التي تضيف طبقة حرجة إلى الاتصالات الواقعية) إلى لغة محايدة أو غير ملحوظة، بدلاً من تعليم المستخدم على أساس مستمر. بشكل أساسي، سيحدد المستخدم النهائي مرشحات أخلاقية ويدرب النظام وفقًا لذلك؛ في نهج Google Docs، النظام يُدرّب المستخدم – على ما يُزعم – بطريقة أحادية.

هندسة مفاهيمية لتدفق Dbias.
وفقًا للباحثين، Dbias هو أول حزمة قابلة للتكوين للكشف عن التحيز، على عكس مشاريع التجميع الجاهزة التي تميز هذا الجزء الفرعي من معالجة اللغة الطبيعية (NLP) حتى الآن.
الورقة الجديدة الورقة الجديدة بعنوان نهج لضمان العدالة في المقالات الإخبارية، وتنبع من مساهمين في جامعة تورونتو، جامعة تورونتو ميتروبوليتان، إدارة الموارد البيئية في بنغالور، أكاديمية ديب بلو للعلوم في الصين، وجامعة سيدني.
الطريقة
الوحدة الأولى في Dbias هي كشف التحيز، التي تستخدم حزمة DistilBERT – نسخة محسنة للغاية من BERT من جوجل. في المشروع، تم تحسين DistilBERT على مجموعة بيانات MBIC.

MBIC يتكون من مقالات إخبارية من مصادر إخبارية متعددة، بما في ذلك The Huffington Post وUSA Today وMSNBC. استخدم الباحثون الإصدار الموسع من مجموعة البيانات.
على الرغم من أن البيانات الأصلية تم تعليمها بواسطة عمال المجموعة (طريقة تعرضت لنقد في أواخر عام 2021)، كان الباحثون في الورقة الجديدة قادرين على تحديد حالات إضافية غير محددة من التحيز في مجموعة البيانات، وتمت إضافتها يدوياً. الحالات المتحيزة المتعلقة بالعرق والتعليم والجنسية واللغة والدين والجنس.
الوحدة التالية، تحديد التحيز، تستخدم تحديد الكيانات المسمى (NER) لتحديد الكلمات المتحيزة من النص الإدخال. تنص الورقة على:
‘على سبيل المثال، تم تصنيف الخبر “لا تشترِ الدعاية الكاذبة حول الإعصار وتغير المناخ” على أنه متحيز بواسطة وحدة كشف التحيز السابقة، ويمكن لوحدة تحديد التحيز الآن تحديد مصطلح “الدعاية الكاذبة” على أنه كلمة متحيزة.’
NER لم يتم تصميمه خصيصًا لهذه المهمة، ولكن تم استخدامه من قبل للتحيز في تحديد الهوية، ولا سيما لمشروع 2021 من جامعة دورهام في المملكة المتحدة.
للمرحلة هذه، استخدم الباحثون RoBERTa مع трубة SpaCy الإنجليزية NER.

المرحلة التالية، تمويه التحيز، تتضمن تمويه متعدد للكلمات المتحيزة المحددة، والتي تعمل بشكل متسلسل في حالات الكلمات المتحيزة المتعددة.

تُستبدل اللغة المحملة بلغة عملية في المرحلة الثالثة من Dbias. لاحظ أن ‘التحدث’ و ‘استخدام’ يعادلان نفس الإجراء، على الرغم من أن الأول يُعتبر ازدرائيًا.
عند الضرورة، سيتم إرسال ملاحظات هذه المرحلة إلى بداية трубة Dbias من أجل تقييم إضافي حتى يتم توليد عدد كافٍ من العبارات أو الكلمات البديلة.
هذه المرحلة تستخدم نمذجة اللغة المقنعة (MLM) على طول الخطوط التي حددتها تعاون 2021 بقيادة Facebook Research.
عادةً ما تستخدم مهمة MLM تغطية 15٪ من الكلمات بشكل عشوائي، ولكن трубة Dbias تقول للعملية أن تأخذ الكلمات المتحيزة المحددة كمدخلات.
تم تنفيذ الهيكل وتدريبه على Google Colab Pro على NVIDIA P100 مع 24GB من VRAM وبحجم.batch من 16، باستخدام فقط两个 علامة (متحيز و غير متحيز).
الاختبارات
قارن الباحثون Dbias بخمسة نهجيات قابلة للمقارنة: LG-TFIDF مع الانحدار اللوجستي و TfidfVectorizer (TFIDF) تعبئة الكلمات؛ LG-ELMO؛ MLP-ELMO (شبكة عصبونية اصطناعية ذات اتجاه واحد تحتوي على تعبئة ELMO)؛ BERT؛ و RoBERTa.
الأدوات المستخدمة للاختبارات كانت الدقة (ACC)، الدقة (PREC)، الاستدعاء (Rec) ودرجة F1. نظرًا لأن الباحثين لم يكن لديهم معرفة بأي نظام موجود يمكنه إنجاز المهمات الثلاث في трубة واحدة، تم تقديم الراحة للطرق المنافسة، من خلال تقييم مهمات Dbias الأساسية فقط – كشف التحيز وتحديده.

نتائج تجارب Dbias.
نجح Dbias في تجاوز النتائج من جميع الإطارات المنافسة، بما في ذلك تلك ذات بصمة المعالجة الأثقل.
تنص الورقة على:
‘النتيجة تُظهر أيضًا أن التضمين العصبي العميق يمكن أن يتفوق على أساليب التضمين التقليدية (مثل TFIDF) في مهمة تصنيف التحيز. هذا موضح من الأداء الأفضل لتضمين الشبكات العصبية العميقة (أي ELMO) مقارنة بتضمين TFIDF عند استخدامه مع LG. ‘
‘هذا ربما بسبب قدرة التضمين العصبي العميق على التقاط سياق الكلمات في النص في سياقات مختلفة. التضمين العصبي العميق والأساليب العصبية العميقة (MLP و BERT و RoBERTa) تؤدي أيضًا بشكل أفضل من الطرق التقليدية للتعلم الآلي (LG).’
يلاحظ الباحثون أيضًا أن الأساليب القائمة على Transformer تتفوق على الأساليب المنافسة في كشف التحيز.
شمل الاختبار الإضافي مقارنة بين Dbias وتنويعات مختلفة من SpaCy Core Web، بما في ذلك core-sm (صغير)، core-md (متوسط)، و core-lg (كبير). تمكنت Dbias من قيادة اللوحة أيضًا في هذه التجارب:

يخلص الباحثون إلى أن مهام تحديد التحيز عمومًا تُظهر دقة أفضل في النماذج الأكبر والأكثر تكلفة، بسبب – على ما يُزعم – زيادة عدد المعاملات والنقاط البيانية. كما يلاحظون أن فعالية الأعمال المستقبلية في هذا المجال ستعتمد على جهود أكبر لتعليم مجموعات بيانات عالية الجودة.
الغابة والأشجار
نأمل أن يتم في النهاية دمج هذا النوع من مشاريع تحديد التحيز الدقيق في إطارات بحث التحيز القادرة على採 視ة أقل توجهاً، ومراعاة أن اختيار تغطية أي قصة معينة هو في حد ذاته فعل متحيز قد يكون مدفوعًا بأكثر من مجرد إحصاءات المشاهدة المُبلَغ عنها.
نُشر لأول مرة في 14 يوليو 2022.












