الذكاء الاصطناعي
نهج معالجة اللغة الطبيعية لاكتشاف المبالغة في الصحافة العلمية

قام باحثون من الدنمارك بتطوير نظام “كشف المبالغة” مصمم لتحديد آثار المبالغة في الصحافة عند تلخيص وتقديم الأبحاث العلمية الجديدة. وقد حُفز هذا العمل من خلال مدى تشوه الأبحاث المنشورة حديثًا حول كوفيد-19 في القنوات الإعلامية، على الرغم من أن المؤلفين يقرون بأنها قابلة للتطبيق على نطاق واسع في قطاع الصحافة العلمية العامة.
الورقة، التي تحمل عنوان كشف المبالغة شبه الإشراف في إعلانات الصحافة العلمية الصحية، تأتي من جامعة كوبنهاغن، وتشير إلى أن المشكلة تتفاقم بسبب趨势 المنشورات لعدم تضمين روابط مصدر إلى البحث الأصلي – ممارسة صحافية متزايدة تحاول استبدال الورقة الأصلية وتعويض التلخيص المعاد تقديمه كـ “معرفة مصدر” – حتى عندما تكون الورقة متاحة للجمهور.

من الورقة، مظهر نمطي للمبالغة في الأبحاث العلمية. مصدر: https://arxiv.org/pdf/2108.13493.pdf
المشكلة ليست مقتصرة على ردود الفعل الصحافية الخارجية على الأبحاث الجديدة، بل يمكن أن تمتد إلى أنواع أخرى من التلخيص، بما في ذلك الجهود الداخلية للعلاقات العامة في الجامعات والمؤسسات البحثية؛ المواد الترويجية الموجهة لجذب انتباه وسائل الإعلام؛ والروابط المرجعية المفيدة (والذخيرة المحتملة لجولات التمويل) التي تترافق معها عندما “تضرب” الصحفيون.
يعتمد العمل على معالجة اللغة الطبيعية (NLP) ضد مجموعة بيانات جديدة من إعلانات الصحافة والملخصات، وي 声称 الباحثون أنهم طوروا “صياغة مهمة جديدة أكثر واقعية” لاكتشاف المبالغة العلمية. وعد المؤلفون بنشر التعليمات البرمجية والبيانات للعمل على GitHub قريباً.
مكافحة الحساسية
تناولت العديد من الدراسات مشكلة الحساسية العلمية خلال الثلاثين سنة الماضية أو نحو ذلك، وأشارت إلى المعلومات الخاطئة التي قد يؤدي إليها ذلك. تناول عالم الاجتماع الأمريكي الراحل دوروثي نيلكين هذه القضية بشكل ملحوظ في كتاب بائع العلم عام 1987؛ وأبرز تقرير Embo لعام 2006 العلم السيئ في العناوين الحاجة إلى المزيد من الصحفيين المدربين علمياً، كما فعلت الإنترنت عندما أصبحت تفرض ضغوطاً مالية حرجة على وسائل الإعلام التقليدية.
بالإضافة إلى ذلك، في عام 2014، أبرزت المجلة الطبية البريطانية هذه المشكلة في تقرير؛ ودراسة عام 2019 من Wellcome Open Research حتى أثبتت أن المبالغة في الأبحاث العلمية لا تمنح أي فائدة (فيما يتعلق بالوصول أو Movement) لوسائل الإعلام والأنظمة الإخبارية الأخرى التي تمارس هذه الممارسة.
ومع ذلك، جلبت جائحة كوفيد التأثيرات السلبية لهذه المبالغة إلى焦点 حرج، مع مجموعة من منصات المعلومات، بما في ذلك صفحة نتائج بحث Google و Arxiv لجامعة كورنيل فهرس الأبحاث العلمية الآن إضافة تحذيرات تلقائية إلى أي محتوى يبدو أنه يتعامل مع كوفيد.

واجهات معدلة للبحث والمحتوى المتعلق بكوفيد، من صفحة نتائج بحث Google، ومن مخزن الأبحاث العلمية المؤثر في جامعة كورنيل Arxiv.
MT-PET
بدلاً من ذلك، يجمع البحث بين إعلان الصحافة والملخص ككيان بيانات مدمج، ويتعامل مع مجموعة البيانات الناتجة في MT-PET، وهو إصدار متعدد المهام من تدريب البحوث باستخدام الأنماط الذي تم تقديمه لأول مرة في عام 2020 كـ استغلال أسئلة Cloze للتصنيف النصي والاستدلال اللغوي الطبيعي، وهو جهد بحثي مشترك بين两个 مؤسسة بحثية ألمانية.
لم يجد أي مجموعة بيانات موجودة مناسبة للمهمة، ولذلك قام الفريق بتحضير مجموعة بيانات جديدة من الجمل المزدوجة من الملخصات وإعلانات الصحافة ذات الصلة، والتي تم تقييمها من قبل “الخبراء” من حيث ميلها إلى المبالغة.
استخدم الباحثون إطار التصنيف النصي القليل PETAL كجزء من خط أنابيب لتح动生成 أزواج النمط-الكلمة، ثم أعادوا التكرار من خلال البيانات حتى وجدوا ثلاثيات متساوية تقريباً لخصتين: كشف المبالغة وقياس القوة.
استخدم الباحثون بيانات “الذهب” للاختبار من المشاريع البحثية السابقة، والتي تتكون من 823 زوجاً من الملخصات وإعلانات الصحافة. رفض الباحثون استخدام بيانات BMJ لعام 2014، لأنها تم تحريفها.
هذا العملية حصلت على مجموعة بيانات من 663 زوجاً من الملخصات وإعلانات الصحافة تم تصنيفها على أنها مبالغة وقياس القوة. قام الباحثون بعينة عشوائية من 100 منهم كبيانات تدريب لتعلم القليل، مع 553 مثال محجوزة للاختبار. بالإضافة إلى ذلك، تم إنشاء مجموعة تدريب صغيرة تتكون من 1138 جملة، تم تصنيفها على أنها تمثل الجملة الرئيسية للتلخيص أو إعلان الصحافة. تم استخدام هذه الجمل لتحديد “جمل الاستنتاج” في الأزواج غير المسمى.
الاختبار
اختبر الباحثون النهج في ثلاثة تكوينات: إعداد خاضع للإشراف الكامل مع بيانات مسماة حصرياً؛ سيناريو PET 单؛ وعلى MT-PET الجديد، الذي يضيف خيطًا ثانويًا كمهمة مساعدة (منذ هدف المشروع هو فحص两个 نوعين منفصلين من البيانات من مجموعة بيانات مزدوجة).
وجد الباحثون أن MT-PET تحسن على نتائج PET الأساسية عبر بيئات الاختبار، ووجدوا أن تحديد قوة المطالبة يساعد في إنتاج بيانات تدريب مسماة لاكتشاف المبالغة. ومع ذلك، تشير الورقة إلى أن وجود بيانات مسماة محترفًا قد يكون عاملاً في تحسين النتائج (مقارنة بالمشاريع البحثية السابقة التي تناولت هذه المشكلة). قد يكون لهذا عواقب على مدى تلقائية خط أنابيب العمل.
مع ذلك، يخلص الباحثون إلى أن MT-PET يساعد في الحالات الأكثر صعوبة في تحديد الفرق بين المطالبات المباشرة والضعيفة، وأن النهج الأكثر أداءً يتضمن تصنيف ومقارنة قوة المطالبة الفردية للبيانات من الوثائق المصدر والهدف.
في الختام، يتحدث العمل عن أن MT-PET يمكن تطبيقه не فقط على نطاق أوسع من الأبحاث العلمية (خارج قطاع الصحة)، ولكن يمكن أن يشكل أساسًا لأدوات جديدة لمساعدة الصحفيين على إنتاج تصورات أفضل للأبحاث العلمية (على الرغم من أن هذا قد يفترض أن الصحفيين يبالغون في قوة المطالبة من خلال الجهل)، بالإضافة إلى مساعدة المجتمع البحثي في صياغة لغة أوضح لشرح الأفكار المعقدة. يلاحظ الورقة:
يجب ملاحظة أن أداء التنبؤ المبلغ عنه في هذه الورقة هو لإعلانات الصحافة مكتوبة من قبل صحفيي العلوم – يمكن توقع نتائج أسوأ لإعلانات الصحافة التي تبسط المقالة العلمية بشكل أكبر.












