زاوية Anderson
نهج معالجة اللغة الطبيعية للكشف عن المبالغة في الصحافة العلمية

قام باحثون من الدنمارك بتطوير نظام “كشف المبالغة” مصمم لتحسين آثار المبالغة في الإبلاغ عن أبحاث علمية جديدة في الصحف. وقد تم إطلاق هذا العمل بسبب مدى تشويه الإبلاغ عن الأبحاث الجديدة حول كوفيد-19 في القنوات الإعلامية،尽管 يعترف المؤلفون بأن هذا النظام يمكن تطبيقه على نطاق واسع في قطاع الإبلاغ العلمي العام.
الورقة، التي تحمل عنوان كشف المبالغة شبه الإشرافي لبيانات الصحافة الصحية، تنشأ من جامعة كوبنهاغن، وتشير إلى أن المشكلة تتفاقم بسبب عدم وجود روابط مصدر إلى الأبحاث الأصلية – ممارسة صحفية شائعة تحاول استبدال الورقة الأصلية bằng ملخص إعادة الإبلاغ كـ “معرفة مصدر” – حتى عندما تكون الورقة متاحة للجمهور.

من الورقة، مظهر نمطي للمبالغة في الأوراق العلمية. مصدر: https://arxiv.org/pdf/2108.13493.pdf
المشكلة لا تقتصر على ردود الأفعال الصحفية الخارجية على الأوراق الجديدة، بل يمكن أن تمتد إلى أنواع أخرى من الملخصات، بما في ذلك الجهود الداخلية للعلاقات العامة في الجامعات والمؤسسات البحثية؛ المواد الترويجية الموجهة لجذب انتباه وسائل الإعلام؛ والروابط المرجعية المفيدة (والذخيرة المحتملة لجولات التمويل) التي تتبع عندما “يلتقط” الصحفيون.
يعتمد العمل على معالجة اللغة الطبيعية (NLP) ضد مجموعة بيانات جديدة من بيانات الصحافة والملخصات، ويزعم الباحثون أنهم طوروا “صياغة مهمة جديدة، أكثر واقعية” لاكتشاف المبالغة العلمية. وعد المؤلفون بنشر الشفرة والبيانات للعمل على جيت هاب قريبا.
مكافحة الحساسية
تناولت العديد من الدراسات مشكلة الحساسية العلمية خلال الثلاثين سنة الماضية أو أكثر، وأشارت إلى المعلومات الخاطئة التي يمكن أن تؤدي إليها. وقد تناولت عالمة الاجتماع الأمريكية الراحلة دوروثي نيلكين هذه القضية بشكل ملحوظ في كتاب بيع العلوم عام 1987؛ وتحديدًا في تقرير العلم السيئ في العناوين عام 2006، الذي أشار إلى الحاجة إلى صحفيين مدربين علميًا، كما كان الإنترنت يفرض ضغوطات مالية حرجة على وسائل الإعلام التقليدية.
بالإضافة إلى ذلك، في عام 2014، أبرزت المجلة الطبية البريطانية هذه المشكلة في تقرير؛ ودراسة عام 2019 من Wellcome Open Research أظهرت أن المبالغة في الأوراق العلمية لا توفر أي فائدة (فيما يتعلق بالوصول أو Movement) لوسائل الإعلام والأنظمة الإعلامية الأخرى التي تمارس هذه الممارسة.
然而، أدت جائحة كوفيد-19 إلى تسليط الضوء على الآثار السلبية لهذه المبالغة، مع مجموعة من منصات المعلومات، بما في ذلك صفحة نتائج بحث جوجل وملف أركسيف لجامعة كورنيل لملفات الأبحاث العلمية، الآن يضيفون تحذيرات تلقائية إلى أي محتوى يبدو أنه يتعلق بكوفيد.

واجهات معدلة للبحث والconteent المتعلقة بكوفيد، من صفحة نتائج بحث جوجل ومشروع أركسيف لملفات الأبحاث العلمية في جامعة كورنيل.
حاولت مشاريع سابقة إنشاء أنظمة كشف المبالغة للأوراق العلمية باستخدام معالجة اللغة الطبيعية، بما في ذلك تعاون بين باحثين من هونغ كونغ والصين، ودراسة أخرى (غير مرتبطة) في الدنمارك في عام 2017.
يشير باحثو الورقة الجديدة إلى أن هذه الجهود السابقة طوروا مجموعات بيانات من المطالبات من الملخصات والملخصات من PubMed وEurekAlert، مصنفة حسب “القوة”، واستخدموها لتدريب نماذج التعلم الآلي لتنبؤ بـ قوة المطالبة في بيانات غير مرئية.
MT-PET
بدلاً من ذلك، يجمع البحث الجديد بين إعلان صحفي وملخص ككيان بيانات مدمج، ويستغل مجموعة البيانات الناتجة في MT-PET، وهو إصدار متعدد المهام من تدريب النمط الذي تم تقديمه لأول مرة في عام 2020 كـ استغلال أسئلة Cloze لتصنيف النص والاستدلال اللغوي الطبيعي، وهو جهد بحثي مشترك بين مؤسستين بحثيتين ألمانيتين.
لم يجد أي مجموعة بيانات موجودة مناسبة للمهمة، ولذلك قام الفريق بإنشاء مجموعة بيانات جديدة من الجمل المزدوجة من الملخصات والبيانات الصحفية، والتي تم تقييمها من قبل “الخبراء” من حيث ميلها إلى المبالغة.
استخدم الباحثون إطار تصنيف النص القليل PETAL كجزء من خط أنابيب لإنشاء أزواج نمط-كلمات لفظية تلقائيًا، ثم أعادوا التكرار من خلال البيانات حتى وجدوا ثلاثيات متساوية تقريبًا لصفتين: كشف المبالغة وطول المطالبة.
استخدم الباحثون بيانات “الذهب” للاختبار من المشاريع البحثية السابقة، والتي تتكون من 823 زوجًا من الملخصات والبيانات الصحفية. رفضوا استخدام بيانات BMJ 2014، لأنها محرفة.
حصل هذا العملية على مجموعة بيانات من 663 زوجًا من الملخصات والبيانات الصحفية مصنفة حسب المبالغة وطول المطالبة. قام الباحثون بتحديد 100 منها بشكل عشوائي كبيانات تدريب لتعلم القليل، مع 553 مثالًا محجوزًا للاختبار. بالإضافة إلى ذلك، تم إنشاء مجموعة بيانات صغيرة تتكون من 1138 جملة، مصنفة حسب ما إذا كانت تمثل الاستنتاج الرئيسي للملخص أو البيان الصحفي. تم استخدام هذه لتحديد “جمل الاستنتاج” في الأزواج غير الموجودة.
الاختبار
اختبر الباحثون النهج في ثلاثة تكوينات: إعداد خاضع للإشراف الكامل مع بيانات مصنفة حصريًا؛ سيناريو PET وحيد؛ وعلى MT-PET الجديد، الذي يضيف خيط صياغة ثانوي كمهام مساعدة (منذ هدف المشروع هو فحص两个 جودة منفصلة من مجموعة بيانات ذات بيانات مزدوجة).
وجد الباحثون أن MT-PET تحسن على نتائج PET الأساسية عبر بيئات الاختبار، ووجدوا أن تحديد طول المطالبة ساعد في إنتاج بيانات تدريب مصنفة لاكتشاف المبالغة. ومع ذلك، تشير الورقة إلى أن وجود بيانات مصنفة احترافيًا قد يكون عاملاً في تحسين النتائج (مقارنة بالمشاريع البحثية السابقة التي تناولت هذه المشكلة). قد يكون هذا له آثار على مدى تطبيق خط أنابيب آلي.
على أي حال، يخلص الباحثون إلى أن MT-PET يساعد في الحالات الأكثر صعوبة في تحديد الفرق بين المطالبات المباشرة والضعيفة، وأن النهج الأكثر أداءً يتضمن تصنيف ومقارنة طول المطالبة الفردي للبيانات من الوثائق المصدر والهدف.
في الختام، يتكهن العمل بأن MT-PET قد لا يتم تطبيقه فقط على مجموعة أوسع من الأوراق العلمية (خارج قطاع الصحة)، بل قد يشكل أساسًا لأدوات جديدة لمساعدة الصحفيين في إنتاج ملخصات أفضل للأوراق العلمية (على الرغم من أن هذا يفترض، ربما ببراءة، أن الصحفيين يبالغون في طول المطالبة بسبب الجهل)، وكذلك مساعدة المجتمع البحثي في صياغة لغة أوضح لشرح الأفكار المعقدة. بالإضافة إلى ذلك، تشير الورقة إلى:
يجب ملاحظة أن نتائج الأداء التنبؤي المبلغ عنها في هذه الورقة هي لبيانات الصحافة مكتوبة من قبل صحفيي العلوم – يمكن توقع نتائج أسوأ لبيانات الصحافة التي تبسط الأوراق العلمية بشكل أقوى.












