زاوية أندرسون
أخبار: الذكاء الاصطناعي يساعد في تحديد "الوحل الوردي"

قد يصعب رصد منصات الرأي العام ذات الأجندات الخاصة، المصممة للتأثير على الرأي العام أكثر من خدمته، إذا ما استُخدم الذكاء الاصطناعي لجعلها تبدو أكثر أصالة وعقلانية. لذا، فالسباق محتدم للبقاء في الصدارة في لعبة كشف هذه المنصات.
إن تقليص تمويل وسائل الإعلام المحلية التقليدية على مدى العشرين عامًا الماضية، سواء بسبب تطور اتجاهات الإعلام أو - مؤخرًا - إلى سياسة الحكومة الأمريكية، وقد ترك باطل في مجال التغطية الإقليمية التي تم الاستحواذ عليها بحماس من قبل الحزبية المنظمات استخدام الذكاء الاصطناعي لتحقيق أجنداتهم.
لوضع مصطلح "الحزبي" في سياقه الصحيح (مع الأخذ في الاعتبار أن جميع المؤسسات الإخبارية لا تخلو من ميول سياسية من نوع ما)، فإننا نتحدث عن شركات النفط التي تدير مواقع إخبارية إقليمية من مواقع بعيدة، دون أي موارد محلية حقيقية، ولكن مع تفويض للدفاع عن سمعة الشركة العامة؛ مواقع إخبارية ذات دوافع سياسية محروم من أي مصدر دخل الاستعداد قبل الانتخابات؛ وكذلك شبكات كاملة من المواقع الإخبارية المؤيدة للحزب الجمهوري يظهر من العدم، قبيل موعد الاقتراع.
في عام 2024، تشير التقديرات إلى أن الأخبار المتعلقة بالوحل الوردي المدعومة بالذكاء الاصطناعي قد وأخيراً أصبحوا يفوقون عدداً وسائل الإعلام الإخبارية الموثوقة؛ في ذلك الوقت، وجدت دراسة استقصائية أسترالية أن 41% من المستهلكين المفضل مصادر الوحل الوردي بدلاً من المصادر "الحقيقية".
يمكن القول إن هذا النوع من الحملات الانتخابية السرية قد تطور من مجرد فن غامض إلى التهديد الوجودي إلى الديمقراطية (فيما يتعلق بالوسائل الإعلامية ذات الدوافع السياسية) وإلى ثقة الجمهور في معايير معقولة من الإنصاف في التغطية الإعلامية.
لذلك، فإن طرق التمييز بين المخرجات المميزة لناشري ومذيعي المحتوى المثير للجدل وبين المؤسسات الإعلامية التقليدية ستكون ذات فائدة كبيرة على الأقل في فهم من هم اللاعبون والقوى الدافعة في المناخ المعلوماتي الحالي.
في الوضع الراهن، يسهل تقليد الأساليب والقوالب المستخدمة في المؤسسات الإخبارية الحقيقية، كما أن الذكاء الاصطناعي يجعل النشر القابل للتوسع حقيقة واقعة وميسورة التكلفة، باستخدام العديد من الحيل نفسها. يتم تبنيها من قبل ناشري ومحطات البث "التقليدية" التي تعاني من ضائقة مالية.
الإشارة والضوضاء
تتناول دراسة جديدة من الولايات المتحدة هذه القضية، من خلال التحقيق في الاستخدام المتزايد لنماذج اللغة الكبيرة لجعل مواقع الويب الخاصة بالوحل الوردي تبدو أقل عمومية وأسهل في اكتشافها، ومن خلال إنشاء إطار عمل تعليمي مصمم لمواكبة التغييرات المتطورة في مخرجات الوحل الوردي (PS).
بعنوان كشف صحافة التشويه الوردي: البصمات اللغوية والكشف القوي عن التهديدات التي تولدها برامج التسويق عبر الإنترنتأطلقت حملة عمل جديد هذا البحث صادر عن خمسة باحثين في جامعة تكساس.
يبحث العمل الجديد في كيفية اختلاف مقالات الأخبار المحلية التي تنتجها وسائل الإعلام العامة بكميات كبيرة عن التقارير المشروعة، مع التركيز على اعتمادها على هياكل قصيرة ومتكررة وصياغة نمطية مع حد أدنى من التباين؛ ويشير المؤلفون إلى أن مقالات وسائل الإعلام العامة تميل إلى إعادة استخدام قوالب متطابقة مصممة للتأثير على الرأي العام، مع وضع مناشدات العاطفة في مقدمة المحتوى:

بحسب الصحيفة الجديدة، تنشر منافذ إعلامية متعددة مقالات متطابقة تقريباً مع تغيير تفاصيل الموقع فقط، مما يكشف عن استراتيجية نسخ ولصق تُستخدم لإنتاج محتوى بكميات كبيرة يحاكي الأخبار المحلية المشروعة. مصدر
تؤدي نماذج الكشف التقليدية المدربة على هذه السمات أداءً جيدًا ضد هذا النوع من المحتوى، لكنها تفشل عندما تتم إعادة كتابة المقالات باستخدام روبوتات الدردشة التي تعمل بالذكاء الاصطناعي لتبدو أكثر طبيعية أو تطورًا.
تشير اختبارات المؤلفين أنفسهم إلى أن حتى التغييرات الأسلوبية الطفيفة التي تُدخلها نماذج اللغة الكبيرة يمكن أن تقلل من دقة الكشف بنسبة تصل إلى 40%. وللتخفيف من ذلك، يقترحون التعلم المستمر إطار عمل يقوم بإعادة تدريب نماذج الكشف تدريجياً على كل من المقالات الأصلية والمقالات المعاد كتابتها بواسطة الذكاء الاصطناعي، للتكيف مع الأنماط اللغوية المتغيرة.
الأسلوب
ولجمع البيانات اللازمة للمشروع، استخدم المؤلفون مجموعة بيانات السلايم الوردي، والتي تضم 7.9 مليون مقال تغطي 1,093 منفذًا خلال الفترة 2021-2023، حصلوا منها على 9,472 مقالًا عن "الوحل الوردي" بعد الفرز. كما استخدموا أيضًا مجموعة بيانات LIARوالذي يحتوي على أخبار مزيفة مشروحة، بالإضافة إلى NELA-GT-2021 مجموعة تحتوي على مقالات أمريكية فقط*.
ولإعداد مجموعات التدريب والاختبار، استخدم المؤلفون أولاً طريقة تضمين الجوار العشوائي الموزع T (تي SNEخوارزمية لتقليل حجم المقالة التضمين إلى بعدين. ثم قاموا بتطبيق خوارزمية تجميع البيانات Density-Based-Spatial-Clustering-of-Applications-with-Noise (DBSCAN) لعزل مجموعات من المقالات المتشابهة المتعلقة بالوحل الوردي.
تم التعامل مع كل مجموعة على أنها مجموعة من القصص ذات الصلة، والتي لا يزال العديد منها يتبع نفس النمط، على الرغم من الجهود المتضافرة لمعالجة التكرارات.
لمنع ظهور مقالات مماثلة في كل من التدريب و مجموعات الاختبارتم اختيار مجموعات كاملة عشوائيًا، حيث استُخدم 80% منها للتدريب و20% للاختبار. ولأن المقالات الإخبارية الموثوقة لم تُشكّل مجموعات واضحة، فقد انقسام عشوائي تم تطبيق ذلك بدلاً من ذلك.
تكررت هذه العملية ثلاث مرات لضمان الاتساق، ولتقليل أخذ العينات التحيز.
خصائص السلايم الوردي
وفي معرض تعليقهم على السمات المميزة للصحافة الاستقصائية مقابل الأخبار العادية، يؤكد الباحثون أن المقالات الإخبارية المحلية التي تُنشر بأسلوب الصحافة الاستقصائية أقصر وأبسط بكثير من التقارير الرسمية، حيث يبلغ متوسط طولها أقل من تسع جمل لكل مقال.
ووفقًا للورقة البحثية، فإن ارتفاع نسبة الجمل البسيطة والاعتماد الأكبر على الصفات من السمات المميزة الأخرى لـ "الوحل الوردي"، ويشير إلى ميل إلى اللغة المتكررة والمحملة عاطفيًا.
ثراء معجمي تم قياسها باستخدام نسبة الجذر إلى النوع إلى الرمز المميز (رتر)، ووجد أنها أقل بشكل ملحوظ في مقالات PS، والتي أظهرت أيضًا عددًا أقل بكثير من العبارات الاسمية الفريدة.
تدل هذه الأنماط على محدودية المفردات والأسلوب النمطي، على عكس الأخبار المحلية الموثوقة، التي تتميز بأنماط معقدة من أجزاء الكلام مبنية على الأفعال المساعدة والضمائر وحروف العطف. في المقابل، تفضل المقالات المزيفة تراكيب الأسماء وحروف الجر الأساسية، مع استخدام متكرر لعلامات الترقيم. التريغراماتمما يوحي بأسلوب كتابة أقل رسمية وأكثر تجزؤاً.
اختبارات
لفحص العلاقات بين أنواع مختلفة من المقالات الإخبارية، بناءً على السمات اللغوية والبنيوية، تم إنشاء تمثيلات مضمنة باستخدام معلمات 435 مليون stella_en_400M_v5 النموذج، وتم تقليله باستخدام تحليل المكونات الرئيسية (PCA)، و t-SNE للتصوير.
عند إسقاطها على بعدين، شكلت مقالات الأخبار المحلية المزيفة مجموعات صغيرة وكثيفة، كل منها يتوافق مع مواضيع محددة بدقة مثل إحصاءات الجريمة، أو تحديثات سوق الأسهم، أو التبرعات الخيرية:

تكشف أنماط التجميع من إسقاط t-SNE أن مقالات "الوحل الوردي" تشكل مجموعات متماسكة ومتكررة، بينما تعرض الأخبار المشروعة توزيعات أوسع وأكثر تنوعًا تتماشى مع تنوع الموضوع والأسلوب.
كما نرى إلى حد ما في التصور أعلاه، يشير هذا النمط إلى تنسيق جامد يعتمد على القوالب، مع حد أدنى من الاختلاف بين المقالات.
ومن المثير للاهتمام أن المقالات المصنفة على أنها "أخبار كاذبة" اختلفت عن المحتوى المحلي الكاذب، مما أظهر توزيعًا أكثر انسجامًا مع حقيقي تشير الأخبار إلى أن المنتجات المحلية المزيفة المنتجة بكميات كبيرة قد لا تكون أقل صدقاً فحسب، بل قد تكون أيضاً مختلفة ميكانيكياً في الشكل والتركيب.
وعلى النقيض من ذلك، تشكل الأخبار المحلية "الشرعية" مجموعات أقل وأكثر تباعداً، بما يتوافق مع لغة وموضوعات أكثر تنوعاً، في حين أن المقالات الإخبارية الوطنية تظهر تشتتاً أكبر، مما يعكس نطاقاً موضوعياً أوسع واتساقاً أسلوبياً أقل اتساقاً.

مقارنة بين الأخبار المحلية المشروعة ومحتوى "الوحل الوردي"، مما يشير إلى أن مقالات "الوحل الوردي" أقصر، وتستخدم هياكل جمل أبسط، وتحتوي على المزيد من الصفات، وتظهر ثراءً معجميًا أقل، وتفضل ثلاثيات أجزاء الكلام الأساسية، وتحتوي على عدد أقل من العبارات الاسمية الفريدة.
كشف
قام الباحثون بتقييم نهجين رئيسيين للكشف عن محتوى المادة اللزجة الوردية: تصنيف، استنادًا إلى اللغة المصنوعة يدويًا ملامح، و محولومقرها الكون المثالى.
بالنسبة للنهج اليدوي، تم التركيز على الخصائص الهيكلية بدلاً من الخصائص الدلالية، باستخدام عدد الجمل؛ والثراء المعجمي؛ والعمق النحوي؛ واحتمالات التواجد المشترك لأجزاء الكلام؛ واحتمالات التواجد المشترك لعلامات التبعية؛ وسهولة القراءة؛ وعدد أجزاء الكلام.
تم اختبار ثلاثة نماذج على مجموعة الميزات هذه: XGBoost; غابة عشوائية، و دعم شاحنات النقل (SVM) – مع إظهار الغابة العشوائية نتائج أقوى قليلاً بشكل عام.
أولى كل من XGBoost و Random Forest أهمية تنبؤية عالية لخصائص مثل عدد الجمل وعدد العبارات الاسمية الفريدة. كما أثرت مقاييس سهولة القراءة والثراء المعجمي بشكل كبير على التصنيف، على الرغم من اختلاف وزن النماذج لهذه الخصائص، حيث فضل XGBoost مقياس Flesch و RTTR، بينما اعتمد Random Forest على مقياس CTTR.

تُبرز درجات أهمية الميزات المستندة إلى SHAP (تفسيرات SHapley الإضافية) كيفية تأثير كل ميزة من ميزات الإدخال على مخرجات النموذج عبر العينات. في هذه الحالة، تكشف قيم SHAP أن كلاً من XGBoost وRandom Forest اعتمدا بشكل أساسي على عدد الجمل والعبارات الاسمية الفريدة للتمييز بين "الوحل الوردي" والأخبار الحقيقية، مع إعطاء أوزان متفاوتة لمقاييس الثراء المعجمي وسهولة القراءة.
كما رأينا في مقارنات الميزات السابقة (أعلاه)، فإن مقالات "الوحل الوردي" تفضل الإثارة على التفاصيل، مع ثراء معجمي أقل، وعدد أقل من العبارات الاسمية المميزة - مما يعزز الاستنتاج بأن هذا النوع من المحتوى يعتمد بشكل كبير على القوالب والتكرار.
تؤكد أنماط ثلاثيات أجزاء الكلام أن الأخبار المحلية الموثوقة تميل إلى استخدام صيغ أكثر تعقيدًا من الناحية التركيبية، تشمل الأفعال المساعدة والضمائر وحروف العطف، بينما يفضل المحتوى المبتذل أو المختصر تركيبًا نحويًا مجزأً. تشير هذه الأنماط إلى أساس موثوق للتمييز بين المحتوى المحلي المصطنع والصحافة الحقيقية.
تضمنت الجولة الثانية من الاختبارات ضبط نماذج المحولات على نص المقالة الكامل، لالتقاط كل من المحتوى الدلالي والبنية النحوية.
بيرت, XLNetو فلان- T5 تم اختبارها، وحقق نموذج BERT أعلى مستوى. درجة F1 بنسبة 89.31%، على الرغم من أن الورقة البحثية تشير إلى أن اختلافات الأداء لم تكن ذات دلالة إحصائية. وعلى عكس المصنفات المصممة يدويًا، تقوم هذه النماذج بتحديث جميع الأوزان أثناء التدريب، مما يسمح لهم بتعلم تمثيلات خاصة بالمهمة مباشرة من البيانات.
استخدمت طريقة إضافية تعتمد على التضمين متصل بالكامل أظهر المصنف النهائي أداءً أفضل من النماذج المصممة يدويًا، لكنه لم يصل إلى دقة الضبط الدقيق الكامل.
استفادت هذه المناهج من سياق لغوي أوسع، وهو أمر مفيد، نظرًا لأن مقالات "اللحم الوردي" غالبًا ما تعيد استخدام المحتوى عبر مختلف المنافذ الإعلامية. في المقابل، تعتمد المقالات المصممة يدويًا على قواعد نحوية سطحية فقط، مما يحد من قدرتها على التعميم عبر المصادر.
تعزيز السلايم الوردي باستخدام LLMs
لاختبار إمكانية جعل المقالات المتعلقة بالوحل الوردي أكثر صعوبة في الكشف عنها، أعاد الباحثون صياغتها باستخدام نماذج لغوية ضخمة. صُممت المحفزات لتحسين أسلوب الكتابة من خلال توسيع المحتوى، وإضافة تعقيد للجمل، والحد من الإفراط في استخدام الصفات، وفرض نبرة محايدة، واستخدام مفردات أكثر تنوعًا، وزيادة عدد العبارات الاسمية الفريدة، وذلك بهدف إخفاء السمات السطحية التي تعتمد عليها معظم أنظمة الكشف.
تم اختبار النماذج جيما-2ب; ميسترال-7ب; لاما-1ب; لاما-3ب; لاما-8ب; كوين-7ب; GPT-4o ميني، و كلود - 3.5 - هايكو.

أداء الكشف (F1) لمصنف BERT المُحسَّن عند إعادة كتابة مقالات "الوحل الوردي" بواسطة نماذج خطية لغوية مختلفة. تشير الدرجات المنخفضة إلى نجاح أكبر في التمويه.
ومن هذه النتائج علق المؤلفون:
[من بين] النماذج مفتوحة المصدر، كان Qwen الأكثر فعالية في التهرب من الكشف: عند اختباره مقابل مصنف BERT مضبوط مسبقًا (درجة F1 الأساسية: 89٪)، أدى ذلك إلى انخفاض بنسبة 28.34٪ في [أداء] الكشف.
كانت النماذج ذات المصدر المغلق أكثر فعالية بشكل ملحوظ، حيث قلل كل من GPT-4o-mini و Claude-3.5-Haiku من درجة F1 بنسبة 40٪ في المتوسط، مما يسلط الضوء على التحدي الذي يمثله التمويه عالي الجودة الناتج عن LLM.
ويؤكد المؤلفون أن هذه النتائج توضح مدى سهولة إخفاء محتوى المادة الوردية في المواد الصلبة، مما يجعل من الصعب للغاية على الأدوات الحالية اكتشافها.
الخاتمة
مراجعة يحتوي هذا الخط البحثي على بعض المعضلات المثيرة للاهتمام، وأهمها أن الكثير من الناس (وفقًا لمسح واحد على الأقل، تم ذكره سابقًا) تقنية ملاحظة جانبية: إن معرفة محتوى "سويلنت غرين" أمرٌ يثير التساؤلات حول السياق المهين. يبدو الأمر كما لو أن الناس يعلمون أن "سويلنت غرين" هو بشر، لكنهم يتجاهلون الأمر ويستمرون في تناوله؛ أو هكذا قد يبدو الأمر من وجهة نظر ليبرالية.
قد يتطور هذا اللامبالاة العامة تجاه الأخبار الخوارزمية، بل وقد يتراجع - ولكن في الوقت الحالي، يبدو أنه يتعمق.
شيء آخر لفت انتباهي أثناء قراءة الورقة هو الطريقة التي تم بها التعامل مع النثر البسيط والاختزالية في إنتاج "اللحم الوردي" على أنها عيب يمكن إيجاد حل تكنولوجي له، في حين أن البساطة والعاطفية والمفردات المحدودة كلها متعمدة إلى حد كبير.
إذا كانت جماعات المصالح المختلفة التي تقف وراء PS ترغب في توسيع نطاق وصولها إلى جمهور أكثر فكرية أو ليبرالية (على الرغم من أن هذا قد لا يخدم نقاط قوتها)، فمن المرجح أن تقيم معسكرًا أقرب إلى الفئة السكانية المستهدفة، بدلاً من تغيير أسلوب اللغة والنبرة اللذين يبدو أنهما يحققان أهدافهما بالفعل، على المنصات الحالية.
* بسبب بعض الأخطاء في تنسيق الصحيفة، لا يوجد إسناد واضح للمصدر الإضافي للمقالات الإخبارية المحلية. يُرجى الرجوع إلى الصحيفة الأصلية وتخمين أي من مراجع "هورن" ينطبق.
** هنا نحيل القارئ إلى الورقة الأصلية للاطلاع على تفاصيل التجارب الثانوية والتكميلية التي تختتم قسم النتائج في الورقة الجديدة.
نُشرت لأول مرة يوم الجمعة 12 ديسمبر 2025












