زاوية Anderson
ما يمكن أن يخبرنا به الذكاء الاصطناعي حول الأجندات الخفية في الأخبار

نماذج مثل ChatGPT يتم تدريبها على الكشف عن ما يعتقد به مقال إخبارى حقيقى حول قضية – حتى عندما يكون هذا الموقف مدفونًا تحت الاقتباسات أو الإطار أو (في بعض الأحيان عدم الموضوعية) ‘الموضوعية’. من خلال تقسيم المقالات إلى مقاطع مثل العناوين والرؤوس والاقتباسات ، يتعلم نظام جديد الكشف عن التحيز حتى في الصحافة المهنية الطويلة.
القدرة على فهم وجهة نظر الكاتب أو المتحدث – وهي مسعى معروف في الأدب باسم اكتشاف المواقف – تعالج واحدة من أكثر المشاكل التفسيرية صعوبة في اللغة: استخلاص النية من المحتوى الذي قد يكون مصمماً لإخفاء أو إخفاءها.
من مقال جوناثان سويفت مقترح متواضع إلى العروض الحديثة للفنانين السياسيين الذين يعتمدون خطابيات معارضيهم الأيديولوجيين ، فإن سطح البيان لم يعد مؤشرًا موثوقًا به لمقاصده؛ لقد جعلت ظهور السخرية والتحريض والمعلومات الخاطئة و الغموض الاستراتيجي من الصعب أكثر من أي وقت مضى تحديد ما جانب من القصة يقع عليه النص ، أو ما إذا كان يقع عليه على الإطلاق.
في كثير من الأحيان ، ما لم يُقال يحمل نفس الوزن مثل ما قيل ، واختيار تغطية موضوع معين يمكن أن يعكس موقف المؤلف.
هذا يجعل مهمة الكشف التلقائي عن المواقف غير عادية الصعوبة ، لأن نظام الكشف الفعال يحتاج إلى أن يفعل أكثر من وضع علامات على الجمل المعزولة على أنها “داعمة” أو “معارضة”: بل يجب أن يكرر عبر طبقات من المعنى ، ويزن الإشارات الصغيرة ضد شكل وحركة المقال ككل؛ وهذا أكثر صعوبة في الصحافة الطويلة ، حيث قد يتغير النبرة وحيث قد لا يتم التعبير عن الرأي أبدًا.
وكلاء التغيير
للمساعدة في بعض هذه القضايا ، قام باحثون في كوريا الجنوبية بتطوير نظام جديد يسمى JOA-ICL (تعلم السياق الموجه بالصحافة) للكشف عن موقف المقالات الإخبارية الطويلة.

الفكرة الأساسية وراء JoA-ICL هي أن موقف المقال يتم استخلاصه عن طريق تجميع التنبؤات على مستوى القسم التي يتم إنتاجها بواسطة وكيل لغة منفصل. مصدر: https://arxiv.org/pdf/2507.11049
بدلاً من الحكم على المقال ككل ، يقسم JOA-ICL المقال إلى أجزاء هيكلية (العنوان ، الرأس ، الاقتباسات ، والخاتمة) ويعين وكيل لغة لكل جزء ، والذي يضع علامة على الجزء على أنه داعم ، معارض ، أو محايد.
تتم تمرير هذه التنبؤات المحلية إلى وكيل أكبر ، والذي يستخدمها لتحديد موقف المقال ككل.
تم اختبار الطريقة على مجموعة بيانات جديدة تم تجميعها تحتوي على 2000 مقال إخبارى كورى تم تحويلها لتحديد موقف المقال على مستوى المقال والقسم. تم وضع علامة على كل مقال من قبل خبير صحفى ، مما يعكس كيف يتم توزيع الموقف عبر هيكل الكتابة الإخبارية المهنية.
وفقًا للمقال ، يتفوق JOA-ICL على كل من الأسس القائمة على التحفيز والتحسين ، ويتسم بتقدم خاص في الكشف عن المواقف الداعمة (التي تميل النماذج ذات النطاق المماثل إلى تفويتها). كما أثبتت الطريقة فعاليتها عند تطبيقها على مجموعة بيانات ألمانية تحت ظروف متطابقة ، مما يشير إلى أن مبادئها قد تكون قادرة على الصمود أمام أشكال اللغة.
يصرح المؤلفون:
‘تظهر التجارب أن JOA-ICL يتفوق على أساليب الكشف عن الموقف الحالية ، مما يبرز فوائد وكالة مستوى القسم في التقاط الموقف العام للمقالات الإخبارية الطويلة.”
المقال الجديد بعنوان تعلم السياق الموجه بالصحافة لاكتشاف موقف الأخبار ، ويأتي من مختلف الكليات في جامعة سونجسيل في سول ، وكذلك مدرسة الدراسات العليا لل استراتيجية المستقبلية في KAIST.
الطريقة
جزء من تحدي الكشف عن الموقف المدعوم بالذكاء الاصطناعي هو لوغستي ، ويتعلق بكيفية الاحتفاظ بنظام التعلم الآلي بالإشارة وترميزها في وقت واحد ، في حالة الحالة الحالية للفن.
تميل المقالات الإخبارية إلى تجنب العبارات المباشرة للرأي ، وبدلاً من ذلك تعتمد على implicit أو assumed موقف ، يتم إشارته من خلال اختيارات مصادر الاقتباس ، وكيف يتم إطار السرد ، وما هي التفاصيل التي يتم استبعادها ، من بين اعتبارات أخرى.
حتى عندما يأخذ المقال موقفًا واضحًا ، غالبًا ما يكون الإشارة متفرقة عبر النص ، مع أجزاء مختلفة تشير في اتجاهات مختلفة. منذ أن لا تزال نماذج اللغة (LMs) تواجه نوافذ سياق محدودة ، يمكن أن يصبح من الصعب على النماذج تقييم الموقف بالطريقة التي تفعلها مع المحتوى الأقصر (مثل التغريدات ووسائل التواصل الاجتماعي القصيرة الأخرى) ، حيث تكون العلاقة بين النص والهدف أكثر وضوحًا.
لذلك ، غالبًا ما تفشل المناهج القياسية عندما يتم تطبيقها على الصحافة الكاملة الطول؛ حالة حيث الغموض هو ميزة وليس عيبًا.
ينص المقال على:
‘لمواجهة هذه التحديات ، نقترح نهجًا نموذجيًا هرميًا يفترض أولاً الموقف على مستوى وحدات الخطاب الأصغر (مثل الفقرات أو الأقسام) ، ويتكامل بعد ذلك هذه التنبؤات المحلية لتحديد الموقف العام للمقال.
‘تم تصميم هذا الإطار للاحتفاظ بالسياق المحلي والتقاط إشارات الموقف المتناثرة في تقييم كيف يساهم أجزاء مختلفة من قصة إخبارية في موقفها العام على قضية.’
لذا قام المؤلفون بتجميع مجموعة بيانات جديدة بعنوان K-NEWS-STANCE ، تم استخلاصها من تغطية الأخبار الكورية بين يونيو 2022 و يونيو 2024. تم تحديد المقالات أولاً من خلال BigKinds ، خدمة ميتاديتا مدعومة من الحكومة وتُشغل من قبل مؤسسة الصحافة الكورية ، وتم استرجاع النصوص الكاملة باستخدام واجهة برمجة التطبيقات لمجموعة الأخبار Naver. تتكون مجموعة البيانات النهائية من 2000 مقال من 31 ناشرًا ، وتغطي 47 قضية وطنية.
تم وضع علامة على كل مقال مرتين: مرة لموقفه العام تجاه قضية معينة ، ومرة أخرى للأقسام الفردية؛ تحديداً العنوان ، الرأس ، الخاتمة ، و الاقتباسات المباشرة.
تم قيادة التحليل بواسطة خبير الصحافة Jiyoung Han ، وهو أيضًا المؤلف الثالث للمقال ، الذي أرشدهم من خلال استخدام الإشارات المثبتة من دراسات الإعلام ، مثل اختيار المصدر ، التأطير اللفظي ، وأنماط الاقتباس. من خلال هذه الوسائل ، تم الحصول على ما مجموعه 19650 علامة موقف على مستوى القسم.
لضمان أن تحتوي المقالات على إشارات موقف ذات معنى ، تم تصنيف كل مقال حسب النوع ، وتم استخدام فقط تلك الموجودة تحت تصنيف التحليل أو الرأي (حيث من المرجح أن يتم العثور على الإطار الموضوعي).
قام两个 معلمين مدربين بوضع علامة على جميع المقالات ، وتم توجيههم للاستشارة مع المقالات ذات الصلة في حالة عدم وضوح الموقف ، مع حل الخلافات من خلال المناقشة والمراجعة الإضافية.

مدخلات عينة من مجموعة بيانات K-NEWS-STANCE ، تمت ترجمتها إلى الإنجليزية. يتم عرض العنوان والرأس والاقتباسات فقط؛ يتم حذف نص الجسم الكامل. يشير التأشير إلى علامات موقف للاقتباسات ، مع لون أزرق للدعم ولون أحمر للمعارضة. يرجى الرجوع إلى ملف PDF المذكور لمشاهدة أكثر وضوحًا.
JoA-ICL
بدلاً من معاملة المقال ككتلة نصية واحدة ، يقسم نظام المؤلفين المقال إلى أجزاء هيكلية رئيسية: العنوان ، الرأس ، الاقتباسات ، والخاتمة ، ويعين كل جزء إلى وكيل لغة ، والذي يضع علامة على الجزء على أنه داعم ، معارض ، أو محايد.
تتم تمرير هذه التنبؤات المحلية إلى وكيل آخر يقرر موقف المقال ككل ، مع تنسيق الوكيلين بواسطة جهاز تحكم يُعد الإشارات ويجمع النتائج.
بهذه الطريقة ، يعدل JoA-ICL التعلم في السياق (حيث يتعلم النموذج من الأمثلة في الإشارة) ليتوافق مع الطريقة التي يتم بها كتابة القصص الإخبارية المهنية ، باستخدام إشارات متوافقة مع القسم بدلاً من إشارة جينية واحدة.
(يرجى ملاحظة أن معظم الأمثلة والرسومات في المقال طويلة وصعبة الإعادة بشكل واضح في مقال على الإنترنت. لذلك نناشد القارئ فحص ملف PDF الأصلي)
البيانات والاختبارات
في الاختبارات ، استخدم الباحثون macro F1 ودقة لتقدير الأداء ، وتم تحويل النتائج على مدار عشرة عمليات مع بذور عشوائية من 42 إلى 51 ، وتم الإبلاغ عن الخطأ المعياري. تم استخدام بيانات التدريب لتحسين نماذج الأساس ووكلاء مستوى القسم ، مع اختيار عينات few-shot من خلال بحث عن التشابه باستخدام KLUE-RoBERTa-large.
تم تشغيل الاختبارات على ثلاث بطاقات رسومات RTX A6000 (كل منها مع 48GB من VRAM) ، باستخدام Python 3.9.19 ، PyTorch 2.5.1 ، Transformers 4.52.0 ، و vLLM 0.8.5.
GPT-4o-mini ، Claude 3 Haiku ، و Gemini 2 Flash تم استخدامها من خلال واجهة برمجة التطبيقات ، عند درجة حرارة 1.0 وحد أقصى عدد الرموز 1000 لتحفيزات سلسلة الأفكار ، و 100 لغيرها.
لتحسين Exaone-3.5-2.4B بالكامل ، تم استخدام محسن AdamW عند معدل تعلم 5e-5 ، مع انحدار وزن 0.01 ، 100 خطوات تسخين ، وتم تدريب البيانات لمدة 10 دورات عند حجم.batch 6.
للمقارنة ، استخدم المؤلفون RoBERTa ، تم تحسينه لاكتشاف موقف المقال؛ Chain-of-Thought (CoT) Embeddings ، وهو تعديل بديل ل RoBERTa للمهمة المحددة؛ LKI-BART ، وهو نموذج مشفر-فك تشفير يضيف المعرفة السياقية من نموذج لغة كبير من خلال التحفيز به والنص الإدخال والوسم المقصود؛ و PT-HCL ، وهو طريقة يستخدم التعلم بالتناقض لفصل الميزات العامة عن تلك المحددة للموضوع الهدف:

أداء كل نموذج على مجموعة اختبار K-NEWS-STANCE لتنبؤ الموقف العام. يتم عرض النتائج كmacro F1 ودقة ، مع أعلى نتيجة في كل مجموعة بالخط العريض.
حقق JoA-ICL أفضل أداء عام عبر كل من الدقة و macro F1 ، وهو ميزة واضحة عبر جميع نماذج الأساس الثلاثة التي تم اختبارها: GPT-4o-mini ، Claude 3 Haiku ، و Gemini 2 Flash.
أثبتت الطريقة القائمة على القسم أداءً أفضل بشكل مستمر من جميع النهج الأخرى ، مع ميزة ملحوظة في الكشف عن المواقف الداعمة ، وهو نقص شائع في نماذج مماثلة.
أدت نماذج الأساس أسوأ أداء بشكل عام. RoBERTa و Chain-of-Thought variants kämpften مع الحالات الدقيقة ، في حين أن PT-HCL و LKI-BART أداءن بشكل أفضل ، مع ذلك لا يزالان ي tụران JoA-ICL عبر معظم الفئات. كان أكثر نتيجة دقيقة منفردة من JoA-ICL (Claude) ، مع 64.8% macro F1 و 66.1% دقة.
يوضح الرسم التالي كيف غالباً ما حصلت النماذج على كل علامة بشكل صحيح أو خاطئ:

مصفوفات خلط تشير إلى مقارنة بين الأساس و JoA-ICL ، مما يظهر أن كلاهما يصعب عليهما الكشف عن مواقف داعمة.
أداء JoA-ICL بشكل أفضل بشكل عام من الأساس ، حيث حصل على أكثر العلامات بشكل صحيح في كل فئة. ومع ذلك ، كافح كلا النموذجين أكثر مع المقالات الداعمة ، وخطأ الأساس تقريباً نصفها ، غالباً ما أخطأها مع المحايدة.
أ-committed JoA-ICL أخطاء أقل ، مع ذلك أظهر نفس النمط ، مما يؤكد أن “المواقف الإيجابية” أكثر صعوبة على النماذج للكشف عنها.
لتحديد ما إذا كان JoA-ICL يعمل ما وراء حدود اللغة الكورية ، قام الباحثون بتشغيله على CheeSE ، مجموعة بيانات ألمانية لاكتشاف موقف المقال. منذ أن لا تحتوي CheeSE على علامات مستوى القسم ، استخدم الباحثون الإشراف البعيد ، حيث تم تعيين كل قسم بنفس علامة موقف مثل المقال الكامل.

نتائج الكشف عن الموقف على مجموعة بيانات CheeSE الألمانية. يتفوق JoA-ICL بشكل مستمر على التحفيز من الصفر عبر جميع نماذج الذكاء الاصطناعي الثلاثة ويتفوق على نماذج الأساس المحددة ، مع Gemini-2.0-flash الذي يمنح أفضل أداء عام.
حتى في ظروف “الضوضاء” هذه ، يتفوق JoA-ICL على كل من التحفيز من الصفر والأسس المحددة. من بين النماذج الثلاثة التي تم اختبارها ، أعطى Gemini-2.0-flash أفضل النتائج.
الختام
من بين المهام القليلة في التعلم الآلي التي تحمل طابعًا سياسيًا أكثر من التنبؤ بالموقف؛ ومع ذلك ، غالبًا ما يتم التعامل معها في مصطلحات باردة وميكانيكية ، بينما يتم إعطاء انتباه أكبر لمسائل أقل تعقيدًا في الذكاء الاصطناعي التوليدي ، مثل إنشاء الفيديو والصورة ، والتي تثير عناوين أكثر صخامة.
التطور الأكثر تشجيعًا في العمل الكوري الجديد هو أنه يقدم مساهمة كبيرة في تحليل المحتوى الكامل ، بدلاً من التغريدات ووسائل التواصل الاجتماعي القصيرة ، التي يمكن أن تُنسى أثرها بسرعة أكثر من مقال أو مقال أو عمل هام آخر.
إحدى الإغفالات المهمة في العمل الجديد (وعلى ما أعتقد ، في مجال التنبؤ بالموقف بشكل عام) هي عدم考虑 الروابط التشعبية ، والتي غالبًا ما تقف مكان الاقتباسات كموارد اختيارية للمستخدمين للتعلم المزيد عن موضوع ما؛ ومع ذلك ، يجب أن يكون من الواضح أن اختيار هذه الروابط غالبًا ما يكون موضوعيًا وسياسيًا.
ذلك قال ، فإن المنشورات الأكثر شهرة ، أقل احتمالًا لتشمل أي روابط على الإطلاق التي توجّه المشاهد بعيدًا عن نطاق المضيف؛ هذا ، جنبًا إلى جنب مع استخدامات وانتهاكات الروابط التشعبية الأخرى لتحسين محركات البحث ، يجعلها أكثر صعوبة في Quantify من الاقتباسات الصريحة أو العناوين أو أجزاء أخرى من المقال التي قد تسعى ، بشكل واع أو غير واع ، إلى التأثير على رأي القارئ.
نشر لأول مرة يوم الأربعاء ، 16 يوليو 2025












