زاوية Anderson
هل يمكن للذكاء الاصطناعي تطوير حس للاخبار؟

الذكاء الاصطناعي يتحسن في كتابة قصص الاخبار، ولكن لا يتحسن كثيرًا في تحديدها.
الرأي في السنوات الخمس منذ آخر نظرة لي على قدرة الذكاء الاصطناعي على العثور على قصة أخبار ساخنة، تغير المشهد بشكل كبير، مع زيادة مستويات التأتمتية التي تعمل بالذكاء الاصطناعي، مصحوبة بألم النمو المتزايد والخلافاتالخلافات.
最近، تقرير WSJ حول مساهم Fortune الشهير الذي يعمل بالذكاء الاصطناعي، قد قدم الصورة المستقبلية للصحفي كشخص مخلص من الأعمال الروتينية مثل نسخ بيانات الصحافة، تاركًا له المجال لكتابة الميزات والقيام بالحفر التي تملكها عادةً فقط المنشورات الأكبر ميزانية.
لكن ما نسمعه عنها أقل كثيرًا هو قدرة الذكاء الاصطناعي على اكتشاف قصة أخبار.
تقليل الضوضاء
في المقالة التي كتبتها في عام 2021، ركزت على الكتاب الذين يغطون مجال البحث، منذ أن هذا هو المكان الذي أقضي معظم وقتي فيه؛ وربما كان أكبر تأثير للثورة الجديدة في الذكاء الاصطناعي على ذلك هو أنها خلقت عاصفة ثلجية من مقالات بحث مدعومة بالذكاء الاصطناعي، مما رفع نسبة الإشارة إلى الضوضاء إلى مستوى عالٍ جدًا بحيث أصبح تغطية المجالات المرتبطة بالذكاء الاصطناعي في Arxiv بشكل شامل خارج قدرات شخص واحد.
بالتأكيد، هذا هو المكان الذي يمتاز فيه الذكاء الاصطناعي – في التكرار خلال كميات هائلة من البيانات التي لا يستطيع البشر حلها، لتحديد ‘الخارجين عن المألوف’ (التي سنصل إليها قريباً) في ثوانٍ التي كانت لتستغرق أيامًا من البشر، لو كانوا قادرين على القيام بذلك على الإطلاق.
لماذا، إذن، لا يزال الذكاء الاصطناعي سيئًا جدًا في تحديد قصة أخبار ساخنة من بين الآلاف، أو حتى عشرات الآلاف، من المنافسين اليوميين؟
الذكاء الاصطناعي المتأخر
تحدث هذه التكاثر الهائل للمحتوى الذي ينتج بالذكاء الاصطناعي بعيدًا عن القطاع الأكاديمي الذي ناقشته في السابق. في أواخر العام الماضي، قدر أن نصف جميع الكتابة الجديدة على الويب مكتوب بالذكاء الاصطناعي، مع افتراض تسارع أكبر لهذا الاتجاه في المستقبل، لذلك الضوضاء مكتظة في كل مكان، وليس فقط في الأكاديمية.
على الرغم من وجود بعض التقدم في تحديد قصة ‘ساخنة’ بالذكاء الاصطناعي في السنوات القليلة الماضية، فإن هذه الأنظمة تميل إلى التركيز على تدفقات البيانات المنظمة بشكل متدرج ومتوقع، مما يعني أنها يمكن أن تعمل فقط في سياق هش.
في هذا الصدد، قام باحث ما بعد الدكتوراه في ستانفورد والصحفي السابق في نيويورك تايمز ألكسندر سبانغر ببعض المساعي لتحديد ‘القيمة الإخبارية’ بالمعايير التي يمكن تطبيقها على عمليات التعلم الآلي والتحليل الإحصائي؛ وقد قدم أدلة على توليد قوائم اتّصال آلي في مجموعات مثل مستندات المحكمة و مشاريع قوانين الدولة و اجتماعات المجلس البلدي، بالإضافة إلى وثائق عامة عامة – النوع من الإخراج الموجه بالschema الذي يمكن أن يتحول إلى 6-7 قطع أخبار في اليوم:

حرارة توزيعات الكلمات المستخرجة من مجموعات وثائق عامة. في هذه الحالة، يمكننا رؤية أن ‘التأشير’ له درجة عالية، ربما لأنها تمثل قرارًا وتغييرًا وروعة. المصدر
然而، مشكلة مثل هذه المناهج، مثل العرض الذي قاده سبانغر في عام 2023 تتبع القيمة الإخبارية للوثائق العامة، تكمن في أنها تركز على الاتجاهات الملاحظة في البيانات. بعبارة أخرى، أنها تراقب الأشياء التي كانت جيدة الأخبار من قبل، وتستمر في البحث عن المزيد من نفس الشيء.
في العالم الحقيقي، فإن المصادر غير المتوقعة تقريبًا دائمًا تثبت أنها ‘عجلة واحدة’؛ ومن أجل غموضها، لا أحد يمكن أن يتنبأ بظهورها المفاجئ. ثم، بعد أن أثمرت مرة واحدة، وعلى الرغم من محاولات متكررة للاستفادة من الشهرة أو الشهرة العابرة، غالبًا ما لا تنتج أي شيء مفيد مرة أخرى.
إشارة الأوقات
لذلك، منذ أن يضيف مراقبة هذا النوع من مصدر الأخبار ‘واحد ومتكرر’ فقط المزيد من الضوضاء إلى العاصفة العامة، فهل يمكن للذكاء الاصطناعي بدلاً من ذلك تحديد المؤشرات لمصدر قد يصبح مفيدًا في يوم ما؟ إذا كان يمكن اكتشاف ما نوع المصدر قد يولد أخبارًا في النهاية، يمكن التركيز على الخصائص بدلاً من السياق أو الأساليب.
من خلال المنطق نفسه، يمكن استنتاج أن أي شخص غادر مؤخرًا عمله في وكالة المخابرات المركزية (أو منظمة مشابهة) سيكون جديرًا بالتتبع كمصدر محتمل لقصة مستقبلية.
然而، لا توجد قنوات إعلامية أو واجهات برمجة تطبيقات يمكن أن تتمكن من تسهيل هذا النوع من المراقبة المستمرة، لأن لينكد إن و许多 مصادر بيانات مفتوحة أخرى تتراجع في مواجهة محركات الويب غير القانونية والجشعة للذكاء الاصطناعي. حتى لو كان هناك، فإن التكرار سيكون مشكلة، لأنك لا تستطيع استجواب واجهة برمجة تطبيقات أو موقع كل خمس ثوانٍ؛ بالإضافة إلى تكلفة الموارد، فإن استجابات منصات حظر آي بي ستحول هذه النشاط إلى نشاط غير مستدام.
أيضًا، هناك بُعد بشري واضح في مثل هذه الإفادات التي يصعب تلقينها بالذكاء الاصطناعي.

جمع الأخبار باللمس الشخصي: لقطة من إصدار قرص للفيلم عام 1976 آلان جاي باكولا ‘رجل الرئاسة’، يظهر فيه المخبر يخرج من الظل. المصدر
أيضًا، في العالم الحقيقي، من الصعب جدًا تحديد الخصائص التعريفية لمصدر أخبار مستقبلي. ربما ليس ‘أشخاصاً غادروا وكالة المخابرات المركزية مؤخرًا’، وبالتأكيد ليس محددًا ببروتوكول: منصات مثل إكس أو جيثب تنتج كمية كبيرة من الإشارات في حد ذاتها، وحتى تضييق النطاق على مصطلحات البحث أو فئات المنشور لا يغير الكثير – فقط إذا كنت متورطًا في المشكلة، ومتفاعلًا مع المجتمع (أو المستودع، إلخ.) أنت على الأرجح معترفًا بأهمية التطور.
حتى مصطلح مثل ‘تنبيه أمني’ لا يستطيع أن يوفر السياق الحقيقي للخطورة أو القيمة الإخبارية للحادث، منذ أن يتم إلقاء مراجع من هذا القبيل يوميًا، بالآلاف، في مثل هذه المجتمعات – ومع ذلك لا قيمة إخبارية عامة؛ وحتى لو قمت بتحديد هذا النوع من المراقبة إلى اللغة الإنجليزية فقط، فإن الاختلافات في العبارات، جنبًا إلى جنب مع استخدام اللغة غير المباشرة، سوف تجعل من الصعب جدًا تحليل المنشور ‘في البرية’ إلى تنبيه أخبار حقيقي.
الطريق الضيق
تعتمد أنظمة الكشف عن القيمة الإخبارية الحالية التي تعمل بالذكاء الاصطناعي على هياكل بيانات正式ية (مثل الإخراج JSON من واجهة برمجة تطبيقات)، أو على هياكل بيانات غير رسمية التي يمكن للخوارزميات التي طُوِّرت بالذكاء الاصطناعي فرصتها في تحليلها إلى مخطط منظم (مثل بيانات الصحافة من منظمة معينة):

إذاعة آر إس إس/إكس إم إل المفسرة، التي تظهر التسلسل الهرمي الصارم لحاويات البيانات. المصدر
من الواضح أن هذه المناهج مناسبة للخرج البرمجي، مثل العمل الروتيني الذي يعلن عنه المراسل في WSJ أن الذكاء الاصطناعي قد أвобه منه، بما في ذلك تقارير الطقس وأسعار الأسهم ونتائج الرياضة، بالإضافة إلى بيانات الصحافة الروتينية من المنظمات الحكومية البلدية والمحلية.
في حين أنه من الممكن ربط أجهزة تنبيه إنسانية bằng إشارات إحصائية مثل الطقس (عواصف فجائية) وأسعار الأسهم (انخفاضات فجائية) والرياضة (انتصارات خاسرة غير متوقعة، مع بعض التحضير)، فإن الانتباه البشري لا يزال ضروريًا حتى لبيانات الصحافة المنظمة جيدًا، من أجل تقييم القيمة الإخبارية.
على الرغم من أن المصطلحات مثل ‘الموت’ و ‘المرض غير المتوقع’ و ‘ال تسريب’ و ‘الحادث’ يمكن أن تساعد في تقليل الأحداث الإخبارية، إلا أنها لا تستطيع أيضًا أن تؤخذ في الاعتبار اللغة البديلة (أو اللغات).
عودة الكتاب النخبة؟
في السنوات الأخيرة، أصبحت الصحافة القائمة على البيانات ساقًا صاعدًا في تقارير الأخبار، مع عدم تقييد الإدارات التحريرية بعد ذلك بالصفقات الحلوة ‘النشر المبكر’ التي تمنحها لهم على التقارير الخاصة والبيانات البيضاء من الناشرين الكبار؛ بدلاً من ذلك، يمكنهم ضغط الأرقام بأنفسهم.
然而، هذا ليس غداء مجاني؛ поскольку قيمة تحليل البيانات العامة بالذكاء الاصطناعي أصبحت واضحة، فإن الاستجابة التي تطلب الرسوم/تمنع الذكاء الاصطناعي قد اتبعت – أو حتى سبقت – الطلب، مما دفع اللاعبين الرئيسيين في الذكاء الاصطناعي إلى تكتيكات خفية.
الاحتكاك الإضافي للتراجع الجديد يُرجع بالفعل بعض القوة من ‘صحفيي المواطنين’ إلى وسائل الإعلام التقليدية – أو على الأقل، المنظمات الإخبارية المموَّلة جيدًا التي لديها عرض نطاق ترددي لامتصاص العمل اليدوي الإضافي المطلوب في جمع البيانات وتنقيحها وتقييمها، في عصر يقيِّد فيه الناشرون والمجالات بشكل متزايد الوصول العرضي.
لذلك، بطريقة ما، ربما في روح العصر، التعبير العملي للذكاء الاصطناعي في الصحافة، من حيث الطريقة التي استجابت بها السوق الرئيسية والأسواق للابتكار بالذكاء الاصطناعي والاعتماد عليه، قد يأخذنا في الواقع إلى الوراء: إزالة الديمقراطية من وسائل إنتاج الأخبار، وإضافة عقبات إلى أنظمة تقييم القيمة الإخبارية القائمة على البيانات.
الانطباعات الشائعة
تؤدي هذه القيود بوضوح إلى عودة ‘الانطباع الغريزي’ كمكون لا مفر منه في تقييم القيمة الإخبارية لقصة.
من الطبيعي أن يكون هذا مريحًا لأولئك الذين يشاركون بشكل محترف في هذا الجانب؛ لكن اليقين سيكون خطأً، لأن هذا الانطباع يمكن إلى حد ما أن يُستخلص ويوضع في تشغيل عام لا يعتمد على دراسة هوس أو هوايات أي فرد أو منظمة معينة: في دراسة عام 2022، استخدم باحثون من جامعة نورث وسترن تقييمات جماعية لقصص محتملة لتدريب نموذج تنبؤي، يتعلق بشكل خاص بالقيمة الإخبارية لأوراق بحثية جديدة منشورة في Arxiv:

أسئلة الاستبيان المقدمة للمشاركين في الدراسة للحصول على بيانات تدريب لنموذج ‘تنبؤ القيمة الإخبارية’ بالذكاء الاصطناعي. المصدر
النظام يصنف المرشحين جيدًا، مع حوالي 80% من أفضل اختياراته أيضًا يُعتبر جيدًا من قبل الخبراء. ومع ذلك، اتفقت النتائج مع الخبراء فقط بشكل معتدل، مع نتائج تفوقت العوامل مثل الإطار والتوافق مع الجمهور.
النظام يعتمد على المبادئ المحددة في الورقة اكتشاف الأخبار الحاسوبي: نحو اعتبارات التصميم للتوجيه التحريري للخوارزميات في الصحافة. كما هو الحال في معظم المشاريع المماثلة، تعامل هذا العمل مع صحافة العلوم بدلاً من جمع الأخبار المجرد – ربما لأن الأدب العلمي يميل إلى الإخراج القائم على القوالب التي يمكن потенسيально تحليلها إلى نقاط بيانات قابلة للتدريب والفهم.
حسناً، كما لاحظت في عام 2021، سيكون هذا هو الحال، إلا أن علماء البحوث يعتادون غالبًا على إساءة استخدام اتفاقيات تقديم الأبحاث لإخفاء أو التقليل من النتائج غير المثيرة للإعجاب، أو حتى الفشل المطلق.
أكثر من ذلك تحديًا هو الصعوبة الكبيرة التي يواجهها أنظمة الذكاء الاصطناعي في تفسير الأرقام والجداول في الأبحاث العلمية، إلى الحد الذي أصبح به هذا السعي مؤخرًا فرعًا نشطًا في الأدبيات:

من الورقة ‘SciFigDetect: معيار لاكتشاف الرسومات العلمية التي يولدها الذكاء الاصطناعي’، تظهر الرسومات العلمية الحقيقية، وتوليد الطلبات، والملهاة المولدة بواسطة Nano Banana و GPT عبر ثلاث فئات: التوضيح، والمنظور، والرسومات التجريبية. المصدر
غالبًا ما يكون الجدول أو الرسم البياني يحتوي على نتائج التي سيكتبها نص البحث الرئيسي مع انحياز انتقائي، أو سيتجاهل تمامًا أي عواقب سلبية ضمنية في نتائج الجدول / الرسم البياني. لذلك، هذا الحاجز في صحافة العلوم التي تعمل بالذكاء الاصطناعي ليس قليل الأهمية.
أكثر من ذلك، حقيقة أن الورقة تقليدية، أو مجرد تقدم صغير (إن وجد) على حالة الفن، غالبًا ما تكون مدفونة في اقتباس شبه غير قابل للاختراق (أي أنك ستحتاج إلى البحث عن المصطلح، وتنزيل نسخة قابلة للقراءة من PDF، وفهم مدى الفن السابق، قبل فهم عدم الأصالة أو الجدة في العمل الجديد).
الوحدة مرة أخرى، بشكل طبيعي
الطريقة التي تعتمد على الحشد المذكورة أعلاه تشير إلى بعض الاتفاق بين الإجماع الشائع على القصص المحتملة و التقييم المهني لنفس القصص.
لكن بدون السياق، يمكن تحديد فقط الخطوط العريضة للقيمة الإخبارية.
قوة الذكاء الاصطناعي تكمن في قدرته، اعتمادًا على التكوين، على عزل الخارجين عن المألوف – إما لغرض إلغائهم كاستثناء منحرف وعدم معنى لاتجاهات في مجموعة بيانات، أو (أكثر صلة بالجمع الأخبار) لتحديد الحالات غير الشائعة والقيمة – في ثوانٍ التي كانت لتستغرق أيامًا من البشر، لو كانوا قادرين على القيام بذلك على الإطلاق:

الخارجين عن المألوف (باللون الأحمر) في مخطط مبثر. المصدر
على مبدأ أن البرق نادرًا ما يضرب في نفس المكان مرتين، فإن معظم قصص الأخبار الناجحة هي خارجين عن المألوف. في الحالات التي تنشأ من مجال نشط ومتقلب، مثل حرب جارية، يمكن مسح هذا المجال بفرصة عالية لظهور قصص إخبارية – ولكن على حساب الضوضاء الكبيرة، لأن الانتباه الشائع ي сосي على هذا المجال.
许多 قصص إخبارية علمية قيمة هي، بالتعريف، ليست في مركز توزيع اللغة. إنها مجموعات نادرة من الأساليب، نتائج سلبية مفاجئة أو تكرارات غير عادية. إذا انخفضت كفاءة النموذج بشكل غير متناسب على هذه المجموعات منخفضة التواتر، فإن المنطقة التي يحتاج فيها الانتباه التحريري إلى أن يكون حادًا، تصبح المنطقة التي يكون فيها النموذج أقل موثوقية.
مشاكل الثقة
في البحث عن قصص جديدة، يوازن الصحفيون العديد من القيود، بما في ذلك الوقت والوصول والمصداقية والجمهور وأولويات المنظمة)، مما يؤدي إلى اختيارات غير واضحة. دراسة دراسة عام 2022 من الدنمارك وصف الصحفيين بالتوازن بين العديد من القلق، ومتأثرين بأن المصادر قد تكون لديها أجندات أو تكون مخدوعة؛ وغالبًا ما يتجاوزون التحقق المباشر لصالح إشارات الثقة غير المباشرة عند العمل تحت ضغط.
هذه misma ‘مشاكل الثقة’ ستكون عقبة في تطوير أي نظام نهائي لتحديد القيمة الإخبارية بالذكاء الاصطناعي، لأن الانخراط في مثل هذه المنصة يتطلب من المستخدم الثقة في أن أي مقال تم التخلص منه بواسطة الخوارزمية لا يستحق وقت الكاتب.
يمكن أن يؤدي الاختبار الشامل وإعادة التدريب أو التحسين الدقيق، مع إشراف بشري لجمع الشذوذ والمتأخرين، إلى تحسين موثوقية هذا النهج في النهاية؛ لكن تغييرًا في الثقافة الوطنية أو العالمية – مثل التغييرات المذهلة في المناظير السياسية، أو اندلاع الحرب – يمكن أن يقلب جميع الأولويات الأساسية لأنظمة مثل هذه، تاركًا الكاتب الذي يعتمد على الذكاء الاصطناعي لإعادة بناء ‘نموذج المجال الداخلي’ تقريبًا من الصفر.
نشر لأول مرة يوم الإثنين، 20 أبريل 2026












