اتصل بنا للحصول على مزيد من المعلومات

نحو الكتابة العلمية الآلية

الذكاء الاصطناعي

نحو الكتابة العلمية الآلية

mm

هذا الصباح ، وأنا أتجول في أقسام علوم الكمبيوتر في Arxiv ، كما أفعل في معظم الصباح ، صادفت مؤخرًا ورقة من جامعة سيارا الفيدرالية في البرازيل، تقدم إطارًا جديدًا لمعالجة اللغات الطبيعية لأتمتة تلخيص واستخراج البيانات الأساسية من الأوراق العلمية.

وبما أن هذا هو ما أفعله تقريبا كل يوم، فقد ذكّرني المقال بتعليق على أحد نقاشات كتاب موقع Reddit في وقت سابق من هذا العام ــ وهو التكهن بأن الكتابة العلمية سوف تكون من بين أوائل الوظائف الصحفية التي يستولي عليها التعلم الآلي.

اسمحوا لي أن أكون واضحا - أنا نعتقد تماما أن كاتب العلوم الآلي قادم ، وأن جميع التحديات التي أوجزها في هذه المقالة إما قابلة للحل الآن ، أو في النهاية ستصبح كذلك. حيثما أمكن ، أعطي أمثلة على ذلك. بالإضافة إلى ذلك ، أنا لا أتطرق إلى ما إذا كانت أنظمة الذكاء الاصطناعي الحالية أو المستقبلية للكتابة العلمية ستكون قادرة على ذلك أم لا اكتب بإقتناع على أساس مستوى الاهتمام الحالي في هذا القطاع من البرمجة اللغوية العصبية، أفترض أن هذا التحدي سيتم حله في نهاية المطاف.

بل إنني أسأل عما إذا كان الذكاء الاصطناعي الكاتب العلمي سيكون قادرًا على تحديد قصص علمية ذات صلة تتوافق مع النتائج المرجوة (شديدة التنوع) للناشرين.

لا أعتقد أن الأمر وشيك؛ فبناءً على تصفحي لعناوين و/أو نسخ حوالي 2000 ورقة علمية جديدة حول التعلم الآلي أسبوعيًا، لديّ وجهة نظر أكثر تشاؤمًا بشأن مدى إمكانية تحليل المقالات الأكاديمية خوارزميًا، سواءً لأغراض الفهرسة الأكاديمية أو الصحافة العلمية. وكالعادة، هؤلاء الملعونون هم من... الناس التي تعترض الطريق.

متطلبات كاتب العلوم الآلي

لننظر في تحدي أتمتة التقارير العلمية لأحدث الأبحاث الأكاديمية. وللإنصاف، سنقتصر في الغالب على فئات علوم الكمبيوتر من المواقع الشائعة جدًا غير المحمية بجدار حماية. مجال Arxiv من جامعة كورنيل ، التي لديها على الأقل عدد من الميزات المنهجية والقوالب التي يمكن توصيلها بخط أنابيب لاستخراج البيانات.

ولنفترض أيضاً أن المهمة المطروحة، كما هي الحال مع الورقة البحثية الجديدة من البرازيل، هي تكرار العناوين والملخصات والبيانات الوصفية و(إذا كان ذلك مبرراً) محتوى الأوراق العلمية الجديدة بحثاً عن الثوابت والمعلمات الموثوقة والرموز والمعلومات القابلة للتنفيذ والاختزال في المجال.

هذا ، بعد كل شيء ، هو المبدأ الذي حقق نجاحًا كبيرًا أطر جديدة تكتسب أرضية في مناطق الإبلاغ عن الزلزال, الكتابة الرياضية, الصحافة المالية و التغطية الصحية، ونقطة انطلاق معقولة للصحفي العلمي الذي يعمل بالذكاء الاصطناعي.

سير العمل للعرض البرازيلي الجديد. يتم تحويل الورقة العلمية بتنسيق PDF إلى نص عادي UTF-8 (على الرغم من أن هذا سيزيل التأكيدات المائلة التي قد يكون لها معنى دلالي) ، وأقسام المقالة التي تم تصنيفها واستخراجها قبل تمريرها لتصفية النص. يتم تقسيم النص المفكك إلى جمل كإطارات بيانات ، ويتم دمج إطارات البيانات قبل تحديد الرمز المميز ، وإنشاء مصفوفتين من الرموز المميزة للمستندات المصدر: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

سير العمل للعرض البرازيلي الجديد. يتم تحويل الورقة العلمية بتنسيق PDF إلى نص عادي UTF-8 (على الرغم من أن هذا سيزيل التأكيدات المائلة التي قد يكون لها معنى دلالي) ، وأقسام المقالة التي تم تصنيفها واستخراجها قبل تمريرها لتصفية النص. يتم تقسيم النص المفكك إلى جمل كإطارات بيانات ، ويتم دمج إطارات البيانات قبل تحديد الرمز المميز ، وإنشاء مصفوفتين من رموز المستندات   المصدر: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

تعقيد القالب

إحدى الطبقات المشجعة من المطابقة والتنظيم هي أن Arxiv تفرض نموذجًا جيد التنفيذ لعمليات الإرسال ، و يوفر إرشادات مفصلة لتقديم المؤلفين. لذلك ، تتوافق الأوراق بشكل عام مع أي أجزاء من البروتوكول تنطبق على العمل الموصوف.

وبالتالي ، يمكن لنظام المعالجة المسبقة للذكاء الاصطناعي لكاتب العلوم الآلي المفترض أن يتعامل عمومًا مع أقسام مثل المجالات الفرعية: ملخص, المقدمة, ذات الصلة / العمل السابق, المنهجية / البيانات, النتائج / النتائج, دراسات الاجتثاث, مناقشة, اختتام.

مع ذلك، عمليًا، قد تكون بعض هذه الأقسام مفقودة، أو مُعاد تسميتها، أو تحتوي على محتوى ينتمي تحديدًا إلى قسم مختلف. علاوة على ذلك، يُضيف المؤلفون بطبيعة الحال عناوين وعناوين فرعية لا تتوافق مع القالب. لذا، يقع على عاتق تقنيات معالجة اللغة الطبيعية (NLP/NLU) تحديد المحتوى ذي الصلة بالقسم من خلال السياق.

التوجه إلى مشكلة

يُعدّ التسلسل الهرمي للرؤوس طريقة سهلة لأنظمة معالجة اللغة الطبيعية (NLP) لتصنيف كتل المحتوى مبدئيًا. يتم تصدير العديد من ملفات Arxiv المُرسلة من Microsoft Word (كما يتضح من ملفات PDF المُعالجة بشكل خاطئ في Arxiv والتي تترك "Microsoft Word" في رأس العنوان - انظر الصورة أدناه). إذا استخدمتَ عناوين الأقسام في Word، سيؤدي التصدير إلى PDF إلى إعادة إنشائها كعناوين هرمية مفيدة لعمليات استخراج البيانات لمراسل آلي.

ومع ذلك ، يفترض هذا أن المؤلفين يستخدمون بالفعل مثل هذه الميزات في Word ، أو أطر عمل أخرى لإنشاء المستندات ، مثل TeX والمشتقات (نادرًا ما يتم توفيرها كتنسيقات بديلة أصلية في عمليات إرسال Arxiv ، مع اقتصار معظم العروض على PDF وأحيانًا تكون أكثر غموضًا بوستسكريبت).

استنادًا إلى سنوات من قراءة أوراق Arxiv، لاحظت أن الغالبية العظمى منها لا تحتوي على أي وقت البيانات الوصفية الهيكلية القابلة للتفسير ، مع ذكر العنوان في القارئ (أي متصفح ويب أو قارئ PDF) كعنوان كامل (بما في ذلك الامتداد) للمستند نفسه.

في هذه الحالة، تكون قابلية تفسير الورقة البحثية دلاليًا محدودة، وسيحتاج نظام كتابة علمي قائم على الذكاء الاصطناعي إلى إعادة ربطها برمجيًا ببياناتها الوصفية المرتبطة بها على نطاق Arxiv. ينصّ تقليد Arxiv على إدراج البيانات الوصفية الأساسية أفقيًا بخط رمادي كبير في الصفحة الأولى من ملف PDF المُرسَل (انظر الصورة أدناه). للأسف، ولأن هذا هو المصدر الوحيد الموثوق الذي يُمكنك من خلاله العثور على تاريخ النشر أو رقم الإصدار، غالبًا ما يتم استبعادها.

لا يستخدم العديد من المؤلفين أي أنماط على الإطلاق ، أو يستخدمون نمط H1 (أعلى رأس / عنوان) فقط ، مما يترك NLU لاستخراج العناوين مرة أخرى إما من السياق (ربما ليس بهذه الصعوبة) ، أو بتحليل الرقم المرجعي الذي يشتمل على العنوان في مسار المستند (مثل https://arxiv.org/pdf/2110.00168.pdf) والاستفادة من البيانات الوصفية المستندة إلى الشبكة (بدلاً من البيانات المحلية) للتقديم.

على الرغم من أن الأخير لن يحل العناوين الغائبة ، إلا أنه سيحدد على الأقل أي قسم من علوم الكمبيوتر ينطبق عليه الإرسال ، ويوفر معلومات التاريخ والإصدار.

GluedText في ParagraphReturns

مع تنسيقي PDF وPostscript، وهما التنسيقان الأكثر شيوعًا والمتوفران في Arxiv والمقدمان من قبل المؤلفين، سيحتاج نظام معالجة اللغة الطبيعية إلى روتين لفصل الكلمات الموجودة في نهاية السطر عن الكلمات الموجودة في بداية السطر اللاحق والتي يتم "ربطها" بها بموجب طرق التحسين الافتراضية المؤسفة في تنسيق PDF.

فك التسلسل (و إزالة الواصلة) الكلمات يمكن أن تتحقق في بيرل والعديد من الإجراءات العودية البسيطة الأخرى ، على الرغم من أن ملف النهج القائم على بايثون قد تستغرق وقتًا أقل وأكثر تكيفًا مع إطار عمل تعلم الآلة. Adobe ، منشئ تنسيق PDF ، قام أيضًا بتطوير نظام تحويل يدعم AI يسمى الوضع السائل، قادرة على "إعادة تدفق" النص المخبوز في ملفات PDF، على الرغم من أن طرحها خارج نطاق الهاتف المحمول كان بطيئًا.

اللغة الإنجليزية الفقيرة                                                

تظل اللغة الإنجليزية هي المعيار العلمي العالمي لتقديم الأوراق العلمية ، على الرغم من ذلك المثير للجدل. لذلك ، تحتوي الصحف الشيقة والجديرة بالاهتمام في بعض الأحيان معايير مروعة للغة الإنجليزية، من باحثين غير إنجليزيين. إذا تم تضمين الاستخدام الماهر للغة الإنجليزية كمقياس للقيمة عندما يقوم نظام الآلة بتقييم العمل ، فلن تضيع القصص الجيدة فقط ، ولكن سيتم تصنيف المخرجات ذات القيمة المنخفضة المتحذلق على أنها أعلى لمجرد أنها لا تقول شيئًا جيدًا.

من المحتمل أن تواجه أنظمة معالجة اللغات الطبيعية غير المرنة في هذا الصدد طبقة إضافية من العقبات في استخراج البيانات ، باستثناء العلوم الأكثر صرامة والمعايير ، مثل الكيمياء والفيزياء النظرية ، حيث تتوافق الرسوم البيانية والمخططات بشكل أكثر اتساقًا عبر مجتمعات العلوم العالمية. على الرغم من أن أوراق التعلم الآلي تحتوي في كثير من الأحيان على صيغ ، إلا أنها قد لا تمثل القيمة المحددة للتقديم في غياب الإجماع العلمي الراسخ حول المنهجية التي تتمتع بها العلوم القديمة.

الاختيار: تحديد متطلبات الجمهور

سنعود قريبًا إلى المشاكل العديدة المتعلقة بتحليل الأوراق العلمية الشاذة إلى نقاط بيانات منفصلة. الآن، لننظر إلى جمهورنا وأهدافنا، إذ ستكون هذه الأهداف أساسية لمساعدة الكاتب العلمي على تحليل آلاف الأوراق أسبوعيًا. التنبؤ بنجاح القصص الإخبارية المحتملة أمرٌ مُلحّ. منطقة نشطة في التعلم الآلي.

على سبيل المثال، إذا كان حجم "حركة المرور العلمية" المرتفع هو الهدف الوحيد في موقع ويب حيث تكون الكتابة العلمية مجرد جزء واحد من عرض صحفي أوسع (كما هو الحال مع المملكة المتحدة)، الدايلي ميل قسم العلوم) ، قد تكون هناك حاجة إلى ذكاء اصطناعي لتحديد الموضوعات الأكثر ربحًا من حيث حركة المرور ، وتحسين اختيارها من أجل ذلك. من المحتمل أن تعطي هذه العملية الأولوية (نسبيًا) للفاكهة المنخفضة المعلقة مثل الروبوتات, طائرات بدون طيار, deepfakes, خصوصية و الثغرات الأمنية.

تماشياً مع الوضع الحالي في أنظمة التوصية ، من المرجح أن يؤدي هذا الحصاد عالي المستوى 'فقاعة التصفية' ولكن في الوقت نفسه، هناك مشاكل تواجه كاتب العلوم لدينا، حيث تولي الخوارزمية اهتماما متزايدا لمجموعة من الأوراق العلمية الزائفة التي تحتوي على كلمات وعبارات رئيسية "مرغوبة" عالية التردد حول هذه المواضيع (مرة أخرى، لأن هناك أموالا يمكن الحصول عليها منها، سواء من حيث حركة المرور، بالنسبة للمنافذ الإخبارية، والتمويل، بالنسبة للأقسام الأكاديمية)، في حين تتجاهل بعض "بيض عيد الفصح" الأكثر قابلية للكتابة (انظر أدناه) والتي يمكن العثور عليها في العديد من الزوايا الأقل ترددا في Arxiv.

واحد وفعل!

يمكن أن تأتي مصادر الأخبار العلمية الجيدة من مصادر غريبة وغير متوقعة، ومن قطاعات ومواضيع لم تكن مثمرة من قبل. ومما يزيد من إرباك كاتب علوم الذكاء الاصطناعي لدينا، الذي كان يأمل في إنشاء فهرس مُثمر لمصادر الأخبار "المثمرة"، أن مصدر "الأخبار" غير المألوفة (مثل خادم Discord، أو قسم بحث أكاديمي، أو شركة ناشئة في مجال التكنولوجيا) غالبًا ما يكون... عدم إنتاج مواد قابلة للتنفيذ مرة أخرى، مع الاستمرار في إخراج تدفق معلومات ضخم وصاخب بقيمة أقل.

ما الذي يمكن أن تستنتجه بنية تعلّم آلي تكرارية من هذا؟ هل ستُعطى الأولوية فجأةً لآلاف مصادر الأخبار "الشاذة" السابقة التي حددتها واستبعدتها (مع أن ذلك سيؤدي إلى نسبة إشارة إلى ضوضاء غير قابلة للإدارة، بالنظر إلى الحجم الهائل للأوراق البحثية المنشورة سنويًا)؟ هل يستحق الموضوع نفسه طبقة تنشيط أكثر من مصدر الأخبار الذي استقى منه (وهو إجراء زائد في حالة موضوع شائع)؟

والأمر الأكثر فائدة هو أن النظام قد يتعلم أنه يتعين عليه التحرك صعوداً أو هبوطاً في التسلسل الهرمي لأبعاد البيانات بحثاً عن الأنماط ــ إن وجدت بالفعل ــ التي تشكل ما أطلق عليه جدي الصحفي الراحل "الحاسة للأخبار"، وتحدد الميزة التي تميزها. ذو أهمية إخبارية باعتبارها صفة متجولة ومجردة لا يمكن التنبؤ بها بدقة استنادًا إلى المصدر وحده، ومن المتوقع أن تتحور على أساس يومي.

تحديد فشل الفرضية

بفضل ضغط الحصةفي بعض الأحيان، تنشر الأقسام الأكاديمية أعمالًا حيث فشلت الفرضية المركزية تمامًا (أو بشكل شبه كامل) في الاختبار، حتى لو كانت أساليب المشروع ونتائجه تستحق القليل من الاهتمام في حد ذاتها.

غالبًا ما لا يتم الإشارة إلى خيبات الأمل هذه في الملخصات ؛ في أسوأ الحالات ، لا يمكن تمييز الفرضيات التي تم دحضها إلا من خلال قراءة الرسوم البيانية للنتائج. لا يستلزم هذا فقط استنتاج فهم مفصل للمنهجية من المعلومات المحددة والمحدودة للغاية التي قد توفرها الورقة ، ولكنه يتطلب خوارزميات تفسير الرسوم البيانية الماهرة التي يمكنها تفسير كل شيء بشكل مفيد من مخطط دائري إلى مخطط مبعثر ، في السياق.

قد يُثير نظامٌ قائمٌ على معالجة اللغة الطبيعية (NLP)، يُولي اهتمامًا بالغًا للملخصات ولكنه لا يستطيع تفسير الرسوم البيانية والجداول، حماسةً شديدةً تجاه ورقةٍ بحثيةٍ جديدةٍ عند القراءة الأولى. للأسف، يصعب (لأغراض التدريب) تعميم الأمثلة السابقة على "الفشل الخفي" في الأوراق الأكاديمية، لأن هذه "الجريمة الأكاديمية" هي في الأساس إغفالٌ أو إهمالٌ، وبالتالي يصعب رصدها.

في الحالة القصوى ، قد يحتاج كاتب الذكاء الاصطناعي لدينا إلى تحديد موقع بيانات المستودع واختبارها (أي من GitHub) ، أو تحليل أي مواد تكميلية متاحة ، من أجل فهم ما تدل عليه النتائج من حيث أهداف المؤلفين. وبالتالي ، سيحتاج نظام التعلم الآلي إلى اجتياز المصادر والأشكال المتعددة غير المعينة المتضمنة في ذلك ، مما يجعل أتمتة عمليات التحقق تحديًا معماريًا إلى حد ما.

سيناريوهات "الصندوق الأبيض"

يتبين أن بعضًا من أكثر الادعاءات غرابةً في أوراق بحثية حول أمن الذكاء الاصطناعي تتطلب مستوياتٍ استثنائيةً وغير متوقعةٍ للغاية من الوصول إلى الشيفرة المصدرية أو البنية التحتية المصدرية - هجمات "الصندوق الأبيض". ورغم فائدة هذه الهجمات في استقراء عيوبٍ غير معروفة سابقًا في بنى أنظمة الذكاء الاصطناعي، إلا أنها نادرًا ما تُمثل سطح هجومٍ قابلًا للاستغلال بشكل واقعي. لذلك، سيحتاج كاتب علوم الذكاء الاصطناعي إلى كاشفٍ جيدٍ للخداع لتحليل الادعاءات المتعلقة بالأمن إلى احتمالاتٍ للتنفيذ الفعال.

سيحتاج الكاتب العلمي الآلي إلى روتين NLU قادر على عزل الإشارات "الصندوق الأبيض" في سياق ذي معنى (أي التمييز بين الإشارات والتداعيات الأساسية للورقة البحثية)، والقدرة على استنتاج منهجية الصندوق الأبيض في الحالات التي لا تظهر فيها العبارة مطلقًا في الورقة البحثية.

مشاكل أخرى

الأماكن الأخرى حيث يمكن أن ينتهي الأمر بفشل الفرضية وعدم الجدوى تمامًا في دراسات الاجتثاث، والتي تستبعد بشكل منهجي العناصر الرئيسية لأي صيغة أو طريقة جديدة لمعرفة ما إذا كانت النتائج ستتأثر سلبًا، أو ما إذا كان الاكتشاف "الأساسي" مرنًا. عمليًا، عادةً ما تكون الأوراق البحثية التي تتضمن دراسات الاستئصال واثقة تمامًا من نتائجها، مع أن القراءة المتأنية قد تكشف غالبًا عن "خدعة". في أبحاث الذكاء الاصطناعي، غالبًا ما ترقى هذه الخدعة إلى مستوى... المفرط، حيث يعمل نظام التعلم الآلي بشكل مثير للإعجاب على بيانات البحث الأصلية ، لكنه يفشل في التعميم على البيانات الجديدة ، أو يعمل في ظل قيود أخرى غير قابلة للتكرار.

عنوان قسم مفيد آخر لاستخراج منهجي محتمل هو القيودهذا هو القسم الأول الذي ينبغي على أي كاتب علمي (سواءً كان ذكاءً اصطناعيًا أو إنسانًا) تخطيه، إذ قد يحتوي على معلومات تُبطل فرضية البحث بأكملها، والانتقال إليه مباشرةً قد يوفر ساعات عمل ضائعة (على الأقل بالنسبة للكاتب). السيناريو الأسوأ هنا هو أن البحث يحتوي بالفعل على... القيود القسم، ولكن تم تضمين الحقائق "المُحرجة" في مكان آخر في العمل ، وليس هنا (أو يتم التقليل من شأنها هنا).

التالي هو عمل مسبق. يحدث هذا في وقت مبكر في نموذج Arxiv ، وكثيرًا ما يكشف عن أن الورقة الحالية لا تمثل سوى تقدمًا طفيفًا في مشروع أكثر ابتكارًا ، عادةً من 12-18 شهرًا السابقة. في هذه المرحلة ، سيحتاج كاتب الذكاء الاصطناعي إلى القدرة على تحديد ما إذا كان العمل السابق قد حقق قوة دفع ؛ هل ما زالت هناك قصة هنا؟ هل تجاوز العمل السابق إشعار الجمهور وقت النشر؟ أم أن الورقة الجديدة مجرد حاشية روتينية لمشروع سابق تمت تغطيته جيدًا؟

تقييم إعادة التدوير و"النضارة"

إلى جانب تصحيح الأخطاء في النسخة السابقة، غالبًا ما لا تُمثّل النسخة الثانية من البحث أكثر من سعي المؤلفين جاهدين لنيل الاهتمام الذي لم يحظوا به عند نشر النسخة الأولى. ومع ذلك، غالبًا ما تستحق الورقة البحثية فرصةً أخرى، إذ ربما يكون الاهتمام الإعلامي قد حُوّل إلى مكان آخر وقت النشر الأصلي، أو طغى على العمل ازدحام المقالات المُقدّمة خلال فترات الندوات والمؤتمرات المزدحمة (مثل الخريف وأواخر الشتاء).

إحدى الميزات المفيدة في Arxiv لتمييز إعادة النشر هي وسم [UPDATED] المُضاف إلى عناوين المقالات المُرسلة. سيحتاج "نظام التوصية" الداخلي لكاتب الذكاء الاصطناعي لدينا إلى دراسة متأنية لما إذا كان... [مُحَدَّث]=='تم تشغيله'، لا سيما أنه يمكن (على الأرجح) تقييم الورق المعاد تسخينه أسرع بكثير من مُجرّد مُحترفٍ مُحترفٍ في العلوم. في هذا الصدد، يتمتّع بميزةٍ ملحوظةٍ على البشر، بفضل تسميةٍ من المُرجّح أن تبقى، على الأقل في أرشيف.

يوفر Arxiv أيضًا معلومات في صفحة الملخص حول ما إذا كان قد تم تحديد الورقة على أنها تحتوي على "تداخل كبير" للنص مع ورقة أخرى (غالبًا من قبل نفس المؤلفين)، ويمكن أيضًا تحليل ذلك إلى حالة "مكررة / إعادة نشر" بواسطة نظام كاتب الذكاء الاصطناعي في غياب علامة [محدث].

تحديد الانتشار

مثل معظم الصحفيين ، يبحث كاتب علوم الذكاء الاصطناعي المتوقع لدينا عن أخبار لم يتم الإبلاغ عنها أو لم يتم الإبلاغ عنها بشكل كافٍ ، من أجل إضافة قيمة إلى تدفق المحتوى الذي يدعمه. في معظم الحالات ، ظهرت إعادة الإبلاغ عن الاختراقات العلمية لأول مرة في المنافذ الرئيسية مثل TechCrunch و The Verge و EurekaAlert وآخرون لا جدوى من ذلك ، لأن مثل هذه المنصات الكبيرة تدعم محتواها بآلات دعاية شاملة ، مما يضمن فعليًا تشبع الوسائط للورق.

لذلك يجب على كاتب الذكاء الاصطناعي لدينا تحديد ما إذا كانت القصة جديدة بما يكفي لتكون جديرة بالمتابعة.

أسهل طريقة ، من الناحية النظرية ، هي تحديد الأحدث روابط واردة إلى صفحات البحث الأساسية (ملخص ، PDF ، قسم أخبار موقع القسم الأكاديمي ، إلخ). بشكل عام ، الأطر التي يمكن أن توفر معلومات ارتباط واردة محدثة ليست مفتوحة المصدر أو منخفضة التكلفة ، ولكن من المفترض أن يتحمل الناشرون الرئيسيون نفقات SaaS كجزء من إطار تقييم الجدارة الإخبارية.

بافتراض مثل هذا الوصول ، يواجه كاتب العلوم لدينا ، منظمة العفو الدولية ، المشكلة التي يواجهها عدد كبير من منافذ إعداد التقارير العلمية لا تستشهد الأوراق البحثية التي يكتبون عنها، حتى في الحالات التي تكون فيها تلك المعلومات متاحة مجانًا. ففي النهاية، ترغب أي جهة إعلامية في ربط تقاريرها الثانوية بها، بدلًا من المصدر. وبما أنهم، في كثير من الحالات، حصلوا بالفعل على وصول مُتميز أو شبه مُتميز إلى ورقة بحثية (انظر كاتب العلوم الاجتماعية أدناه) ، لديهم ذريعة مخادعة لذلك.

وبالتالي ، سيحتاج كاتب الذكاء الاصطناعي لدينا إلى استخراج كلمات رئيسية قابلة للتنفيذ من ورقة وإجراء عمليات بحث مقيدة بوقت لتحديد مكان كسر القصة بالفعل ، إذا كان في أي مكان - ثم تقييم ما إذا كان يمكن استبعاد أي نشر سابق ، أو ما إذا كانت القصة قد تم تنفيذها .

أحيانًا تُقدّم الأبحاث مواد فيديو تكميلية على يوتيوب، حيث يُمكن استخدام "عدد المشاهدات" كمؤشر للانتشار. بالإضافة إلى ذلك، يُمكن لذكائنا الاصطناعي استخراج الصور من الأبحاث وإجراء بحث مُمنهج قائم على الصور، لتحديد ما إذا أُعيد نشر أيٍّ من الصور، ومكان وزمان إعادة نشرها.

عيد الفصح البيض

في بعض الأحيان، تكشف ورقة بحثية "جافة" عن نتائج لها آثار عميقة وجديرة بالذكر، ولكن المؤلفين قللوا من شأنها (أو حتى تجاهلوها أو استبعدوها)، ولن يتم الكشف عنها إلا من خلال قراءة الورقة بالكامل وإجراء الحسابات.

وفي حالات نادرة، أعتقد أن هذا يرجع إلى أن المؤلفين أكثر اهتماما بالاستقبال في الأوساط الأكاديمية من عامة الناس، وربما لأنهم يشعرون (وليس دائما بشكل غير صحيح) أن المفاهيم الأساسية المعنية لا يمكن تبسيطها بما فيه الكفاية للاستهلاك العام، على الرغم من الجهود المبالغ فيها في كثير من الأحيان التي تبذلها إدارات العلاقات العامة في مؤسساتهم.

ولكن في كثير من الأحيان، قد يُهمل المؤلفون أو يغفلون عن إدراك أو الاعتراف بتداعيات أعمالهم، متصرفين رسميًا تحت غطاء "العلم". أحيانًا، لا تُمثل هذه "المؤشرات الخفية" مؤشرات إيجابية للعمل، كما ذُكر سابقًا، وقد تُحجب بسخرية في جداول النتائج المعقدة.

ما وراء Arxiv

يجب أن يؤخذ في الاعتبار أن تقسيم الأوراق البحثية حول علوم الكمبيوتر إلى رموز وكيانات منفصلة سيكون أسهل بكثير في مجال مثل Arxiv، والذي يوفر عددًا من "الخطافات" المتسقة والمصممة للتحليل، ولا يتطلب تسجيلات الدخول لمعظم الوظائف.

ليس كل الوصول إلى المنشورات العلمية مفتوح المصدر ، ويبقى أن نرى ما إذا كان كاتب علوم الذكاء الاصطناعي لدينا يمكنه (من وجهة نظر عملية أو قانونية) أو سيلجأ إلى التهرب من نظام حظر الاشتراك غير المدفوع. Sci-Hub ساي-هب؛ لاستخدام مواقع الأرشفة تجنب نظام حظر الاشتراك غير المدفوع؛ وما إذا كان من العملي إنشاء بنيات مماثلة لتعدين المجال لمجموعة واسعة من منصات نشر العلوم الأخرى ، والعديد منها مقاوم هيكليًا للتحقيق المنهجي.

ينبغي كذلك اعتبار أنه حتى Arxiv لديها حدود معدل والتي من المرجح أن تؤدي إلى إبطاء روتين تقييم الأخبار الخاص بكاتب الذكاء الاصطناعي إلى سرعة "إنسانية" أكثر.

كاتب علوم الذكاء الاصطناعي "الاجتماعي"

وبعيدا عن عالم Arxiv المفتوح والمتاح وغيره من منصات النشر العلمي "المفتوحة"، فإن الحصول على إمكانية الوصول إلى ورقة بحثية جديدة ومثيرة للاهتمام يمكن أن يشكل تحديا، ويتضمن ذلك تحديد قناة اتصال للمؤلف والتواصل معه لطلب قراءة العمل، وحتى الحصول على اقتباسات (حيث لا يشكل ضغط الوقت عاملا حاسما - وهي حالة نادرة بالنسبة لمراسلي العلوم الإنسانية هذه الأيام).

قد يستلزم هذا التنقل الآلي بين المجالات العلمية وإنشاء حسابات (يجب تسجيل الدخول للكشف عن عنوان البريد الإلكتروني لمؤلف البحث، حتى على Arxiv). في أغلب الأحيان، يُعد LinkedIn أسرع طريقة للحصول على رد، لكن أنظمة الذكاء الاصطناعي حاليًا... ممنوع من الاتصال بالأعضاء.

فيما يتعلق بكيفية تلقي الباحثين لعروض البريد الإلكتروني من كاتب علمي AI - حسنًا ، كما هو الحال مع عالم كتابة علوم اللحوم ، ربما يعتمد ذلك على تأثير المنفذ. إذا كان كاتب مفترض قائم على الذكاء الاصطناعي من سلكي إذا اتصلنا بمؤلف كان حريصًا على نشر أعماله، فمن المعقول أن نفترض أنه ربما لا يواجه رد فعل عدائي.

في معظم الحالات، يمكن للمرء أن يتخيل أن المؤلف يأمل أن تؤدي هذه التبادلات شبه الآلية في النهاية إلى استدعاء إنسان إلى الحلقة، ولكن ليس من المستبعد أن يتم تسهيل المقابلات المتابعة عبر VOIP بواسطة الذكاء الاصطناعي، على الأقل حيث من المتوقع أن تكون صلاحية المقالة أقل من حد معين، وحيث يكون للنشر ما يكفي من الجاذبية لجذب المشاركة البشرية في محادثة مع "باحث الذكاء الاصطناعي".

تحديد الأخبار باستخدام الذكاء الاصطناعي

تنطبق العديد من المبادئ والتحديات الموضحة هنا على إمكانات الأتمتة عبر قطاعات الصحافة الأخرى ، وكما كان الحال دائمًا ، فإن تحديد قصة محتملة هو التحدي الأساسي. معظم الصحفيين البشر سوف يقرون بأن كتابة القصة في الواقع هي مجرد آخر 10٪ من الجهد المبذول ، وأنه بحلول الوقت الذي تتناثر فيه لوحة المفاتيح ، يكون العمل قد انتهى في الغالب.

التحدي الرئيسي ، إذن ، هو تطوير أنظمة ذكاء اصطناعي يمكنها اكتشاف القصة والتحقيق فيها والمصادقة عليها ، بناءً على التقلبات الغامضة العديدة للعبة الأخبار ، وعبور مجموعة كبيرة من المنصات التي تم تعزيزها بالفعل ضد التحقيق والتسلل ، سواء البشري أو خلاف ذلك.

في حالة التقارير العلمية ، فإن مؤلفي الأوراق الجديدة لديهم أجندة ذاتية عميقة مثل أي مصدر أساسي آخر محتمل لقصة إخبارية ، وسيستلزم تفكيك مخرجاتهم تضمين معرفة مسبقة حول الدوافع الاجتماعية والنفسية والاقتصادية. لذلك ، سيحتاج الكاتب العلمي الآلي المفترض إلى أكثر من إجراءات معالجة اللغات الطبيعية الاختزالية لتحديد مكان الأخبار اليوم ، ما لم يكن مجال الأخبار مقسمًا إلى طبقات بشكل خاص ، كما هو الحال مع الأسهم ، والأرقام الوبائية ، والنتائج الرياضية ، والنشاط الزلزالي ، ومصادر الأخبار الإحصائية البحتة الأخرى .

 

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai