الذكاء الاصطناعي

يستخرج التعلم الآلي بيانات الهجوم من تقارير التهديدات المطولة

تحديث on 9 كانون الأول، 2022

يوضح بحث جديد من جامعة شيكاغو الصراع الذي نشأ في السنوات العشر الماضية بين فوائد تحسين محركات البحث للمحتوى الطويل، والصعوبة التي تواجهها أنظمة التعلم الآلي في استخلاص البيانات الأساسية منه.

في تطوير نظام تحليل البرمجة اللغوية العصبية لاستخراج معلومات التهديد الأساسية من تقارير استخبارات التهديد السيبراني (CTI) ، واجه باحثو شيكاغو ثلاث مشكلات: التقارير عادة طويلة جدًا ، مع قسم صغير فقط مخصص لسلوك الهجوم الفعلي ؛ الأسلوب كثيف ومعقد نحويًا ، مع معلومات واسعة النطاق محددة المجال تفترض معرفة مسبقة من جانب القارئ ؛ وتتطلب المادة معرفة علاقة عبر المجالات ، والتي يجب "حفظها" لفهمها في السياق (أ مشكلة مستمرة، لاحظ الباحثون).

تقارير التهديدات طويلة الأمد

المشكلة الأساسية هي الإسهاب. على سبيل المثال ، تشير ورقة شيكاغو إلى أنه من بين 42 صفحة من ClearSky لعام 2019 تقرير التهديد بالنسبة للبرامج الضارة DustySky (المعروفة أيضًا باسم NeD Worm) ، هناك 11 جملة فقط تتعامل مع سلوك الهجوم وتوضحه.

العقبة الثانية هي تعقيد النص ، وطول الجملة بشكل فعال: لاحظ الباحثون أنه من بين 4020 تقرير تهديد من مركز تقارير التهديد في Microsoft ، فإن متوسط الجملة يتكون من 52 كلمة - تسعة فقط أقل من متوسط طول الجملة منذ سنوات 500 (في سياق حقيقة أن طول الجملة له انخفض 75 ٪ منذ ذلك الحين).

ومع ذلك ، تؤكد الورقة أن هذه الجمل الطويلة هي في الأساس "فقرات مضغوطة" في حد ذاتها ، مليئة بالجمل والظروف والصفات التي تحجب المعنى الأساسي للمعلومات ؛ وأن الجمل غالبًا ما تفتقر إلى علامات الترقيم التقليدية الأساسية التي NLP أنظمة مثل سباوستانفورد و نلتك الاعتماد على استنتاج القصد أو استخراج البيانات الثابتة.

البرمجة اللغوية العصبية لاستخراج معلومات التهديد البارزة

يسمى خط أنابيب التعلم الآلي الذي طوره باحثو شيكاغو لمعالجة هذا الأمر مستخرج، ويستخدم تقنيات البرمجة اللغوية العصبية لإنشاء الرسوم البيانية التي تلخص وتلخص سلوك الهجوم من تقارير استطرادية طويلة الشكل. تتجاهل العملية الزخرفة التاريخية والسردية وحتى الجغرافية التي تخلق "قصة" جذابة وشاملة على حساب إعطاء الأولوية بشكل واضح للحمولة المعلوماتية.

المصدر: https://arxiv.org/pdf/2104.08618.pdf

نظرًا لأن السياق يمثل تحديًا في تقارير CTI المطولة والممتدة ، فقد اختار الباحثون تنسيق بيرت (تمثيلات التشفير ثنائية الاتجاه من محول) نموذج تمثيل اللغة على جوجل Word2Old أو GloVe في ستانفورد (المتجهات العالمية لتمثيل الكلمات).

يقوم BERT بتقييم الكلمات من سياقها المحيط ، وكذلك تطويرها التضمين للكلمات الفرعية (على سبيل المثال إطلاق, إطلاق و تطلق كل الجذع وصولا إلى إطلاق). يساعد هذا المستخرج على التعامل مع المفردات التقنية غير الموجودة في نموذج تدريب بيرت ، وتصنيف الجمل على أنها "منتجة" (تحتوي على معلومات ذات صلة) أو "غير منتجة".

زيادة المفردات المحلية

حتما يجب دمج بعض رؤى المجال المحددة في خط أنابيب البرمجة اللغوية العصبية الذي يتعامل مع مواد من هذا النوع ، حيث لا يجب استبعاد أشكال الكلمات وثيقة الصلة مثل عناوين IP وأسماء العمليات الفنية.

تستخدم الأجزاء اللاحقة من العملية ملف بيلستم (ثنائي الاتجاه LSTM) لمعالجة إسهاب الكلمات ، واشتقاق الأدوار الدلالية لأجزاء الجملة ، قبل إزالة الكلمات غير المنتجة. يعد BiLSTM مناسبًا تمامًا لذلك ، حيث يمكنه ربط التبعيات بعيدة المدى التي تظهر في المستندات المطولة ، حيث يكون الاهتمام الأكبر والاحتفاظ به ضروريين لاستنتاج السياق.

يحدد المستخرج الأدوار الدلالية والعلاقات بين الكلمات ، مع الأدوار التي تم إنشاؤها بواسطة شروح Proposition Bank (PropBank).

يحدد المستخرج الأدوار الدلالية والعلاقات بين الكلمات ، مع الأدوار التي تم إنشاؤها بواسطة Proposition Bank (بروببانك) التعليقات التوضيحية.

في الاختبارات ، وجد المستخلص (الممول جزئيًا من قبل DARPA) قادرًا على مطابقة استخراج البيانات البشرية من تقارير DARPA. تم تشغيل النظام أيضًا مع عدد كبير من التقارير غير المنظمة من Microsoft Security Intelligence و TrendMicro Threat Encyclopedia ، واستخراج المعلومات البارزة بنجاح في غالبية الحالات.

يقر الباحثون أن أداء المستخرج من المرجح أن يتضاءل عند محاولة استخلاص الإجراءات التي تحدث عبر عدد من الجمل أو الفقرات ، على الرغم من أن إعادة استخدام النظام لاستيعاب التقارير الأخرى يُشار إليها كطريقة للمضي قدمًا هنا. ومع ذلك ، فإن هذا يرجع بشكل أساسي إلى وضع العلامات التي يقودها الإنسان بالوكالة.

الطول == السلطة؟

من المثير للاهتمام ملاحظة التوتر المستمر بين الطريقة التي تبدو بها خوارزميات تحسين محركات البحث الغامضة من Google يكافأ بشكل متزايد المحتوى الطويل في السنوات الأخيرة (على الرغم من النصائح الرسمية حول هذا الموضوع متناقض) ، والتحديات التي يواجهها باحثو الذكاء الاصطناعي (بما في ذلك العديد من التخصصات مبادرات بحث جوجل) يواجه في فك القصد والبيانات الفعلية من هذه المقالات الخطابية المطولة بشكل متزايد.

يمكن القول أنه في مكافأة المحتوى الأطول ، تفترض Google جودة متسقة لا يمكنها بالضرورة تحديدها أو تحديدها من خلال عمليات البرمجة اللغوية العصبية ، إلا عن طريق حساب عدد مواقع الاستناد التي ترتبط به (مقياس "برامج اللحوم" ، في أغلب الحالات)؛ ولذلك ليس من غير المعتاد رؤية منشورات تتكون من 2,500 كلمة أو أكثر تحظى بشهرة SERPS بغض النظر عن "سخام" السرد ، طالما أن المحتوى الإضافي واضح على نطاق واسع ولا يخالف الإرشادات الأخرى.

أين الوصفة؟

وبناء على ذلك، عدد الكلمات آخذ في الازدياد، جزئيًا بسبب أ رغبة حقيقية للحصول على محتوى طويل جيد ، ولكن أيضًا لأن "تخزين" بعض الحقائق الضئيلة يمكن أن يرفع طول القطعة إلى معايير تحسين محركات البحث المثالية ، ويسمح للمحتوى البسيط بالتنافس على قدم المساواة مع المخرجات ذات الجهد العالي.

أحد الأمثلة على ذلك هو مواقع الوصفات ، كثيرا اشتكى of في مجتمع Hacker News لتقديم المعلومات الأساسية (الوصفة) مع مجموعات من السيرة الذاتية أو المحتوى غريب الأطوار المصمم لإنشاء "تجربة وصفة" مدفوعة بالقصة ، ودفع ما يمكن أن يكون عدد كلمات منخفضًا جدًا في مُحسّنات محرّكات البحث -الودية 2,500+ كلمة المنطقة.

ظهر عدد من الحلول الإجرائية البحتة لاستخراج الوصفات الفعلية من مواقع الوصفات المطولة ، بما في ذلك المصادر المفتوحة كاشطات وصفة، ومستخلصات الوصفات لـ برنامج فايرفوكس و الكروم. يهتم التعلم الآلي أيضًا بهذا ، مع مناهج مختلفة من اليابان, الولايات المتحدة و البرتغال، وكذلك بحث من ستانفورد ، من بين آخرين.

فيما يتعلق بتقارير استخبارات التهديدات التي تناولها باحثو شيكاغو ، قد تكون الممارسة العامة للإبلاغ المطول عن التهديد جزئيًا بسبب الحاجة إلى عكس مقياس الإنجاز (الذي يمكن تلخيصه في فقرة في كثير من الأحيان) عن طريق إنشاء سرد طويل حولها ، واستخدام طول الكلمة كبديل لحجم الجهد المبذول ، بغض النظر عن قابلية التطبيق.

ثانيًا ، في مناخ يكون فيه المصدر الأصلي للقصة غالبًا فقد بسبب ممارسات الاقتباس السيئة من خلال المنافذ الإخبارية الشهيرة ، فإن إنتاج عدد كلمات أكبر مما يمكن لأي صحفي إعادة تقديم التقارير أن يكرره يضمن فوز SERPS من خلال حجم الكلمات المطلق ، بافتراض أن الإسهاب - الآن التحدي المتزايد إلى البرمجة اللغوية العصبية - يكافأ بهذه الطريقة حقًا.