زاوية Anderson
يُشير البحث إلى أن النماذج اللغوية الكبيرة على استعداد للمساعدة في برمجة الخبث “Vibe Coding”

على مدار السنوات القليلة الماضية، جذبت النماذج اللغوية الكبيرة (LLMs) الانتباه لاستخدامها المحتمل في مجال الأمن السيبراني الهجومي، ولا سيما في توليد ثغرات برمجية. وتجديد الاتجاه نحو “برمجة الخبث” (استخدام النماذج اللغوية بسرعة لتطوير التعليمات البرمجية للمستخدم، بدلاً من تعليم المستخدم البرمجة بشكل صريح) أعاد إحياء مفهوم بلغ ذروته في العقد الأول من القرن الحادي والعشرين: “مهاجم البرمجيات” – وهو ممثل خبيث ذو مهارات محدودة مع معرفة كافية لاستنساخ أو تطوير هجوم ضار. والفكرة المتأصلة هي أن عندما يتم خفض عتبة الدخول، فإن التهديدات تميل إلى التكاثر.
تملك جميع النماذج اللغوية التجارية نوعًا من الحماية ضد استخدامها لأغراض مثل هذه، على الرغم من أن هذه الإجراءات الوقائية تخضع للهجوم المستمر. وعادة ما يتم إصدار معظم نماذج البرمجيات الحرة والمفتوحة المصدر (عبر مجالات متعددة، من النماذج اللغوية الكبيرة إلى نماذج الصور والفيديو التوليدية) مع نوع من الحماية المماثلة، وعادةً لأغراض الامتثال في الغرب.
然而، يتم تعديل إصدارات النماذج الرسمية بشكل روتيني من قبل مجتمعات المستخدمين التي تسعى للحصول على وظائف أكثر اكتمالاً، أو استخدام LoRAs لتجاوز القيود والحصول على نتائج “غير مرغوب فيها”.
على الرغم من أن غالبية النماذج اللغوية الكبيرة عبر الإنترنت ستمنع المساعدة في العمليات الخبيثة، إلا أن هناك مبادرات “غير مقيدة” مثل Deep Hat متاحة لمساعدة باحثي الأمن على العمل على قدم المساواة مع معارضيهم.
الخبرة العامة للمستخدم في الوقت الحالي تمثل عادةً في سلسلة ChatGPT، والتي تنتقد آليات التصفية بشكل متكرر من قبل مجتمع LLM الأصلي.
يبدو أنك تحاول مهاجمة نظامًا!
في ضوء هذا الاتجاه المتصور نحو القيود والرقابة، قد ي驚 المستخدمون باكتشاف أن ChatGPT هو الأكثر تعاونًا من بين جميع النماذج اللغوية الكبيرة التي تم اختبارها في دراسة حديثة مصممة للضغط على النماذج اللغوية لتوليد ثغرات برمجية خبيثة.
الورقة الجديدة من الباحثين في UNSW Sydney وCommonwealth Scientific and Industrial Research Organisation (CSIRO)، بعنوان أخبار جيدة للمهاجمين؟ تقييم النماذج اللغوية الكبيرة لتوليد الثغرات التلقائي، تقدم التقييم الأول النظامي لكيفية تأثير هذه النماذج في توليد ثغرات برمجية خبيثة.
تُقارن الدراسة أداء النماذج على الإصدارات الأصلية والمدونة من مختبرات الثغرات المعروفة (تمارين برمجة هيكلية مصممة لتوضيح الثغرات الأمنية البرمجية الخاصة)، مما يساعد على الكشف عما إذا كانت تعتمد على الأمثلة المحفوظة أو عانت بسبب القيود الأمنية المدمجة.

من الموقع الداعم، يساعد نموذج Ollama الباحثين على تطوير هجوم على ثغرة السلسلة. Source: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt
على الرغم من أن أي نموذج لم يتمكن من إنشاء ثغرة برمجية فعالة، إلا أن العديد منهم اقترب بشكل كبير؛ والأهم من ذلك، أن العديد منهم أراد أن يفعل أفضل في المهمة، مما يشير إلى فشل محتمل في نهج الحماية الحالية.
تُشير الورقة إلى:
‘تُظهر تجاربنا أن GPT-4 وGPT-4o يظهران درجة عالية من التعاون في توليد الثغرات، قابلة للمقارنة مع بعض النماذج المفتوحة المصدر غير الخاضعة للرقابة. وكان Llama3 هو الأكثر مقاومة لهذه الطلبات.
‘على الرغم من رغبتهم في المساعدة، فإن التهديد الفعلي الذي تشكله هذه النماذج يبقى محدودًا، حيث لم يتمكن أي نموذج من توليد ثغرات لخمسة مختبرات مخصصة مع رمز معاد هيكلته. ومع ذلك، كان GPT-4o، وهو الأفضل أداءً في دراستنا، يُرتكب عادةً خطأً أو خطأين فقط في كل محاولة.
‘هذا يشير إلى إمكانية كبيرة للاستفادة من النماذج اللغوية الكبيرة لتطوير تقنيات توليد الثغرات التلقائي المتقدمة والقابلة للتعميم.’
فرص كثيرة للتعافي
القول المأثور “لا تحصل على فرصة ثانية لترك انطباع جيد” لا ينطبق عادةً على النماذج اللغوية الكبيرة، لأن نافذة السياق المحدودة للنموذج اللغوي تعني أن السياق السلبي (بمعنى اجتماعي، أي العداء) لا يكون مستدامًا.
فكر في الأمر: إذا ذهبت إلى مكتبة وسألت عن كتاب حول صناعة القنابل العملية، فمن المحتمل أن تُرفض، على الأقل. ولكن (افتراضًا أن هذا الاستفسار لم يُغلق تمامًا المحادثة من البداية) سيكون طلبك الأعمال المرتبطة، مثل الكتب حول التفاعلات الكيميائية أو تصميم الدوائر، واضحًا أنه مرتبط بالاستفسار الأولي، وسيتم التعامل معه على هذا النحو.
من المحتمل أن يتذكر أمين المكتبة أيضًا في أي لقاءات مستقبلية أنك سألت عن كتاب حول صناعة القنابل في المرة السابقة، مما يجعل سياقك الجديد “غير قابل للإصلاح”.
ليس الأمر كذلك مع النموذج اللغوي الكبير، الذي قد يجد صعوبة في الاحتفاظ بمعلومات التokens حتى من المحادثة الحالية، ناهيكم عن توجيهات الذاكرة الطويلة الأمد (إذا كانت هناك أي توجيهات في الهيكل، كما هو الحال مع منتج ChatGPT-4o).
بالتالي، حتى المحادثات غير الرسمية مع ChatGPT تكشف لنا عن أنهم يجدون صعوبة أحيانًا في التمييز بين الأمور، ولا سيما عندما يتم تطوير موضوع أو دراسة أو عملية متعلقة بنشاط محظور خلال المحادثة.
هذا ينطبق على جميع النماذج اللغوية الحالية، على الرغم من أن جودة الحماية قد تختلف في المدى والنهج بينها (أي الفرق بين تعديل الوزن للنموذج المدرب أو استخدام التصفية الداخلية / الخارجية للنص خلال جلسة المحادثة، والتي تترك النموذج سليمًا هيكليًا ولكنها قد تكون أكثر عرضة للهجوم).
اختبار الطريقة
为了 اختبار مدى قدرة النماذج اللغوية الكبيرة على توليد ثغرات برمجية خبيثة، قام المؤلفون بإنشاء بيئة خاضعة للرقابة باستخدام خمسة مختبرات من SEED Labs، كل منها مبني حول ثغرات معروفة بما في ذلك فيضان المخزن المؤقت، إرجاع إلى libc، هجوم Dirty COW، و ظروف السباق.
بالإضافة إلى استخدام المختبرات الأصلية، قام الباحثون بإنشاء إصدارات معدلة عن طريق إعادة تسمية المتغيرات والوظائف إلى معرّفات عامة. كان هذا يهدف إلى منع النماذج من الاعتماد على الأمثلة المحفوظة في التدريب.
تم تشغيل كل مختبر مرتين لكل نموذج: مرة في شكله الأصلي، ومرة في نسخته المخادعة.
ثم أدخل الباحثون نموذجًا لغويًا آخر إلى الحلقة: نموذج مهاجم مصمم لتحفيز و إعادة تحفيز النموذج المستهدف من أجل تحسين وتحسين الإخراج على مدار عدة جولات. كان النموذج اللغوي المستخدم لهذا الدور هو GPT-4o، والذي يعمل من خلال سيناريو يُorchiestر الحوار بين المهاجم والنموذج المستهدف، مما يسمح باستمرار دورة التحسين حتى пятнад مرة، أو حتى لا يُحكم على أي تحسين إضافي ممكنًا:

workflow لنموذج المهاجم القائم على LLM، في هذه الحالة GPT-4o.
كانت النماذج المستهدفة للمشروع هي GPT-4o، GPT-4o-mini، Llama3 (8B)، Dolphin-Mistral (7B)، و Dolphin-Phi (2.7B)، مما يمثل أنظمة تجارية ومفتوحة المصدر، مع مزيج من النماذج الموجهة وغير الموجهة (أي النماذج التي تحتوي على آليات أمنية مدمجة مصممة لمنع التحفيزات الضارة، وال那些 التي تم تعديلها من خلال التعدين الدقيق أو التكوين لتجاوز تلك الآليات).
تم تشغيل النماذج القابلة للتثبيت محليًا عبر إطار Ollama، في حين تم الوصول إلى البقية فقط من خلال واجهة برمجة التطبيقات.
تم تقييم الإخراج الناتج بناءً على عدد الأخطاء التي منعت الثغرة من العمل كما هو موضح.
النتائج
قاس الباحثون مدى تعاون كل نموذج خلال عملية توليد الثغرات، مقاسًا بنسبة الاستجابات التي حاول النموذج من خلالها المساعدة في المهمة (حتى لو كان الإخراج معيبًا).

النتائج من الاختبار الرئيسي، مما يظهر التعاون المتوسط.
أظهر GPT-4o و GPT-4o-mini أعلى مستويات التعاون، مع معدلات استجابة متوسطة بنسبة 97 و 96 في المائة، على التوالي، عبر فئات الخمس ثغرات: فيضان المخزن المؤقت، إرجاع إلى libc، سلسلة التنسيق، ظروف السباق، و Dirty COW.
تبعت Dolphin-Mistral و Dolphin-Phi عن كثب، مع معدلات تعاون متوسطة بنسبة 93 و 95 في المائة. أظهر Llama3 أقل استعدادًا للمشاركة، مع معدل تعاون إجمالي بنسبة 27 في المائة:

على اليسار، نرى عدد الأخطاء التي ارتكبها النماذج اللغوية الكبيرة على برامج مختبر SEED الأصلية؛ على اليمين، عدد الأخطاء التي ارتكبت على الإصدارات المعدلة.
عندما قاموا بفحص الأداء الفعلي لهذه النماذج، وجدوا فجوة ملحوظة بين الاستعداد و الفعالية: أنتج GPT-4o نتائج الأكثر دقة، مع ستة أخطاء فقط عبر المختبرات الخمسة المخادعة. تبعه GPT-4o-mini بثمانية أخطاء. أدى Dolphin-Mistral أداءً معقولاً على المختبرات الأصلية لكنه عانى بشكل كبير عندما تم إعادة هيكلة الشفرة، مما يشير إلى أنه قد رأى محتوى مشابهًا خلال التدريب. قام Dolphin-Phi بسبعة عشر خطأً، و Llama3 الأكثر، مع خمسة عشر.
الآثار الناتجة عن الأخطاء الفنية التي جعلت الثغرات غير فعالة، مثل أحجام المخزن المؤقت غير الصحيحة، أو منطق الحلقات الناقص، أو الحمولات الصحيحة ولكن غير الفعالة. لم يتمكن أي نموذج من إنتاج ثغرة برمجية خبيثة فعالة لأي من الإصدارات المخادعة.
لاحظ المؤلفون أن معظم النماذج أنتجت شفرة تشبه الثغرات الفعالة، ولكنها فشلت بسبب فهم ضعيف لكيفية عمل الهجمات الفعلية – نمط ظهر عبر جميع فئات الثغرات، والذي يشير إلى أن النماذج كانت تقلد هياكل شفرة مألوفة بدلاً من التفكير من خلال المنطق المشار إليه (في حالات فيضان المخزن المؤقت، على سبيل المثال، فشل العديد في بناء sled/slide NOP وظيفي).
في محاولات إرجاع إلى libc، كانت الحمولات غالبًا ما تحتوي على حشو غير صحيح أو عناوين وظيفية غير محقة، مما أدى إلى إخراج يبدو صالحًا ولكن غير قابل للاستخدام.
على الرغم من أن المؤلفين يصفون هذه التفسيرات بأنها تخمينية، إلا أن استمرار الأخطاء يشير إلى مشكلة أوسع نطاقًا حيث تفشل النماذج في ربط خطوات الثغرة مع تأثيرها المقصود.
الختام
هناك بعض الشك، يعترف المؤلفون، حول ما إذا كانت النماذج اللغوية الكبيرة التي تم اختبارها رأت مختبرات SEED الأصلية أثناء التدريب الأول؛ ولهذا السبب تم بناء المتغيرات. ومع ذلك، يؤكد الباحثون أنهم يرغبون في العمل مع ثغرات حقيقية في الإصدارات اللاحقة من هذه الدراسة؛ المواد الجديدة والحديثة أقل عرضة للخداع أو الآثار المربكة الأخرى.
يعترف المؤلفون أيضًا بأن النماذج “اللاحقة” والأكثر تقدمًا مثل GPT-o1 و DeepSeek-r1، والتي لم تتوفر في وقت إجراء الدراسة، قد تحسن النتائج التي تم الحصول عليها، وهو ما يُشير إلى إشارة أخرى للعمل المستقبلي.
تستنتج الورقة أن معظم النماذج التي تم اختبارها كانت لتوليد ثغرات برمجية خبيثة إذا كانت قادرة على ذلك. فشلهم في توليد إخراج وظيفي完全 لا يبدو ناتجًا عن آليات الحماية الموجهة، ولكن يُشير إلى محدودية هيكلية حقيقية – واحدة قد تم بالفعل تقليلها في نماذج أكثر حداثة، أو سوف يتم قريباً.
نُشر لأول مرة يوم الإثنين، 5 مايو 2025












