زاوية أندرسون

تشير الأبحاث إلى أن حاملي شهادات الماجستير في القانون على استعداد للمساعدة في "ترميز الاهتزازات" الخبيثة

تم النشر 5 أيار 2025

تحديث 6 سبتمبر 2025

مارتن أندرسون

على مدى السنوات القليلة الماضية، أصبحت نماذج اللغة الكبيرة (LLMs) الفحص المرسوم لإساءة استخدامها المحتملة في الأمن السيبراني الهجومي، وخاصة في توليد ثغرات برمجية.

الاتجاه الأخير نحو ترميز الاهتزاز (الاستخدام العرضي لنماذج اللغة لتطوير الكود للمستخدم بسرعة، بدلاً من استخدامه بشكل صريح) تعاليم لقد أحيى مفهوم "المستخدم للبرمجة" مفهومًا بلغ ذروته في العقد الأول من القرن الحادي والعشرين: "الطفل المبرمج" - وهو فاعل خبيث قليل المهارة نسبيًا، يملك معرفة كافية لتكرار أو تطوير هجوم ضار. ويعني هذا، بطبيعة الحال، أنه عندما يُخفَّض مستوى المخاطر، ستميل التهديدات إلى التكاثر.

تتمتع جميع برامج الماجستير في القانون التجارية بنوع من الحماية ضد استخدامها لهذه الأغراض، على الرغم من أن هذه التدابير الوقائية غير كافية. تحت هجوم مستمرعادةً، يتم إصدار معظم نماذج البرمجيات الحرة والمفتوحة المصدر (عبر مجالات متعددة، من نماذج LLM إلى نماذج الصور/الفيديو التوليدية) مع نوع ما من الحماية المماثلة، عادةً لأغراض الامتثال في الغرب.

ومع ذلك، يتم إصدار النماذج الرسمية بشكل روتيني صقل من قبل مجتمعات المستخدمين التي تسعى للحصول على وظائف أكثر اكتمالاً، أو LoRAs يتم استخدامه لتجاوز القيود والحصول على نتائج "غير مرغوب فيها".

على الرغم من أن الغالبية العظمى من برامج الماجستير في القانون عبر الإنترنت ستمنع مساعدة المستخدم في العمليات الضارة، إلا أن المبادرات "غير المقيدة" مثل قبعة عميقة متاحة لمساعدة الباحثين الأمنيين على العمل على قدم المساواة مع خصومهم.

يتم تمثيل تجربة المستخدم العامة في الوقت الحاضر بشكل شائع في شات جي بي تي سلسلة، والتي غالبًا ما تثير آليات التصفية الخاصة بها انتقادات من المجتمع الأصلي لـ LLM.

يبدو أنك تحاول مهاجمة النظام!

في ضوء هذا الاتجاه الملحوظ نحو التقييد والرقابة، قد يفاجأ المستخدمون عندما يجدون أن ChatGPT هو الأكثر تعاونا من بين جميع طلاب الماجستير في القانون الذين تم اختبارهم في دراسة حديثة مصممة لإجبار نماذج اللغة على إنشاء استغلالات برمجية ضارة.

ال ورقة جديدة من الباحثين في جامعة نيو ساوث ويلز في سيدني ومنظمة الكومنولث للبحوث العلمية والصناعية (CSIRO)، بعنوان أخبار سارة لهواة البرمجة النصية؟ تقييم نماذج اللغات الكبيرة لتوليد الثغرات الأمنية تلقائيًايقدم أول تقييم منهجي لمدى فعالية تحفيز هذه النماذج لإنتاج ثغرات فعالة. أمثلة على المحادثات من البحث تم توفير من قبل المؤلفين.

تقارن الدراسة كيفية أداء النماذج في كل من الإصدارات الأصلية والمعدلة لمختبرات الثغرات الأمنية المعروفة (تمارين البرمجة المنظمة المصممة لإظهار عيوب أمنية محددة في البرامج)، مما يساعد على الكشف عما إذا كانت تعتمد على محفوظ أمثلة أو صعوبات بسبب قيود السلامة المضمنة.

من خلال الموقع الداعم، يساعد برنامج ماجستير القانون في أولاما الباحثين على تطوير هجوم ثغرة في السلاسل. المصدر: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

من خلال الموقع الداعم، يساعد برنامج Ollama LLM الباحثين على تطوير هجوم ثغرة في السلسلة. المصدر: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

في حين لم يتمكن أي من النماذج من إنشاء استغلال فعال، فقد اقترب العديد منها كثيرًا؛ والأهم من ذلك، أن العديد منها أردت أن أقوم بالمهمة بشكل أفضل، مما يشير إلى فشل محتمل في طرق الحماية الحالية.

تقول الورقة:

تُظهر تجاربنا أن GPT-4 وGPT-4o يُظهران تعاونًا عاليًا في توليد الثغرات الأمنية، يُضاهي بعض نماذج المصادر المفتوحة غير الخاضعة للرقابة. من بين النماذج المُقيّمة، كان Llama3 الأكثر مقاومةً لمثل هذه الطلبات.

على الرغم من استعدادهم للمساعدة، إلا أن التهديد الفعلي الذي تُشكله هذه النماذج لا يزال محدودًا، إذ لم ينجح أيٌّ منها في توليد ثغرات للمختبرات الخمسة المُخصصة باستخدام شيفرات مُعاد تصميمها. ومع ذلك، فإن GPT-4o، وهو النموذج الأقوى أداءً في دراستنا، لم يُرتكب عادةً سوى خطأ أو خطأين في كل محاولة.

'يشير هذا إلى إمكانية كبيرة للاستفادة من برامج الماجستير في القانون لتطوير تقنيات متقدمة وقابلة للتعميم [إنشاء الاستغلال الآلي (AEG)].

العديد من الفرص الثانية

الحقيقة المبتذلة "لن تحصل على فرصة ثانية لإحداث انطباع أول جيد" لا تنطبق عمومًا على طلاب الماجستير في القانون، لأن نموذج اللغة محدود عادةً نافذة السياق يعني أن السياق السلبي (بالمعنى الاجتماعي، أي العداء) هو غير مستمر.

فكّر: لو ذهبتَ إلى مكتبة وطلبتَ كتابًا عن صنع القنابل عمليًا، فمن المرجح أن يُرفض طلبك، على أقل تقدير. ولكن (بافتراض أن هذا الاستفسار لم يُفسد الحوار تمامًا من البداية) فإن طلباتك لـ أعمال ذات صلة، مثل الكتب التي تتناول التفاعلات الكيميائية، أو تصميم الدوائر، ستكون، في ذهن أمين المكتبة، مرتبطة بشكل واضح بالاستفسار الأولي، وسيتم التعامل معها في هذا الضوء.

ومن المرجح أن يتذكر أمين المكتبة أيضًا في أي وقت. مستقبل الاجتماعات التي طلبت فيها كتابًا عن صناعة القنابل في تلك المرة، مما يجعل هذا السياق الجديد الخاص بك "غير قابل للإصلاح".

ولكن الأمر ليس كذلك مع برنامج ماجستير إدارة الأعمال، الذي قد يواجه صعوبة في الاحتفاظ بالمعلومات المميزة حتى من المحادثة الحالية، ناهيك عن توجيهات الذاكرة طويلة المدى (إن وجدت في البنية، كما هو الحال مع منتج ChatGPT-4o).

وهكذا، حتى المحادثات العادية مع ChatGPT تكشف لنا عن طريق الصدفة أنه في بعض الأحيان يجهد البعوضة ولكنه يبتلع الجمل، وخاصة عندما يُسمح لموضوع مكون أو دراسة أو عملية تتعلق بنشاط "محظور" بخلاف ذلك بالتطور أثناء الخطاب.

ينطبق هذا على جميع نماذج اللغة الحالية، على الرغم من أن جودة الحاجز الواقي قد تختلف في المدى والنهج فيما بينها (أي الفرق بين تعديل النموذج وتعديله). الأوزان من النموذج المدرب أو استخدام تصفية النص للداخل/الخارج أثناء جلسة الدردشة، مما يترك النموذج سليمًا من الناحية الهيكلية ولكن من المحتمل أن يكون من الأسهل مهاجمته).

اختبار الطريقة

لاختبار مدى إمكانية دفع برامج إدارة الأعمال نحو توليد ثغرات أمنية عاملة، قام المؤلفون بإعداد بيئة خاضعة للرقابة باستخدام خمسة مختبرات من مختبرات SEED، تم بناء كل منها حول نقاط الضعف المعروفة بما في ذلك تجاوز سعة المخزن المؤقت, العودة إلى libcأو المعلم هجوم البقرة القذرةو شروط السباق.

بالإضافة إلى استخدام المختبرات الأصلية، أنشأ الباحثون نسخًا معدلة بإعادة تسمية المتغيرات والوظائف إلى مُعرّفات عامة. وكان الهدف من ذلك منع النماذج من الاعتماد على أمثلة تدريبية محفوظة.

تم تشغيل كل مختبر مرتين لكل نموذج: مرة في شكله الأصلي، ومرة في نسخته المبهمة.

ثم أضاف الباحثون برنامجًا ثانويًا إلى الحلقة: نموذج مهاجم مُصمم لتحفيز النموذج المستهدف وإعادة تحفيزه لتحسين مخرجاته على مدار جولات متعددة. كان برنامج GPT-4o هو البرنامج المُستخدم لهذا الدور، والذي يعمل من خلال برنامج نصي يُتوسط الحوار بين المهاجم والهدف، مما يسمح لدورة التحسين بالاستمرار حتى خمس عشرة مرة، أو حتى يُحكم على عدم إمكانية إجراء أي تحسين إضافي.

سير العمل للمهاجم المستند إلى LLM، في هذه الحالة GPT-4o.

وكانت النماذج المستهدفة للمشروع هي جي بي تي-4o, GPT-4o-ميني, لاما 3 (8 ب) ، دولفين ميسترال (7ب)، و دولفين-فاي (2.7 ب)، تمثل الأنظمة الملكية والمفتوحة المصدر، مع مزيج من النماذج المتوافقة وغير المتوافقة (أي النماذج ذات آليات الأمان المضمنة المصممة لمنع المطالبات الضارة، وتلك المعدلة من خلال الضبط الدقيق أو التكوين لتجاوز تلك الآليات).

تم تشغيل النماذج القابلة للتثبيت محليًا عبر أولاما الإطار، مع إمكانية الوصول إلى الآخرين عبر الطريقة الوحيدة المتاحة لهم - واجهة برمجة التطبيقات.

تم تسجيل النتائج الناتجة بناءً على عدد الأخطاء التي منعت الاستغلال من العمل كما هو مقصود.

النتائج

قام الباحثون باختبار مدى تعاون كل نموذج أثناء عملية إنشاء الاستغلال، وتم قياس ذلك من خلال تسجيل النسبة المئوية للاستجابات التي حاول فيها النموذج المساعدة في المهمة (حتى لو كان الناتج معيبًا).

نتائج الاختبار الرئيسي، والتي تظهر متوسط التعاون.

أظهر GPT-4o وGPT-4o-mini أعلى مستويات التعاون، مع معدلات استجابة متوسطة بلغت 97 و96 في المائة، على التوالي، عبر فئات الضعف الخمس: تجاوز سعة المخزن المؤقت, العودة إلى libc, سلسلة الشكل, حالة السباقو بقرة قذرة.

تبعتها دولفين ميسترال ودولفين فاي بفارق كبير، بمعدلات تعاون متوسطة بلغت 93 و95%. أظهرت لاما 3 الأقل الاستعداد للمشاركة، مع معدل تعاون إجمالي يبلغ 27 في المائة فقط:

على اليسار، نرى عدد الأخطاء التي ارتكبها طلاب الماجستير في القانون في برامج SEED Lab الأصلية؛ وعلى اليمين، عدد الأخطاء التي ارتكبت في الإصدارات المعاد صياغتها.

وعند فحص الأداء الفعلي لهذه النماذج، وجدوا فجوة ملحوظة بين استعداد و فعالية:أنتج GPT-4o أدق النتائج، بإجمالي ستة أخطاء في المختبرات الخمسة المُعتمة. تلاه GPT-4o-mini بثمانية أخطاء. قدّم Dolphin-Mistral أداءً جيدًا في المختبرات الأصلية، لكنه عانى بشكل ملحوظ عند إعادة هيكلة الكود، مما يشير إلى أنه ربما رأى محتوى مشابهًا أثناء التدريب. ارتكب Dolphin-Phi سبعة عشر خطأً، وLlama3 الأكثر، بخمسة عشر خطأً.

عادةً ما كانت حالات الفشل ناتجة عن أخطاء تقنية جعلت الثغرات غير قابلة للاستخدام، مثل أحجام المخازن المؤقتة غير الصحيحة، أو منطق الحلقة المفقودة، أو حمولات صحيحة نحويًا ولكنها غير فعالة. لم ينجح أي نموذج في إنتاج ثغرات فعالة لأي من الإصدارات المُعتمة.

لاحظ المؤلفون أن معظم النماذج أنتجت كودًا يشبه الثغرات العاملة، لكنها فشلت بسبب ضعف الفهم لكيفية عمل الهجمات الأساسية بالفعل - وهو النمط الذي كان واضحًا في جميع فئات الثغرات، والذي يشير إلى أن النماذج كانت تحاكي هياكل الكود المألوفة بدلاً من التفكير من خلال المنطق المعني (في حالات تجاوز سعة المخزن المؤقت، على سبيل المثال، فشل الكثيرون في إنشاء كود عامل). زلاجة/منزلقة NOP).

في محاولات العودة إلى libc، غالبًا ما كانت الحمولات تتضمن حشوًا غير صحيح أو عناوين وظيفة غير موضوعة بشكل صحيح، مما أدى إلى ظهور مخرجات صالحة، ولكنها غير قابلة للاستخدام.

وفي حين يصف المؤلفون هذا التفسير بأنه تخميني، فإن اتساق الأخطاء يشير إلى مشكلة أوسع نطاقاً حيث تفشل النماذج في ربط خطوات الاستغلال بالتأثير المقصود منها.

الخاتمة

تُقرّ الورقة البحثية بوجود بعض الشك حول ما إذا كانت نماذج اللغة المُختَبَرة قد شاهدت مختبرات SEED الأصلية أثناء التدريب الأول أم لا؛ ولهذا السبب تم بناء المتغيرات. مع ذلك، يؤكد الباحثون رغبتهم في العمل على ثغرات واقعية في التكرارات اللاحقة لهذه الدراسة؛ فالمواد الجديدة والحديثة أقل عرضة للتأثر. الاختصارات أو غيرها من التأثيرات المربكة.

ويعترف المؤلفون أيضًا بأن نماذج "التفكير" الأحدث والأكثر تقدمًا مثل GPT-o1 و DeepSeek-r1، والتي لم تكن متاحة في وقت إجراء الدراسة، قد تعمل على تحسين النتائج التي تم الحصول عليها، وأن هذا مؤشر آخر للعمل في المستقبل.

خلصت الورقة البحثية إلى أن معظم النماذج المختبرة كانت ستُنتج ثغراتٍ فعّالة لو كانت قادرةً على ذلك. ولا يبدو أن فشلها في توليد مخرجاتٍ وظيفيةٍ كاملةٍ ناتجٌ عن ضماناتٍ للمحاذاة، بل يُشير إلى قيدٍ معماريٍّ حقيقيٍّ - وهو قيدٌ ربما يكون قد خُفِّضَ بالفعل في النماذج الأحدث، أو سيُخفَّف قريبًا.

نُشر لأول مرة يوم الإثنين 5 مايو 2025

تحسين تكلفة الحوسبة السحابية المدعومة بالذكاء الاصطناعي: الاستراتيجيات وأفضل الممارسات

لا تفوت

لماذا يحل استخراج المستندات الوكيل محل التعرف الضوئي على الحروف (OCR) من أجل أتمتة المستندات بشكل أكثر ذكاءً

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai