الأمن السيبراني

باحثو HiddenLayer يتجاوزون حواجز OpenAI ، يكشفون عن خلل حرج في تعديل الذات في أمان الذكاء الاصطناعي

نُشر في 12 أكتوبر 2025

تم التحديث في 17 مايو 2026

بواسطة

Antoine Tardif, الرئيس التنفيذي ومؤسس Unite.AI

في 6 أكتوبر 2025 ، أعلنت OpenAI عن AgentKit ، وهو أداة لإنشاء وتنفيذ وإدارة وكلاء الذكاء الاصطناعي. واحدة من مكوناته هي الحواجز ، وهي طبقة أمان موديعة مصممة لمراقبة مدخلات الوكيل ومخرجاته وتفاعلات الأدوات لمنع سوء الاستخدام أو تسرب البيانات أو السلوك الخبيث. يمكن للحواجز مسك أو وضع علامة على المعلومات الشخصية ، وكشف عمليات الهروب من السجن ، وتطبيق قيود السياسة جنبًا إلى جنب مع تنفيذ الوكيل.

في حين أن الحواجز هي قطعة جديدة بشكل عام من معمارية الوكيل في OpenAI ، أظهر بحث HiddenLayer خللا أعمق: لأن كلا الإجراءات الوكيل وأمان الفحص يستخدمان منطق نموذج مشابه ، يمكن للمهاجمين تصميم مدخلات تضعف كلاهما في نفس الوقت – بشكل فعال كسر طبقة الأمان من الداخل.

ما اكتشفه HiddenLayer

تصور تصميم OpenAI وكلاء تعمل من خلال منطق متسلسل: يقدم المستخدم طلبًا ، ويدعو الوكيل أدوات أو موارد خارجية ، ويتم ترشيح الاستجابات أو التحقق منها بواسطة الحواجز قبل التنفيذ أو الإخراج. النية هي أن لا يهم ما يحاول الوكيل القيام به – سواء كان توليد نص أو استرجاع صفحة ويب أو تشغيل دالة – تعمل الحواجز كحارس.

يجادل HiddenLayer بأن هذا الحارس معيب هيكليًا عندما يتم بناؤه من نفس فئة النموذج الذي يحميه. في تجاربهم ، قاموا بتصميم تحفيزات تقوم بعمليتين: إجبار نموذج الوكيل على توليد محتوى ي違 السياسة و مناورة نموذج الحكم للحواجز لإعلان أن المحتوى “آمن”. بشكل فعال ، تضمين التحفيز إيقاف تشغيل 논리 내부ية للحكم – عتبات الثقة ، فروع القرار – بحيث أن الحكم يمرر بشكل خاطئ الإخراج الخبيث. ثم ينتج النظام محتوى غير مسموح به دون تشغيل أي تنبيهات.

لقد دفعوا الهجوم إلى الأمام من خلال استهداف الحقن غير المباشر للمحتوى ، مثل عمليات استدعاء الأدوات. افترض أن الوكيل يستدعى صفحة ويب تحتوي على تعليمات خبيثة أو تحفيزات مخفية. يجب أن تضع الحواجز علامة أو حظرها ، ولكن تقنية HiddenLayer تضمين إيقاف تشغيل الحكم في المحتوى المستعاد نفسه. عندما يقوم الحكم بمعالجته ، يرى إيقاف التشغيل “يؤيد”ه ، ويتغاضى عن استدعاء الأداة – وأي محتوى خبيث يعود به – بدون فحص.

الدرس الأعمق واضح: عندما يكون آلية الأمان بنيت باستخدام نفس المنطق والضعف مثل الشيء الذي تحميه ، يمكن لتحفيز ذكي واحد كسر كلاهما.

لماذا يهم هذا

ما كشفه HiddenLayer ليس مجرد خلل – إنها قصة تحذيرية عن كيفية تصميم الأمان في أنظمة LLM. أي هيكل يعتمد على نفس فئة النموذج لل توليد وتقييم يخاطر بفشل مشترك عند المدخلات المعادية.

هذا يعني أن العديد من المطورين الذين يعتقدون “لقد وضعنا الحواجز ، لذلك نحن آمنون” قد يقللون من خطرهم. في حالات استخدام غير معادية ، قد تظهر مرشحاتهم فعالة ، ولكن في السيناريوهات المعادية ، قد تفشل بشكل صامت. في مجالات مثل الرعاية الصحية والتمويل والحكومة أو الأنظمة الحرجة ، قد تؤدي مثل هذه الفشل الصامت إلى ضرر جسيم.

كما يبني هذا البحث على أساليب حقن التحفيز السابقة. أظهرت تقنية HiddenLayer السابقة “التحكم في السياسة” كيف يمكن للمهاجمين التخفي تحت ستار تعليمات السياسة. الآن ، يثبتون أن هذه الهجمات المقنعة يمكن أن تمتد إلى المنطق الأمني نفسه.

الآثار على المطورين والباحثين

في ضوء هذه الضعف ، يجب على أي شخص يستخدم أو يبني أنظمة LLM الوكيل إعادة التفكير في استراتيجية الأمان.

أولاً: لا تعتمد فقط على فحص النموذج الداخلي. يجب أن يكون الأمان متداخلاً. هذا يعني الجمع بين مرشحات قاعدة القواعد ، ومكاشفات الشذوذ ، وأنظمة التسجيل ، والمراقبة الخارجية ، ومراقبة الإنسان ، وسجلات التدقيق. إذا فشل طبقة واحدة ، قد تكتشف طبقات أخرى الانتهاك.

ثانيًا: الاختبار المعادي المنتظم أمر لا مفر منه. يجب أن تواجه النماذج حقن تحفيز تحاول كسر منطق الحماية نفسها – وليس فقط “المحتوى السيئ”. يجب أن تتطور الاختبارات مع اختراع المهاجمين تقنيات جديدة.

ثالثًا: في القطاعات المنظمة أو الحرجة ، الشفافية والتحقق ضروريان. يحتاج المطورون إلى دليل على أن النظام يمكنه تحمل الهجمات المعادية ، وليس فقط الوظيفة الأساسية. هذا يشير إلى أن التدقيق الخارجي أو التحقق الرسمي أو ضمانات الأمان قد تصبح متطلبات.

رابعًا: لمصنعي النماذج ، تصحيح هذا النوع من الضعف صعب. لأنها مرتبطة بكيفية تفسير النماذج والامتثال للتعليمات ، فإن مرشح واحد من فئة التحفيز لا يضمن متانة ضد تحفيزات جديدة. قد تؤدي الدفاعات القائمة على التعدين أو المرشحات إلى تدهور أداء النموذج أو قيامها بمسابقات. قد تتطلب التصميمات الأمنة أكثر متانة فصلًا هيكليًا – منطق الحماية يعمل في نموذج أو نظام فرعي مختلف عن نموذج التوليد.

القيود والأسئلة المفتوحة

للتأكيد: عمل HiddenLayer هو概念 إثبات ، وليس حكمًا نهائيًا على كل هيكل أمان. يعتمد نجاحهم في الهجوم على معرفة عميقة ببنية التحفيز و_logic الداخلية للنموذج الحارس. في بيئات التحفيز المقيدة أو الأنظمة التي تُ乱ة الدفاعات ، قد يكون الهجوم أكثر صعوبة.

كما أنه لا يفحص تمامًا مدى تماسك أو فائدة الإخراج الخبيث عندما يُصنع في ظل هذه القيود. قد تدهور بعض مخرجات الهروب أو الإيقاف في الجودة أو الموثوقية. لذلك الخطر حقيقي – ولكن مقيدًا بالبيئة وميزانية التحفيز وقيود الواجهة و随عية الحارس.

أخيرًا ، بعض تصاميم الحواجز تستخدم فئات نماذج مختلفة أو أساليب التجميع أو التقييم العشوائي. لا يزال من غير المؤكد ما إذا كانت كل هذه الأنظمة معرضة للخطر؛ ما إذا كان هذا الهجوم يعم بشكل واسع هو سؤال بحث مفتوح.

النظر إلى الأمام: مستقبل أمان الذكاء الاصطناعي

يبدو أننا ندخل مرحلة جديدة: هجمات التحفيز لا ضد النماذج فقط ، بل ضد طبقات أمانها. تقنيات مثل اختراق سلسلة الأفكار ، وتحفيز هرمي ، وإيقاف تشغيل الحكم ، ستدفع الدفاعات لتتطور بشكل أسرع.

الطريق الأمامي هو على الأرجح نحو الإشراف الخارجي – أنظمة تراقب الإخراج من الخارج ، ولا تشترك في منطق النموذج ، أو تفرض الأمان من خلال فحص خارجي. سيتعين على الهياكل الهجينة والأساليب الرسمية وكشف الشذوذ ودوائر反馈 الإنسان أن تتوحد.

الحواجز هي أداة مفيدة ، ولكن اكتشافات HiddenLayer تذكرنا: لا يمكن أن تكون الأداة الوحيدة. يجب أن يأتي الأمان من خارج النظام ، وليس فقط من داخله.

del منطق ، أوفر الأمان من خلال فحص خارجي. سيتعين على الهياكل الهجينة والأساليب الرسمية وكشف الشذوذ ودوائر反

Antoine Tardif, الرئيس التنفيذي ومؤسس Unite.AI

أنطوان هو قائد رؤيوي وشريك مؤسس في Unite.AI، مدفوعًا برغبة لا تكل في تشكيل وتعزيز مستقبل الذكاء الاصطناعي والروبوتات. وهو رائد أعمال متسلسل، يعتقد أن الذكاء الاصطناعي سيكون مدمرًا للمجتمع مثل الكهرباء، وغالبًا ما يُقبض عليه وهو يثرثر عن إمكانات التكنولوجيات المدمرة والذكاء الاصطناعي العام.

كما أنه مستقبلي، فهو يلتزم بفحص كيف ستشكل هذه الابتكارات العالم. بالإضافة إلى ذلك، فهو مؤسس Securities.io، وهي منصة تركز على الاستثمار في التكنولوجيات المتقدمة التي تعيد تعريف المستقبل وتهيئ القطاعات بأكملها.

Unite.AI