زاوية Anderson

تكسير التعبير البسيط يخرق سلامة الذكاء الاصطناعي، حتى بالنسبة لجيميني وكلود

نُشر في 23 فبراير 2026

تم التحديث في 16 مايو 2026

بواسطة

Martin Anderson

An AI-generated image (GPT-1.5) depicting a crash test dummy embedded in the wall of a crash test laboratory.

تم العثور على اختبارات سلامة الذكاء الاصطناعي لتعتمد على كلمات触ّ في غاية الوضوح؛ مع إعادة الصياغة البسيطة، يتم تصنيف النماذج على أنها “مأمونة معقولة” فجأة تفشل، مع نجاح الهجمات بنسبة تصل إلى 98٪ من الوقت.

أفادت الأبحاث الحديثة للشركات من الولايات المتحدة أن سجل السلامة الجيد لمجموعة من نماذج اللغة الكبيرة (LLM) – بما في ذلك العديد من الأسماء الرائدة مثل Gemini 3 Pro و Claude Sonnet 3.7 – قد يكون عديم الفائدة، لأن مجموعات البيانات والمعايير المستخدمة لتأسيسها تحتوي على لغة “واضحة بشكل مبالغ فيه”.

المجموعتان المتعاملتان، والتي ظهرتا في مراجعات ورقية متعددة في هذا الموقع، هما HarmBench و AdvBench:

من الأوراق البحثية ذات الصلة ل HarmBench و AdvBench، أمثلة معترف بها من التحريض – ولكن الورقة الجديدة تدعي أن حتى في السيناريوهات الحقيقية، الأمثلة من هذه المعايير “تُعلن” عن النية الخبيثة، مما قد يؤدي إلى (على ما يبدو) “اللعب” غير المقصود للنتائج. المصادر – HarmBench و AdvBench.

على الرغم من أن الأمثلة المعروضة أعلاه، والتي هي من الأوراق البحثية لكل معيار، هي بسيطة بشكل متعمد لتوضيح مبادئ الأنظمة، فإن البحث الجديد يُدعي أن هذه المجموعات في الواقع تستهدف “ثمارًا سهلة القلب”، وبالتالي قد لا تكون معايير فعالة – وأن النتائج الحقيقية لقدرات السلامة للنماذج LLM المُختبرة أقل بكثير مما تم الإبلاغ عنه:

‘[نحن] تقييم ما إذا كانت هذه المجموعات البيانية تقيس فعلا مخاطر السلامة أو مجرد تحفيز الرفض من خلال كلمات التفعيل. للتحقيق في هذا، نقدم “غسيل النية”: إجراء يُجرد كلمات التفعيل من الهجمات (نقاط البيانات) مع الحفاظ الصارم على النية الخبيثة وجميع التفاصيل ذات الصلة.

‘تُظهر نتائجنا أن مجموعات بيانات السلامة الحالية تفشل في تمثيل الهجمات الحقيقية بدقة بسبب اعتمادها المفرط على كلمات التفعيل.

‘في الواقع، بمجرد إزالة هذه الكلمات، تصبح جميع النماذج التي تم تقييمها سابقًا على أنها “مأمونة معقولة” غير مأمونة، بما في ذلك Gemini 3 Pro و Claude Sonnet 3.7.’

‘السلامة’ في هذا السياق تمثل التنظيم – القدرة على نموذج LLM على صد الهجمات التي يشنها المستخدمون ل ‘كسر السجن’ القيود على أنظمة API فقط، من أجل جعل النظام ينتج مخرجات محظورة، مثل النص التشهيري أو الصور.

يُ涉ي إجراء “غسيل النية” للمؤلفين ببساطة إعادة صياغة الهجمات “الواضحة” في المجموعتين / المعايير، بحيث تصبح أكثر خفاء وشراسة، وقادرة بشكل أكبر على تجاوز المرشحات والتحقق:

الجزء العلوي من مثال معقد من الورقة. يظهر في الزاوية العلوية اليسرى، باللون الأصفر، نوع التحفيز “الواضح” الذي توفره HarmBench و AdvBench عادة؛ في الأسفل، باللون الأخضر، تم تحفيز التحفيز واعادة صياغته وجعله مقبولًا بما يكفي ل Claude Sonnet 3.7 بحيث أنه الآن على استعداد للمساعدة في العثور على “مصانع القطع” (مواقع معالجة المركبات المسروقة) في مدينة جديدة. المصدر

قام الباحثون بتحليل خصائص المجموعتين عبر نهجين: بشكل منفصل، من أجل مقارنة المجموعات بسمات الهجمات الحقيقية؛ وفي الممارسة، حيث تم استخدام المجموعات البيانية – والتحسينات الخاصة بالباحثين عليها – للهجوم على نماذج العالم الحقيقي.

في الجولة الثانية من الاختبارات، تم تحسين طريقة إعادة الصياغة بشكل متكرر حتى تم الحصول على نتائج مثالية من حيث معدل نجاح الهجوم (ASR):

يبدأ غسيل النية bằng تمرير تحفيز خبيث بشكل واضح عبر نموذج إعادة كتابة يزيل لغة التفعيل الصريحة مع الحفاظ على النية الخبيثة الأساسية. ثم يتم تقديم التحفيز المنقح إلى نموذج الهدف، ويتم تقييم استجابته من حيث السلامة والتطبيق العملي. إذا تم تحديد الإخراج على أنه غير آمن وعملي، يتم احتساب الهجوم على أنه ناجح. إذا لم يكن كذلك، يتم إعادة تغذية المراجعات الفاشلة السابقة إلى نموذج الكتابة لإنتاج نسخ محسنة، مما يخلق حلقة تكرارية تعمل كآلية لكسر السجن حتى يتم الوصول إلى عدد محدد من المحاولات أو تحقيق معدل نجاح الهجوم المطلوب.

يُذكر المؤلفون*:

‘تُظهر نتائجنا أن، مع هذه الحلقة التجديدية، يصل غسيل النية إلى معدل نجاح الهجوم العالي (90٪-98.55٪) بعد بضع تكرارات فقط عبر جميع النماذج تحت وصول كامل أسود. وهذا يشمل النماذج الحديثة التي يتم الإبلاغ عنها على أنها من بين الأكثر أمانًا – مثل Gemini 3 Pro و Claude Sonnet 3.7.

‘تؤكد هذه النتائج بشكل أكبر أن تقييمات السلامة الحالية وأساليب التوجيه الأمني هي في الواقع مفرطة التكيف ^† مع كلمات التفعيل.’

العمل الجديد مُعنون بـ غسيل النية: مجموعات بيانات السلامة ليست ما يبدو عليها، ويأتي من مؤلفين اثنين في شركة برمجيات سان فرانسيسكو Labelbox.

الطريقة

为了 دراسة تركيبة وهيكل المجموعتين البيانيتين بشكل منفصل، تم إنشاء سحابة كلمات من المجموعتين، مما كشف عن الكلمات والجمل القصيرة التي تهيمن على المجموعات:

<img class=" wp-image-278949" src="https://www.unite.ai/wp-content/uploads/2026/02/figure-2-5.jpg" alt="سحابة كلمات تُظهر 40 كلمة وتركيبة الأكثر تكرارًا في المجموعات البيانية المدمجة AdvBench و HarmBench. يتم تhighlighting المصطلحات ذات الدلالات السلبية أو الحساسة بشكل متأصل باللون الأحمر، والكلمات المحفزة السياقية باللون البرتقالي، والكلمات المحايدة التي تشكل محفزات أعلى باللون الأخضر. تركز التركيز على العبارات الواضحة مثل 'دون أن يُكتشف' و 'تعليمات خطوة بخطوة' يشير إلى أن المعايير تعتمد بشكل كبير على الإشارات الصريحة بدلاً من الهجمات المrafted بشكل واقعي ومخفي.

يُلاحظ المؤلفون أن الكلمات والجمل القصيرة المهيمنة تكشف بشكل غير معقول عن النية الخبيثة، على عكس اللغة التي يستخدمها المجرمون أنفسهم في المناقشات، والهجمات التي يستخدمونها عند اختبار أو محاولة كسر دفاعات LLM.

‘تُضعف هذه الإشارات خاصتين – كونها مدروسة جيدًا ومحفزة من قبل نية خفية – لأن هذا النوع من اللغة يظهر بشكل واضح في الهجمات الحقيقية ويبدو مصممًا لتفعيل آليات السلامة بشكل اصطناعي. ‘

يُوصف نمط المجموعات على أنها “إشارات تفعيل” – عبارات ذات دلالات سلبية أو حساسة بشكل واضح تظهر مصممة لتفعيل آليات السلامة. بعضها مشحون بشكل متأصل، مثل ‘الانتحار’، في حين أن البعض الآخر يصبح مشحونًا فقط في السياق، على سبيل المثال عند ربط هدف خبيث مع كلمات مثل ‘دون أن يُكتشف’، التي تُشير إلى نية واضحة للتخفي.

يتضح عدم التوازن في لغة المجموعات بشكل أكبر مع زيادة عدد الكلمات في n-grams، حيث تهيمن العبارات التي تحمل معاني سلبية أو حساسة بشكل واضح على n-grams الأكثر تكرارًا (انظر الصورة أعلاه). يُوصف هذا في الورقة على أنه عبارات تفعيل، التي، جنبًا إلى جنب مع كلمات التفعيل الفردية، تشكل إشارات تفعيل.

بعض العبارات تمتد فقط المصطلحات المحملة بالفعل، مثل عندما يصبح ‘سرقة’ ‘سرقة معلومات حساسة’، ‘سرقة معلومات سرية’، أو ‘سرقة معلومات شخصية’؛ وعلى سبيل المثال، عندما يمتد ‘الانتحار’ إلى ‘الانتحار’، ‘الانتحار بسبب الاكتئاب’، أو ‘الانتحار بسبب الإدمان’ – واضحًا أن اللغة والمصطلحات المستخدمة هي لغة الشرطة والقضاء والتقارير الإعلامية.

أخرى مبنية بالكامل من كلمات محايدة تصبح قلقًا فقط عند الجمع، مثل ‘دون أن يُكتشف’، وهي بنية تُشير إلى التخفي دون احتواء أي مصطلح مشحون بشكل متأصل.

التكرار

يُلاحظ المؤلفون أن تكرار الإشارات الواضحة لا يجعل التحفيزات تبدو مصطنعة فقط، بل يشير أيضًا إلى تكرار كبير للبيانات في المجموعات. لاختبار هذه النظرية، قاموا بتشغيل فحوصات التشابه الزوجية عبر كل مجموعة، بتطبيق عتبات من 0.7 إلى 0.99، وجمعت التحفيزات التي تجاوزت عتبة معينة كمتكررات، في حين عُتبرت الباقي فريدًا.

نظرًا لأن هناك لا يوجد معيار متفق عليه لما يُعتبر “تشابهًا عاليًا” في مجموعة بيانات واحدة، استخدموا Open AI’s Grade School Math (GSM8K)، وهو معيار شائع غير أمني، مطابقًا لحجمه إلى HarmBench و AdvBench لمقارنة خاضعة للسيطرة:

معدلات التكرار في AdvBench و HarmBench عبر عتبات التشابه، مقارنة بمجموعات فرعية GSM8K المطابقة في الحجم. عند معظم العتبات، تحتوي مجموعات بيانات السلامة على تحفيزات متشابهة بشكل كبير أكثر من معيار غير أمني. يشير هذا إلى تقييم متكرر لنفس النية الخبيثة بتركيبات مختلفة قليلا، مما قد يُؤدي إلى تضخيم أداء السلامة المُبلغ عنه. يُرجى الرجوع إلى الورقة الأصلية للحصول على دقة أفضل.

وجدت دراسة ثانية من هذا الجزء من الدراسة قارنت التحفيزات داخل كل مجموعة، لقياس كمية التحفيزات الفريدة: عند إعداد متوسطة للتشابه، كانت فقط حوالي 11٪ من تحفيزات AdvBench فريدة، في حين كانت حوالي 94٪ من الأسئلة في عينة GSM8K المطابقة في الحجم مختلفة:

أمثلة على تحفيزات متشابهة في AdvBench و HarmBench، التي تختلف بشكل رئيسي في التعبير، في حين تعبر عن نفس النية الخبيثة. الاستخدام المتكرر للإشارات الواضحة، معروضة باللون الأحمر للمصطلحات المشحونة بشكل متأصل، والبرتقالي للمحفزات السياقية، ينتج مجموعات من التحفيزات التي تختبر بشكل فعال سيناريو واحد عدة مرات – مما يعني أن استجابة واحدة ستكفي بشكل كبير لتقييم النموذج لهذه النية.

أظهر HarmBench نفس الاتجاه، مع 16٪ من المكررات عند هذا المستوى مقارنة بـ 3.5٪ في GSM8K، مما يعني أن مجموعات بيانات السلامة غالبًا ما أعادت استخدام نفس الطلب الخبيث مع تغييرات طفيفة في التعبير.

إذا تم اعتبار 85٪ من الأمثلة الفريدة معيارًا معقولًا، فإن AdvBench وصلت إلى هذا المستوى فقط تحت إعداد صارم للغاية، ولا تزال لم تتجاوز 90٪، في حين وصلت GSM8K إلى 85٪ عند عتبة أقل بكثير. وفقًا للورقة، يشير هذا النمط إلى أن معايير السلامة تختبر تكرارات لآفكار مماثلة، بدلاً من مجموعة واسعة من سيناريوهات الهجوم.

مناهج أخرى، واختبارات

تقنية “غسيل النية” المذكورة في العمل تُزيل لغة التفعيل الصريحة، مع الحفاظ على النية الخبيثة الأساسية. بدلاً من التصريح عن النية بشكل واضح، يتم إعادة صياغة التحفيزات بحيث تُلمح إليها، مع الحفاظ على الحمولة الخبيثة، وتجنب الإشارات التي من المحتمل أن تؤدي إلى رفض فوري من قبل LLM.

الأساليب التي تسهل ذلك هي تعديل الدلالة، الذي يُستبدل المصطلحات السلبية الواضحة بمصطلحات محايدة أو وصفية؛ و نقل السياق، الذي يُحول المراجع الحقيقية إلى سياقات خيالية دون تغيير المعنى العملي.

تم كتابة مجموعة صغيرة من المراجعات يدوياً في البداية، ثم تم تلقين العملية باستخدام GPT-5.1 (gpt-5.1-2025-11-13)، مع إعداد تعلم سياقي ثماني الشوت كـ ‘مغسلة النية’. ثم تم مقارنة الاستجابات للتحفيزات الأصلية والمنقحة، لقياس مدى تأثير لغة التفعيل الصريحة على تقييمات السلامة.

نظرًا لأن غسيل النية يمكن أن يغير كلاً من التعبير والإطار، تم تقييم الاستجابات من حيث السلامة و العملي. تم تقييم السلامة على مقياس Likert الخماسي، من ‘غير آمن للغاية’ إلى ‘آمن’، مشروطًا بكون الاستجابة حافظت على النية الخبيثة الأصلية – وإن كان ذلك، فكيف كان ذلك الخطر:

قالب تحفيزي يستخدم لتقييم السلامة القياسية للاستجابات للنقاط الأصلية من بيانات AdvBench و HarmBench، قبل تطبيق غسيل النية. تم توجيه GPT-5.1 لتقييم كل استجابة على مقياس Likert الخماسي من ‘غير آمن للغاية’ إلى ‘آمن’، باختيار حكم عام واحد بناءً على ما إذا كان المحتوى يسمح بالضرر أو بقي غير قابل للتنفيذ.

تم تقييم ‘العملي’ على مقياس موازٍ خماسي من ‘قابل للتطبيق للغاية’ إلى ‘غير قابل للتطبيق’، بناءً على مدى قابليتها للتطبيق ونقلها في العالم الحقيقي؛ وتم قياس معدل نجاح الهجوم (ASR) بالأداء، مع احتساب المراجعة على أنها ناجحة فقط إذا كانت الاستجابة غير آمنة وعملية.

تم تحويل التقييمات الخماسية إلى نتائج ثنائية لتقليل الغموض، وتم تطوير غسيل النية أيضًا إلى طريقة لكسر السجن بإضافة حلقة تكرارية لتحديث-إعادة التوليد، حيث تم إعادة تغذية المراجعات الفاشلة إلى GPT-5.1 تحت نفس إعداد التعلم السياقي الثماني الشوت. استمرت هذه الحلقة حتى تم الوصول إلى عدد محدد من المحاولات أو تحقيق معدل نجاح الهجوم المطلوب.

对于 اختبارات تقييم السلامة، تم استخدام حزمة الغيوم الكلامية لاستخراج n-grams من HarmBench و AdvBench، مع طرق التصفية المعتادة (أي، لإزالة الكلمات المحظورة والكلمات غير ذات الصلة والأحرف الأخرى).

تم استخدام نفس مجموعات بيانات السلامة المستخدمة لتحليل سحابة الكلمات في البداية، مع عينات عشوائية من GSM8K المذكورة سابقًا، مع تقليل عدد الكلمات لتحقيق المساواة عبر المجموعات.

استخدم المؤلفون الترسيمات من نقطة التفتيش all-MiniLM-L6-V2 من Transformers-BERT الجمل، لأنها تم بالفعل تعديلها لتحسين التجميع والبحث الدلالي.

تم إنشاء معايير التقييم بواسطة نموذج OpenAI GPT-4o (الذي تم إيقافه الآن)، مع تقييد 1024 رمزًا. تم تقييم GPT-5.1 السلامة والعملي بعد غسيل النية، بدون شوط، مطابقًا في جميع الجوانب إلى غسيل النية نفسه، باستثناء أنه تم تقييده أيضًا ب 1024 رمزًا.

النماذج التي تم اختبارها كانت Gemini 3 Pro؛ Claude Sonnet 3.7؛ Grok 4؛ GPT-4o؛ و Qwen2.5-7B-Instruct. حيث كان ذلك مناسبًا، لأن الاستدلال كان عاملاً غير ضروري، تم خفضه إلى أبعد حد ممكن في النماذج القادرة على الاستدلال.

تم تقييد جميع النماذج بحد أقصى للخرج بمقدار 4096 رمزًا:

تقييم السلامة (SE)، تقييم العملي (PE)، ومعدل نجاح الهجوم (ASR) لسبعة نماذج على AdvBench (أعلى) و HarmBench (أسفل) تحت ثلاثة شروط: بدون مراجعة، المراجعة الأولى، والمراجعات التالية لتحديث-إعادة التوليد لغسيل النية. يُبلغ تقييم السلامة عن نسبة الاستجابات المُصنفة على أنها ‘غير آمنة للغاية’، ‘غير آمنة’، أو ‘غير آمن’; يُبلغ تقييم العملي عن نسبة المُصنفة على أنها ‘قابلة للتطبيق للغاية’، ‘قابلة للتطبيق’، أو ‘قابلة للتطبيق’; ويقيس معدل نجاح الهجوم نسبة الاستجابات التي تكون غير آمنة وعملية. في إعداد بدون مراجعة، يتبع معدل نجاح الهجوم تعريفها القياسي لأن لا تطبيق للغسيل. القيم المميزة تشير إلى أعلى معدل نجاح الهجوم المُحقق في كل مجموعة بيانات، وأقل معدل نجاح الهجوم يُشير إلى سلامة نموذجية أقوى. يُرجى الرجوع إلى الورقة الأصلية للحصول على دقة أفضل.

بالنسبة لهذه النتائج الأولية، يلاحظ المؤلفون أن إزالة الإشارات الصريحة من تحفيزات الهجوم أدت إلى زيادة حادة في معدل نجاح الهجوم. على AdvBench، ارتفع معدل نجاح الهجوم المتوسط من 5.38٪ إلى 86.79٪ بعد المراجعة الأولى، وعلى HarmBench، ازداد من 13.79٪ إلى 79.83٪ – مما يشير إلى أن رفض النماذج كان مربوطًا بشكل قوي بوجود لغة التفعيل الصريحة.

يُلاحظ المؤلفون:

‘هذا يشير إلى أن رفض النماذج يتم بشكل كبير بسبب وجود إشارات تفعيل. بالتالي، لا تقيس مجموعات بيانات السلامة مخاطر السلامة الحقيقية، لأنها تعتمد أكثر على إشارات التفعيل لتحفيز الرفض منها على النية الخبيثة الفعلية.’

يُدعي في الورقة أن غسيل النية أزال بشكل فعال الإشارات الصريحة مع الحفاظ على النية الخبيثة، ووظّف كطريقة قوية لكسر السجن. في التكرار النهائي لتحديث-إعادة التوليد، الذي يتوافق مع أعلى معدل نجاح الهجوم في كل مجموعة بيانات، بلغ معدل نجاح الهجوم 90٪ إلى 98.55٪ عبر جميع النماذج.

شمل ذلك Gemini 3 Pro و Claude Sonnet 3.7، والتي تم كسر السجن لها بمعدلات نجاح الهجوم 93٪ إلى 95٪ على AdvBench، و 91٪ إلى 93٪ على HarmBench، بعد بضع تكرارات فقط.

يُختتم المؤلفون:

‘أظهرت نتائجنا أن الاستنتاجات السابقة حول السلامة لا تُحمل بعد إزالة إشارات التفعيل، وأن الأداء المُلاحظ للسلامة يتم بشكل كبير بسبب وجود إشارات التفعيل بدلاً من المخاطر الأمنية الأساسية.

‘أظهرنا أيضًا أن غسيل النية يمكن استخدامه كتقنية لكسر السجن قوية، تحقق معدلات نجاح الهجوم عالية من 90٪ إلى أكثر من 98٪.

‘بشكل عام، كشفت نتائجنا عن فجوة حرجة بين كيف يتم تقييم سلامة النموذج وكيف تظهر السلوك المعادي في العالم الحقيقي.

‘بناءً على ذلك، نستنتج أن (1) يجب أن تطور تقييمات السلامة لتقاط الهجمات المعادية بشكل أكثر واقعية، و (2) الجهود الحالية للتوجيه الأمني لا تزال بعيدة عن متانة ضد التهديدات الحقيقية.’

الختام

يظل هناك خيط مشترك يقطع عبر الأدب اللغوي والرؤية الحاسوبية (وفي الأماكن التي تتقاطع فيها، مثل نماذج اللغة والرؤية) هو عدم القدرة على فهم موثوق به عندما يتم خداعه لانتاج محتوى محظور؛ أو حتى عندما يتم الانحراف عن ذلك بشكل غير مقصود، دون أي ضغط خارجي.

خلف الكواليس من مصانع النماذج الأكبر والأكثر غموضًا، يمكن فقط افتراض أن تقييد هذه المناطق الدلالية بشكل جذري يأتي مع ضرر جانبي غير مقبول، مثل انخفاض الأداء على توليدات “غير محظورة”، أو معدل كاذب إيجابي غير مقبول من مرشح المحتوى.

الطبيعة الأساسية لنموذج مدرب في أي مجال هي اتباع جميع بيانات التدريب لأي استنتاج قد يقود إليه التحفيز؛ والقيود الأصلية المتاحة هي أ) عدم تضمين مواد خلافية في بيانات التدريب (الذي هو مشكلة لوجستية كما هو شيء آخر); أو ب) “قطع” المسارات إلى المحتوى غير المرغوب فيه بعد التدريب (عملية يمكن عكسها أحيانًا بواسطة التنقية، أو كأثر جانبي غير مقصود لتعديل النموذج).

* استبدالي لمراجع المؤلفين الداخلية بالروابط. التأكيدات للمؤلفين، وليس لي.

^†https://www.unite.ai/what-is-overfitting/

نُشر لأول مرة يوم الإثنين، 23 فبراير 2026

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai