زاوية أندرسون
استخدام الرموز التعبيرية قد يتخطى مرشحات المحتوى في روبوتات الدردشة الذكية

يمكن استخدام الرموز التعبيرية لتجاوز آليات الأمان في نماذج اللغة الكبيرة، وإطلاق مخرجات ضارة كان من الممكن حظرها لولا ذلك. بهذه الطريقة، يمكن لطلاب الماجستير مناقشة وتقديم نصائح حول مواضيع محظورة، مثل صنع القنابل والقتل.
توصلت دراسة تعاونية جديدة بين الصين وسنغافورة إلى أدلة دامغة على أن الرموز التعبيرية يمكن استخدامها ليس فقط لتجاوز مرشحات اكتشاف المحتوى في نماذج اللغة الكبيرة (LLMs)، ولكنها يمكن أن تؤدي بشكل عام إلى زيادة مستوى السمية أثناء تفاعل المستخدم مع النماذج:

من خلال الورقة الجديدة، عرض واسع النطاق للطرق التي يمكن أن تساعد بها تشفير مفهوم محظور باستخدام الرموز التعبيرية المستخدم في "كسر حماية" برنامج LLM الشهير. المصدر: https://arxiv.org/pdf/2509.11141
في المثال أعلاه، من الورقة الجديدة، نرى أن تحويل خرق القواعد كلمةإن تحويل القصد القائم على القصد إلى نسخة بديلة محملة بالرموز التعبيرية يمكن أن يثير استجابة "تعاونية" أكثر بكثير من نموذج لغوي متطور مثل ChatGPT-4o (الذي يقوم بشكل معتاد بتطهير مطالبات الإدخال واعتراض المواد الناتجة التي قد تنتهك قواعد الشركة).
في الواقع، في الظروف الأكثر تطرفًا، يمكن أن يعمل استخدام الرموز التعبيرية كـ الهروب من السجن التقنية، وفقًا لمؤلفي العمل الجديد.
أحد الألغاز المتبقية المذكورة في الورقة هو السؤال لماذا تمنح نماذج اللغة الرموز التعبيرية مثل هذه الحرية لانتهاك القواعد واستحضار محتوى سام، عندما تفهم النماذج بالفعل أن بعض الرموز التعبيرية لها ارتباطات سامة قوية.
الاقتراح المقدم هو أنه نظرًا لأن برامج LLM مدربة على نمذجة وإعادة إنتاج الأنماط من بيانات التدريب الخاصة بها، ونظرًا لوجود الرموز التعبيرية بشكل متكرر في تلك البيانات، فإن النموذج يتعلم أن الرموز التعبيرية ينتمي في هذا الخطاب، ويعامله كجمعية إحصائية، بدلاً من كونه محتوى يجب تقييمه وتصفيته.
هذا يعني أن الرموز التعبيرية، عند إعادة استخدامها في موجه، تساعد النموذج على التنبؤ بالاستمرارات السامة بثقة أكبر؛ ولكن بدلاً من العمل كعلم أحمر، تعمل الرموز التعبيرية كعلامة تحذير. إشارة دلالية، مما يعزز في الواقع المعنى السام المقصود بدلاً من تعديله أو اعتراضه. منذ محاذاة السلامة يتم تطبيق هذه الرموز التعبيرية بعد وقوع الحدث، وغالبًا في إطار حرفي ضيق، وبالتالي قد تتجنب الإشارات التي تحتوي على هذه الرموز التعبيرية الكشف عنها تمامًا.
بهذه الطريقة، يقترح البحث أن النموذج لا يصبح متسامحًا على الرغم من الارتباط السام – يصبح متسامحًا لان من ذلك.
تصريح مرور
مع ذلك، يُقرّ المؤلفون بأن هذا لا يُمثّل نظريةً قاطعةً حول قدرة استخدام الرموز التعبيرية على تجاوز مُرشّحات المحتوى في نماذج اللغة بفعالية. ويذكرون:
'يمكن للنماذج التعرف على النوايا الخبيثة التي تعبر عنها الرموز التعبيرية، إلا أن كيفية تجاوزها لآليات الأمان لا تزال غير واضحة.'
قد يكون الضعف نابعا من مركزية النص تصميم مرشحات المحتوى، والتي تفترض إما إدخال نص حرفي أو التضمين تم تحويلها بأمانة إلى ما يعادلها في النص: في كلتا الحالتين، يعتمد النظام على النصوص الصريحة رموز والتي يمكن مطابقتها مع قواعد السلامة.
للحصول على مثال من تحرير الصور المستند إلى الذكاء الاصطناعي: عندما يقوم المستخدم بتحميل صورة غير مناسبة للعمل إلى نموذج لغة الرؤية ويطلب تعديلات، فإن أنظمة مثل Adobe يراعة or شات جي بي تي توظيف CLIPخطوط أنابيب بنمط - لاستخراج المفاهيم النصية من الصورة، كشرط أساسي للتحرير. بمجرد تحويل هذه المفاهيم إلى كلمات، سيؤدي وجود أي مصطلحات مقيدة في تلك الكلمات المستخرجة إلى تفعيل الفلتر، مما يؤدي إلى رفض الطلب.
ومع ذلك، لسبب ما، فإن حالة الرموز التعبيرية باعتبارها ليست كلمة ولا صورة (أو، كما هو الحال في على حد سواء) يبدو أن هذا يمنحها القدرة على تجاوز التصفية؛ ومن الواضح، كما يشير المؤلفون، أن هناك حاجة إلى مزيد من البحث في هذه الثغرة الغريبة.
أكثر من ورقة جديدة بعنوان عندما يتحول الابتسام إلى عدائي: تفسير كيف تُثير الرموز التعبيرية سمية طلاب الماجستير في القانونويأتي هذا المقال من تسعة مؤلفين من جامعة تسينغهوا والجامعة الوطنية في سنغافورة.
(للأسف، فإن العديد من الأمثلة التي تشير إليها الورقة البحثية موجودة في ملحق لم يُنشر بعد؛ ورغم أننا طلبنا ذلك من المؤلفين، إلا أن الملحق لم يُنشر حتى وقت كتابة هذا التقرير. ومع ذلك، تظل النتائج التجريبية الواردة في الورقة البحثية الأساسية جديرة بالاهتمام.)
ثلاثة تفسيرات أساسية للرموز التعبيرية
يُسلّط المؤلفون الضوء على ثلاث سمات لغوية تجعل الرموز التعبيرية فعّالة في تجاوز الفلاتر. أولًا، معاني الرموز التعبيرية هي تعتمد على السياقعلى سبيل المثال، يُعرّف رمز "المال بأجنحة" (انظر الصورة أدناه) رسميًا بأنه يُمثل تحويلات مالية أو إنفاقًا؛ ومع ذلك، بناءً على النص المُحيط به، قد يُشير أيضًا إلى نشاط مشروع أو غير مشروع:

في رسم توضيحي جزئي من الورقة الجديدة، نرى أن أحد الرموز التعبيرية الشائعة يمكن أن يتعرض لاختراق أو تغيير أو تقويض معناه في الاستخدام الشائع. وهذا يمنح الرمز التعبيري فعليًا جواز سفر رسميًا إلى الفضاء الدلالي، وحمولة مخفية من المعنى السلبي أو السام التي يمكن استغلالها بمجرد تجاوز المرشحات.
ثانيًا، يمكن للرموز التعبيرية أن تُغير لهجة في طلبٍ ما. غالبًا ما يُضفي وجودهم لمسةً من المرح أو السخرية، مما يُخفف من حدة المشاعر. في الاستفسارات المُؤذية، قد يُظهر هذا الطلب وكأنه مزحة أو لعبة، مما يُشجع النموذج على الاستجابة بدلًا من الرفض.

إن التأثير المخفف للرموز التعبيرية يمكن أن يزيل سموم النبرة دون إزالة سموم القصد.
ثالثًا، تؤكد الورقة أن الرموز التعبيرية هي لا يعتمد على اللغة: يمكن لرمز تعبيري واحد أن يحمل المعنى نفسه في اللغات الإنجليزية والصينية والفرنسية وغيرها. هذا يجعله مثاليًا للمطالبات متعددة اللغات، محافظًا على المعنى حتى عند ترجمة النص المحيط.

ينقل رمز "القلب المكسور" رسالة عالمية، ربما ليس فقط لأنه يمثل حالة أساسية في الحالة الإنسانية، محصنة نسبيًا ضد الاختلافات الوطنية أو الثقافية.
النهج والبيانات والاختبارات*
قام الباحثون بإنشاء نسخة معدلة من أدف بينش مجموعة بيانات، تُعيد صياغة المطالبات الضارة لتشمل الرموز التعبيرية، إما كبدائل للكلمات الحساسة أو كتمويه زخرفي. يغطي AdvBench 32 موضوعًا عالي الخطورة، بما في ذلك التفجيرات والقرصنة والقتل، وغيرها.

أمثلة أصلية من AdvBench، توضح كيف يمكن لمطالبة معادية واحدة تجاوز الضمانات في العديد من برامج الدردشة الرئيسية، مما يؤدي إلى استنباط تعليمات ضارة على الرغم من تدريب المحاذاة. المصدر: https://arxiv.org/pdf/2307.15043
تم تعديل جميع نسخ AdvBench الأصلية البالغ عددها 520 نسخة بهذه الطريقة، مع استخدام أكثر 50 تلميحًا غير مكررة وغير سامة في جميع التجارب. كما تُرجمت التلميحات إلى لغات متعددة واختُبرت عبر سبعة نماذج رئيسية مفتوحة المصدر ومغلقة المصدر، بالإضافة إلى تقنيات كسر الحماية الفعّالة المعروفة. تحسين تكراري تلقائي فوري (زوج)؛ شجرة الهجمات مع التقليم (TAP)؛ و ديب إنسبشن.
تم استخدام نماذج مغلقة المصدر جيميني-2.0-فلاش; جي بي تي-4o (2024-08-06)؛ جي بي تي-4-0613، و جيميني-1.5-برو. تم استخدام نماذج مفتوحة المصدر لاما-3-8B-تعليمات; Qwen2.5-7B-إرشاد (الفريق 2024ب)؛ وQwen2.5-72B-Instruct (الفريق 2024أ)، مع تكرار جميع التجارب ثلاث مرات لمراعاة الصدفة العشوائية.
اختبرت الدراسة أولاً ما إذا كانت إعادة كتابة الإشارات الضارة من AdvBench باستخدام الرموز التعبيرية ستزيد من المحتوى الضار، بما في ذلك في الترجمات إلى لغات رئيسية أخرى. بالإضافة إلى ذلك، طبقت نفس أسلوب تحرير الرموز التعبيرية على إشارات من استراتيجيات كسر الحماية المعروفة المذكورة سابقًا (PAIR وTAP وDeepInception) لمعرفة ما إذا كان استبدال الرموز التعبيرية سيزيد من نجاحها.
وفي كلتا الحالتين، تم الحفاظ على بنية المطالبات الأصلية، مع استبدال المصطلحات الحساسة فقط بالرموز التعبيرية والعناصر الزخرفية المضافة لإخفاء النية.
بالنسبة لمقاييس الاختبار، ابتكر المؤلفون نظام تسجيل يسمى قاضي GPTفي هذا الإعداد، لم يكن GPT-4o هو النموذج الذي يتم اختباره، بل تم حثه على العمل كمصنف، وتعيين قيمة عددية النتيجة الضارة (HS) للاستجابات التي تم إنشاؤها بواسطة نماذج أخرى.
تم تصنيف كل مخرج من واحد (غير ضار) إلى خمسة (ضار للغاية)، وتم الإبلاغ عن النسبة المئوية للاستجابات التي حصلت على خمسة على أنها نسبة الضرر (HR).
ولمنع النماذج من الانجراف إلى تفسيرات الرموز التعبيرية بدلاً من الإجابة صراحةً، أضاف الباحثون تعليمات إلى كل مطالبة، تطلب من النموذج جعل رده موجزًا:

نتائج من المطالبات القائمة على الرموز التعبيرية في "الإعداد ١"، مع مقارنات مع متغيرات الإزالة حيث استُبدلت الرموز التعبيرية بكلمات، أو أُزيلت تمامًا. أسماء النماذج مختصرة للمساحة.
في جدول النتائج الأولية أعلاه، يشير الجانب الأيسر من الجدول إلى أن الإشارات الضارة التي تم استبدالها بالرموز التعبيرية حققت درجات أعلى بشكل ملحوظ في اختبار الذكاء العالي ومعدل ضربات القلب مقارنة بالإصدارات التي تم حذفها (أي الإصدارات التي تمت فيها ترجمة الرموز التعبيرية مرة أخرى إلى نص، مما أدى إلى تعريضها مباشرة لمرشحات المحتوى).
لاحظ المؤلفون† أن نهج استبدال الرموز التعبيرية يتفوق على طرق كسر الحماية السابقة، كما هو موضح في جدول النتائج الإضافية أدناه:

نتائج نسبة الضرر لمطالبات كسر الحماية المعززة بالرموز التعبيرية في "الإعداد 2"، مع عرض أسماء الطراز في شكل مختصر.
يشير الجدول الأول من الجدولين الموضحين أعلاه، كما ذكر المؤلفون، إلى أن تأثير الرموز التعبيرية ينتقل عبر اللغات. فعندما تُرجمت المكونات النصية لرسائل الرموز التعبيرية إلى الصينية والفرنسية والإسبانية والروسية، ظلت النتائج الضارة مرتفعة؛ لأن هذه اللغات جميعها... اللغات ذات الموارد العاليةوتشير النتائج إلى أن الخطر لا يقتصر على اللغة الإنجليزية بل ينطبق على نطاق واسع على مجموعات المستخدمين الرئيسية، حيث تعمل الرموز التعبيرية كقناة قابلة للنقل لتوليد المواد السامة.
وفي ختام الدراسة، اقترح الباحثون أن تأثير الرموز التعبيرية ليس عرضيًا فحسب، بل إنه متجذر في الطريقة التي تعالجها بها النماذج، مشيرين إلى أن النماذج يمكنها على ما يبدو التعرف على المعنى الضار للرموز التعبيرية - ومع ذلك يتم قمع استجابات الرفض عندما تكون الرموز التعبيرية موجودة.
وتشير دراسات التجزئة إلى أن الرموز التعبيرية عادة ما تنقسم إلى أجزاء نادرة أو غير منتظمة مع تداخل ضئيل مع نظيراتها النصية، مما يؤدي في الواقع إلى إنشاء قناة بديلة للدلالات الضارة.
يتجاوز البحث آليات النموذج، إذ يدرس بيانات ما قبل التدريب، ويجد أن العديد من الرموز التعبيرية المستخدمة بكثرة تظهر في سياقات ضارة، مثل المواد الإباحية والاحتيال والمقامرة. ويرى المؤلفون أن هذا التعرض المتكرر قد يُسهّل الارتباط بين الرموز التعبيرية والمحتوى الضار، مما يشجع النماذج على الامتثال للمطالبات الضارة بدلاً من حظرها.
وتشير هذه النتائج مجتمعة إلى أن غرائب المعالجة الداخلية وبيانات التدريب المسبق المتحيزة تساهم في الفعالية المذهلة للرموز التعبيرية في تجاوز تدابير السلامة.
الخاتمة
ليس من غير المألوف استخدام طرق إدخال بديلة لمحاولة كسر حماية برامج LLM. في السنوات الأخيرة، على سبيل المثال، تم استخدام الترميز السداسي عشري لتجاوز مرشحات ChatGPT. يبدو أن المشكلة تكمن في الاستخدام السطحي للغة النصية لتصنيف الطلبات الواردة والردود الصادرة.
في حالة الرموز التعبيرية، يبدو أنه من الممكن إدخال معنىً خفيّ يخالف القواعد في الخطاب دون أي عقاب أو تدخل، لأن طريقة النقل غير تقليدية. قد يظن المرء أن الترجمة الصوتية القائمة على CLIP ستتدخل في... الكل تحميل الصور، بحيث تصبح المواد المسيئة أو المخالفة بمثابة نص قابل للإبلاغ عنه.
من الواضح أن هذا ليس هو الحال، على الأقل فيما يتعلق ببرامج الماجستير الرئيسية التي تمت دراستها؛ إذ تبدو حواجزها اللغوية هشة وتركز على النص. يمكن للمرء أن يتخيل أن التفسير الأوسع للمحتوى (على سبيل المثال، من خلال دراسة تنشيطات الخريطة الحرارية) تحمل تكلفة معالجة و/أو نطاق ترددي قد تجعل مثل هذه الأساليب باهظة الثمن بشكل غير عملي، من بين القيود والاعتبارات المحتملة الأخرى.
* تصميم هذه الورقة البحثية فوضوي مقارنةً بمعظمها، إذ لم تُحدد المنهجية والاختبارات بوضوح. لذلك، بذلنا قصارى جهدنا لتمثيل القيمة الأساسية للعمل بأفضل صورة ممكنة في ظل هذه الظروف.
† في معالجة للنتائج تبدو غامضة ومربكة إلى حد ما.
نُشرت لأول مرة يوم الأربعاء 17 سبتمبر 2025








