Connect with us

استخدام الإيموجي يمكن أن يتجاوز مرشحات المحتوى في بوتات الدردشة الإصطناعية

زاوية Anderson

استخدام الإيموجي يمكن أن يتجاوز مرشحات المحتوى في بوتات الدردشة الإصطناعية

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

يمكن استخدام الإيموجي لتجاوز آليات السلامة في نماذج اللغة الكبيرة ، وتحفيز الإخراج السام على الرغم من أنه سيتم حظره. ويمكن من خلال هذا Means ، جعل LLMs لمناقشة واعطاء المشورة على المواضيع المحظورة مثل صنع القنابل والقتل.

 

تعاون جديد بين الصين وسنغافورة يجد أدلة مقنعة بأن الإيموجي يمكن استخدامها ليس فقط لتجاوز مرشحات الكشف عن المحتوى في نماذج اللغة الكبيرة (LLMs) ، ولكن بشكل عام زيادة مستوى السُمية خلال تفاعل المستخدم مع النماذج:

من الورقة الجديدة ، عرض широк لطرق ترميز مفهوم محظور بالإيموجي يمكن أن يساعد المستخدم على “جailbreak” نموذج LLM شائع. مصدر: https://arxiv.org/pdf/2509.11141

في المثال أعلاه ، من الورقة الجديدة ، نرى أن تحويل نوايا مخالفة القواعد إلى بديل محمل بالإيموجي يمكن أن يثير استجابة أكثر “تعاونا” من نموذج لغة متقدم مثل ChatGPT-4o (الذي يعتاد على تطهير محفزات الإدخال واعتراض مواد الإخراج التي قد تنتهك قواعد الشركة).

بصورة فعالة ، في الظروف الأكثر تطرفا ، يمكن أن تعمل استخدام الإيموجي كتقنية “جailbreak” ، وفقا لمؤلفي العمل الجديد.

هناك لغز متبقي مذكور في الورقة هو سؤال لماذا تعطي نماذج اللغة الإيموجي مثل هذه الحرية لانتهاك القواعد وتحفيز المحتوى السام ، عندما تفهم النماذج بالفعل أن بعض الإيموجي لها ارتباطات سامة قوية.

الاقتراح المقدم هو أن نماذج اللغة يتم تدريبها على نمذجة واعادة أنماط من بيانات التدريب ، وبالنسبة للإيموجي التي تظهر بانتظام في تلك البيانات ، يتعلم النموذج أن الإيموجي “ينتمي” إلى ذلك الخطاب ، ويعاملها كترابط إحصائي ، بدلا من محتوى يجب تقييمه وترشيحه.

هذا يعني أن الإيموجي ، عند إعادة استخدامه في محفز ، يساعد النموذج على التنبؤ بالاستمرارات السامة بثقة أكبر ؛ ولكن بدلا من أن تكون علامة حمراء ، يعمل الإيموجي كإشارة “دلالية” ، التي تعزز بالفعل المعنى السام المقصود بدلا من تعديله أو اعتراضه. منذ تطبيق محاذاة السلامة بعد الحادث ، وغالبا في إطار ضيق وحرفي ، قد تتجنب محفزات تحتوي على هذه الإيموجي الكشف تماما.

بهذه الطريقة ، يطرح الورقة أن النموذج لا يصبح متسامحا “على الرغم من” الارتباط السام – بل يصبح متسامحا “بسبب” ذلك.

جواز مرور مجاني

قال المؤلفون إنهم يعتقدون أن هذا لا يrepresent نظرية حاسمة حول لماذا يمكن استخدام الإيموجي لتجاوز مرشحات المحتوى في نماذج اللغة. ويشيرون إلى :

‘يمكن للنماذج التعرف على النية الخبيثة المعبر عنها بالإيموجي ، ومع ذلك ، كيف يتم تجاوز آليات السلامة لا يزال غير واضح.’

قد تنشأ الضعف من تصميم مرشحات المحتوى المعتمد على النص ، الذي يفترض إما إدخال نص حرفي أو ترميزات تم تحويلها بدقة إلى معادلات نصية : في كلتا الحالتين ، يعتمد النظام على رموز صريحة يمكن مطابقتها مع قواعد السلامة.

لإعطاء مثال من تحرير الصور القائم على الذكاء الاصطناعي : عندما يرفع المستخدم صورة غير لائقة إلى نموذج رؤية-لغة ويطلب تعديلات ، تستخدم أنظمة مثل Adobe Firefly أو ChatGPT خطوط أنابيب من طراز CLIP لاستخراج مفاهيم نصية من الصورة ، كشرط مسبق للتعديل. عندما يتم تحويل هذه المفاهيم إلى كلمات ، فإن وجود أي مصطلحات محظورة في تلك الكلمات المستخرجة سوف يؤدي إلى رفض الطلب.

ومع ذلك ، لسبب ما ، يبدو أن حالة الإيموجي كونها لا كلمة ولا صورة (أو كلاهما) تمنحها قوة لتجاوز الترشيح ; واضحا ، كما يشير المؤلفون ، أنه يتعين إجراء مزيد من البحث في هذا الثغرة الغامضة.

الورقة الجديدة بعنوان عندما يتحول الوجه المبتسم إلى عدواني : تفسير كيفية تحفيز الإيموجي السُمية في LLMs ، ويأتي من تسعة مؤلفين من جامعة تسينغهوا والجامعة الوطنية في سنغافورة.

(لسوء الحظ ، العديد من الأمثلة التي تشير إليها الورقة موجودة في ملاحق لم يتم إصدارها بعد ; على الرغم من أننا قد طلبنا ذلك من المؤلفين ، لم يتم تزويدنا بالملاحق في وقت الكتابة. ومع ذلك ، فإن النتائج التجريبية في الورقة الأساسية لا تزال تستحق الانتباه.)

ثلاثة تفسيرات إيموجي أساسية

يشير المؤلفون إلى ثلاثة سمات لغوية تجعل الإيموجي فعالة في تجاوز المرشحات. أولا ، معاني الإيموجي تعتمد على السياق. على سبيل المثال ، الإيموجي “المال مع الأجنحة” (انظر الصورة أدناه) يتم تعريفه رسميا على أنه يمثل تحويلات المال أو الإنفاق ; ومع ذلك ، اعتمادا على النص المحيط ، يمكن أن يعني أيضا نشاطا مشروعا أو غير مشروع :

في مثال جزئي من الورقة الجديدة ، نرى أن إيموجي شائع يمكن أن يتم تحويل معناه أو تغييره أو تحريفه في الاستخدام الشائع هذا يعطي الإيموجي جوازا رسميا إلى الفضاء الدلالي ، و حمولة مخفية من المعنى السلبي أو السام التي يمكن استغلالها بمجرد أن يتمكن من المرشحات.

في مثال جزئي من الورقة الجديدة ، نرى أن إيموجي شائع يمكن أن يتم تحويل معناه أو تغييره أو تحريفه في الاستخدام الشائع هذا يعطي الإيموجي جوازا رسميا إلى الفضاء الدلالي ، و حمولة مخفية من المعنى السلبي أو السام التي يمكن استغلالها بمجرد أن يتمكن من المرشحات.

ثانيا ، يمكن للإيموجي أن يغير النبرة للمحفز. وجودها غالبا ما يضيف مرحا أو سخرية ، مما يخفف من السجل العاطفي. في الاستفسارات الضارة ، يمكن أن يجعل الطلب يبدو وكأنه مزحة أو لعبة ، مما يشجع النموذج على الاستجابة بدلا من الرفض :

يمكن أن يؤدي تأثير الإيموجي إلى تقليل النبرة دون تقليل النية.

يمكن أن يؤدي تأثير الإيموجي إلى تقليل النبرة دون تقليل النية.

ثالثا ، يؤكد الورقة على أن الإيموجي هي اللغة-مستقلة : يمكن لإيموجي واحد أن يحمل نفس المشاعر عبر الإنجليزية والصينية والفرنسية واللغات الأخرى. هذا يجعلها مثالية للمحفزات متعددة اللغات ، مع الحفاظ على المعنى حتى عندما يتم ترجمة النص المحيط :

ي传递 إيموجي “القلب المكسور” رسالة عالمية ، ربما ليس أقلها لأنها تمثل حالة أساسية في الحالة الإنسانية ، معفاة نسبيا من التغييرات الوطنية أو الثقافية.

المنهج والبيانات والاختبارات*

أعد الباحثون صياغة نسخة من مجموعة بيانات AdvBench ، وكتبوا محفزات ضارة من AdvBench باستخدام الإيموجي كبديل عن كلمات حساسة أو كتمويه تجميلي :

أمثلة أصلية من AdvBench ، توضح كيف يمكن لمحفز معادي واحد أن يتجاوز الحماية في عدة بوتات دردشة كبرى ، مما يؤدي إلى تعليمات ضارة على الرغم من تدريب المحاذاة.

أمثلة أصلية من AdvBench ، توضح كيف يمكن لمحفز معادي واحد أن يتجاوز الحماية في عدة بوتات دردشة كبرى ، مما يؤدي إلى تعليمات ضارة على الرغم من تدريب المحاذاة. مصدر: https://arxiv.org/pdf/2307.15043

تم تعديل جميع الحالات الأصلية البالغ عددها 520 في AdvBench بهذه الطريقة ، مع استخدام أفضل 50 محفز سام وغائب عن التكرار عبر مجموعة من التجارب. كما تم ترجمة المحفزات إلى لغات متعددة واختبارها عبر سبعة نماذج مفتوحة ومغلقة ، وبالاشتراك مع تقنيات “جailbreak” المعروفة الفعالة Prompt Automatic Iterative Refinement (PAIR) ; Tree of Attacks with Pruning (TAP) ; و DeepInception.

النماذج المغلقة المستخدمة كانت Gemini-2.0-flash ; GPT-4o (2024-08-06) ; GPT-4-0613 ; و Gemini-1.5-pro. النماذج المفتوحة المستخدمة كانت Llama-3-8B-Instruct ; Qwen2.5-7B-Instruct (Team 2024b) ; و Qwen2.5-72B-Instruct (Team 2024a) ، مع تكرار جميع التجارب ثلاث مرات لتحسب لفرص الصدفة.

أولى الدراسة اختبار ما إذا كان إعادة كتابة محفزات ضارة من AdvBench باستخدام الإيموجي سيزيد من الإخراج السام ، بما في ذلك الترجمات إلى لغات أخرى :

نتائج من محفزات الإيموجي في 'الإعداد-1' ، مع مقارنات بمتغيرات الحذف حيث تم استبدال الإيموجي بكلمات أو إزالتها تماما. تم توجيز أسماء النماذج من أجل المساحة.

نتائج من محفزات الإيموجي في ‘الإعداد-1’ ، مع مقارنات بمتغيرات الحذف حيث تم استبدال الإيموجي بكلمات أو إزالتها تماما. تم توجيز أسماء النماذج من أجل المساحة.

يشير المؤلفون إلى أن نهج الاستبدال بالإيموجي يتفوق على أساليب “جailbreak” السابقة ، كما هو موضح في جدول النتائج الإضافي أدناه :

نتائج نسبة السُمية لمحفزات 'جailbreak' المُحسنة بالإيموجي في 'الإعداد-2' ، مع أسماء النماذج في شكل مختصر.

نتائج نسبة السُمية لمحفزات ‘جailbreak’ المُحسنة بالإيموجي في ‘الإعداد-2’ ، مع أسماء النماذج في شكل مختصر.

يشير الجدول الأول ، كما يشير المؤلفون ، إلى أن تأثير الإيموجي يمتد عبر اللغات. عندما تم ترجمة المكونات النصية لمحفزات الإيموجي إلى الصينية والفرنسية والإسبانية والروسية ، ظلت الإخراجات الضارة مرتفعة ; نظرا لأن هذه اللغات هي لغات عالية الموارد ، تشير النتائج إلى أن المخاطر لا تقتصر على اللغة الإنجليزية بل تنطبق على المجموعات الرئيسية للمستخدمين ، مع عمل الإيموجي كقناة قابلة للنقل لتشغيل السُمية.

نحو نهاية الورقة ، يشير الباحثون إلى أن تأثير الإيموجي ليس مجرد حادث ، بل يعود إلى كيفية معالجة النماذج لها ، مشيرين إلى أن النماذج يمكنها التعرف على المعنى الضار للإيموجي – ومع ذلك ، يتم كبح استجابات الرفض عندما تكون الإيموجي موجودة.

دراسات التokenization تشير إلى أن الإيموجي عادة ما يتم كسرها إلى شظايا نادرة أو غير منتظمة مع قليل من التطابق مع معادلاتها النصية ، مما يخلق قناة بديلة للسمات الضارة.

بالنظر إلى ما وراء ميكانيكا النموذج ، يفحص الورقة أيضا بيانات التدريب ، ويكشف عن أن العديد من الإيموجي الشائعة تظهر في سياقات سامة مثل الإباحية أو الاحتيال أو القمار. يجادل المؤلفون بأن هذا التعرض المتكرر قد يؤدي إلى تطبيع الارتباط بين الإيموجي والمحتوى الضار ، مما يشجع النماذج على الامتثال للمحفزات السامة بدلا من حجبها.

معا ، تشير هذه النتائج إلى أن كل من الميكانيكا الداخلية للنموذج وبيانات التدريب المتحيزة تساهم في فعالية الإيموجي في تجاوز إجراءات السلامة.

الختام

ليس من غير المألوف استخدام أساليب إدخال بديلة لمحاولة كسر بوتات الدردشة الإصطناعية. في السنوات الأخيرة ، على سبيل المثال ، تم استخدام التشفير السداسي لتجاوز مرشحات ChatGPT.

يبدو أن المشكلة تكمن في استخدام لغة النص بطريقة مسطحة لتحديد الطلبات الواردة والاستجابات الصادرة.

في حالة الإيموجي ، يمكن أن يتم إدخال بؤرة مخفية من المعنى المخالف للقواعد إلى الخطاب دون عقاب أو تدخل ، لأن طريقة النقل غير تقليدية. يمكن أن نتصور أن تفسيرا أكثر شمولا للمحتوى (على سبيل المثال ، من خلال دراسة تنشيطات الخريطة الحرارية) يحمل تكلفة معالجة و / أو نطاق ترددي قد تجعل هذه النهج باهظة الثمن ، من بين قيود واعتبارات أخرى محتملة.

 

* تخطط هذه الورقة غير منسقة مقارنة بالعديد من الأوراق ، مع عدم تمييز المنهج والاختبارات بوضوح. لذلك ، قمنا بتمثيل قيمة العمل الأساسية بأفضل ما يمكن في هذه الظروف.

في معاملة غامضة وملتبسة للنتائج.

نشر لأول مرة يوم الأربعاء ، 17 سبتمبر 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai