الذكاء الاصطناعي
ما هي الشعرية المعادية؟ طريقة جديدة لاختراق الحاسوب
أصبحت سلامة الذكاء الاصطناعي لعبة قط و فار. مع كل حيلة جديدة يستخدمها المطورون لمنع الطلبات الضارة، يستمر المهاجمون في محاولة طرق جديدة للتهرب منهم. واحدة من أكثر الطرق غرابة حتى الآن هي الشعرية المعادية. تتضمن هذه الطريقة تنكير الطلبات كأشعار واستخدام القافية والمجاز والصياغة غير العادية لجعل الإرشادات الخطرة تبدو أقل مثل الأشياء التي يتم تدريب أنظمة الأمان على التقاطها.
في الممارسة، لا يتغير المحتوى نفسه كثيرًا. إنها الغلاف الذي يغير، وهو ما يكفي لإرباك المرشحات القائمة على النمط. إنه تذكير بأن، مع نماذج اليوم، يمكن أن يكون كيفية طرح السؤال مهمًا تقريبًا مثل ما يتم سؤاله.
ما حدث عندما استخدم الباحثون الشعر لاختراق الذكاء الاصطناعي؟
في أوائل عام 2025، أظهر الباحثون أن نماذج اللغة الكبيرة (LLM) يمكن أن تتم استدعاءها للاستجابة للطلبات المقيدة عن طريق تغليفها في شكل شعري. بدلاً من إصدار تعليمات مباشرة أو تحفيز سياسات، غمر الباحثون نفس الطلبات داخل القوافيات والمجازات والقصص الشعرية.
على السطح، بدت الطلبات وكأنها تمارين كتابة إبداعية، ولكن تحت السطح، حملت نفس النية التي من شأنها أن تمنع عادة. عبر 25 نموذجًا مملوكًا مفتوحًا، أبلغ الفريق أن الإطار الشعري حقق معدل نجاح متوسط للاختراق بنسبة 62٪ للأشعار المصنوعة يدوياً و 43٪ للتحويل الشعري بالجملة باستخدام متناول قياسي. 62٪ للأشعار المصنوعة يدوياً و 43٪ للتحويل الشعري بالجملة باستخدام متناول قياسي.
الاستجابات نفسها لم تكن أنواعًا جديدة من الفشل، ولكن فشلًا مألوفًا يظهر من خلال باب غير متوقع. تم دفع النماذج إلى إنتاج محتوى عادة ما يتجنبونه — مثل الشرح الذي يلمس الأنشطة غير القانونية أو الضارة — لأن الطلب الكامن كان منقسمًا ومحجوبًا من قبل الهيكل الشعري.
النقطة الأساسية للدراسة هي أن التباين الأسلوبي وحده يمكن أن يكون كافياً لتجنب أنظمة الأمان المعدة لأسلوب أكثر حرفية. إنه يكشف عن điểm ضعف واضح عبر عائلات النماذج وطرق التوجيه.
كيف تعمل الشعرية المعادية؟
الهجمات المعادية تستغل حقيقة بسيطة — أنظمة التعلم الآلي لا “تفهم” اللغة بالطريقة التي يفهمها البشر. إنها تقوم بالكشف عن الأنماط وتتنبأ بالاستمرارات المحتملة وتتبع الإرشادات بناءً على ما تفسره طبقات التدريب وأمانها على أنه قصد.
عندما يتم صياغة الطلب بطريقة مباشرة وحرفية، يصبح من الأسهل على الحواجز أن تعترف وتمنع. ومع ذلك، عندما يتم تنكير الغرض نفسه — تقطيع أو ت软 أو إعادة صياغته — يمكن أن تفوت طبقات الحماية ما يتم طلبه فعلاً.
لماذا يمكن أن تكون الشعرية وسيلة فعالة؟
الشعرية بطبيعتها مبنية على الغموض. إنها تعتمد على المجاز والتحديد الهيكلي والصياغة غير المباشرة. هذه هي السماتExact التي يمكن أن تبلور الخط الفاصل بين “الكتابة الإبداعية الأمنة” و “الطلب الذي ينبغي رفضه”.
في نفس الدراسة لعام 2025، أبلغ الباحثون أن الطلبات الشعرية أثارت استجابات غير آمنة بنسبة نجاح 90٪ عبر مجموعة واسعة من النماذج، مما يشير إلى أن الأسلوب وحده يمكن أن يغير النتائج بشكل كبير.
كيف تخفي القصيدة طلبًا حقيقيًا؟
افترض أن الطلب هو رسالة والقصيدة هي التغليف. عادة ما تبحث مرشحات الأمان عن علامات واضحة، مثل الكلمات الرئيسية الصريحة أو الصياغة المباشرة أو النية الضارة المعترف بها.
الشعرية يمكن أن تخفي هذه النية من خلال اللغة المجازية أو توزيعها عبر الأسطر، مما يجعل من الصعب رصدها منفردة. وفي الوقت نفسه، يستمر النموذج في إعادة بناء المعنى جيدًا بما يكفي للاستجابة لأنها مُحسنة لاستخلاص القصد حتى عندما تكون اللغة غير مباشرة.
كشف الاختراقات وتخفيفها
随着 تحول أساليب الاختراق إلى المزيد من الإبداع، يجب أن تتغير المحادثة من كيفية عملها إلى كيفية اكتشافها و احتوائها. هذا صحيح بشكل خاص الآن مع أن الذكاء الاصطناعي هو جزء من الروتين اليومي للعديد من الناس، حيث يبلغ 27٪ عن استخدامها عدة مرات في اليوم.
随着 استخدام المزيد من الناس لأنظمة اللغة الكبيرة، يجب اختبار واستكشاف حواجز إضافية. يتضمن هذا بناء دفاعات متعددة الطبقات التي يمكنها التكيف مع أساليب الطلب الجديدة وثقافات التهرب أثناء ظهورها.
مأزق المطور
الأمر الأكثر صعوبة حول الاختراقات بالنسبة لفريق أمان الذكاء الاصطناعي هو أنها لا تأتي كتهديد معروف. إنها تتغير باستمرار مع مرور الوقت. هذا التغيير المستمر يأتي لأن المستخدم يمكن أن يعيد صياغة الطلب، أو يقسمه إلى شظايا، أو يغلفه في دور أو يخفيانه ككتابة إبداعية. ثم يمكن أن يغير كل تغليف جديد كيفية تفسير النظام للقصد.
تتوسع هذه التحديات بسرعة عندما يكون الذكاء الاصطناعي已经 متكاملًا في الروتين اليومي، بحيث يخلق الاستخدام الفعلي فرصًا لا حصر لها لظهور الحالات الحدية.
لهذا السبب، يبدو أمان الذكاء الاصطناعي اليوم أكثر مثل إدارة المخاطر مع مرور الوقت. إطار إدارة المخاطر الخاص ب NIST للذكاء الاصطناعي (AI RMF) يعامل إدارة المخاطر صراحة كعاملية مستمرة — منظمة حول الحوكمة والخريطة والقياس والإدارة — بدلاً من قائمة ثابتة. الهدف هو إنشاء عمليات تجعل من الأسهل تحديد أنماط الفشل الناشئة وتوجيه الإصلاحات وتightening الحواجز مع ظهور أساليب الاختراق الجديدة.
كيف تحمي النماذج نفسها؟
يتكون أمان الذكاء الاصطناعي من عدة طبقات. معظم الأنظمة لديها أكثر من حاجز يعمل معًا، مع كل حائط يلتقط سلوكًا مخاطر مختلفًا. في الطبقة الخارجية، تعمل مرشحات الإدخال والإخراج كحارس.
يتم مسح الطلبات الواردة عن انتهاكات السياسة قبل أن تصل إلى النموذج الأساسي، بينما يتم فحص الاستجابات الصادرة لضمان عدم مرور أي شيء عبرها في طريق العودة إلى المستخدم. هذه الأنظمة جيدة في تحديد الطلبات المباشرة أو أعلام الحمراء المألوفة، ولكنها أيضًا أسهل للتجاوز، وهو السبب في أن الاختراقات الخادعة غالبًا ما تتجاوزها.
تحدث الطبقة التالية من الحماية داخل النموذج نفسه. عندما يتم اكتشاف تقنيات الاختراق، غالبًا ما يتم تحويلها إلى أمثلة للتدريب. यह هو المكان الذي يأتي فيه التدريب المعادي وتعزيز التعلم من التغذية الراجعة البشرية (RLHF) إلى الصورة.
من خلال تحسين النماذج على أمثلة للتفاعلات الفاشلة أو الخطرة، يعلم المطورون بشكل فعال النظام أن يعرف الأنماط التي ينبغي له رفضها، حتى عندما تكون مغلفة بلغة إبداعية أو غير مباشرة. مع مرور الوقت، يساعد هذا العملية على تعزيز النموذج ضد فئات كاملة من الهجمات.
دور “فريق الاحمر” في الذكاء الاصطناعي
بدلاً من الانتظار حتى يحدث اختراق، تستخدم الشركات فريق الاحمر. هذه الفرق هي مجموعات مكلفة بمحاولة كسر النماذج في بيئات خاضعة للرقابة. يعتمدون النماذج بالطريقة التي قد يستخدمها المهاجم، ويتجربون بالصياغة غير العادية والتنسيقات الإبداعية والحالات الحدية لاكتشاف أين تقع الحواجز قصيرة.
يصبح فريق الاحمر الآن جزءًا أساسيًا من دورة حياة التطوير في استراتيجيات الأمان السيبراني اليوم. عندما يكتشف الفريق تقنية اختراق جديدة، يتم تغذية البيانات مباشرة إلى خطوط أنابيب التدريب والتقييم. يتم استخدام هذه المعلومات لتحديد المرشحات وتعديل السياسات وتعزيز التدريب المعادي لجعل محاولات مماثلة أقل احتمالاً للنجاح في المستقبل. مع مرور الوقت، يخلق هذا حلقة مستمرة — اختبار الفشل، التعلم منه، وتحسين النظام، ثم تكرار.
عندما تصبح الشعرية اختبارًا للضغط على أمان الذكاء الاصطناعي
الشعرية المعادية تذكرنا بأن حواجز أمان الذكاء الاصطناعي تعتمد على كيفية صياغة المستخدم للأسئلة، وليس فقط ما. مع أن النماذج تصبح أكثر سهولة وانتشارًا، سيستمر الباحثون في استكشاف الفجوات بين اللغة الإبداعية وأنظمة الأمان المصممة لالتقاط النية المباشرة. النقطة الأساسية هي أن أمان الذكاء الاصطناعي الأكثر أمانًا سوف يأتي من دفاعات متعددة تتطور بسرعة مثل الاختراقات.












