قادة الفكر
هجوم الحقن المحفز الذي لا يمكن منعه: تفكير متمني أو قلق حقيقي؟

في هذا المقال، أود أن أشرك القارئ في تجربة فكرية. أنا ذاهب لادعاء أن في المستقبل القريب، نوع معين من هجوم الحقن المحفز سيكون فعالاً في منعه.我的 حجة سوف تكون أكثر تحديداً من الكونكرية، لذلك أنا لا أحاول إقناعك بأي شيء. بدلاً من ذلك، أدعوك لاستكشاف هذه الأفكار. قبل أن أبدأ، كما يفعل أي كاتب مقنع، أريد أن أناقش الشطرنج والهندسات الشطرنجية.
الهندسات الشطرنجية الخارقة والادعاء حول الخبرة الإنسانية
أحد العناصر الأفضل في الشطرنج التي تفتقر إليها في مجالات أخرى هي القدرة على قياس موضوعي لجودة أو قوة اللاعب. نظام التقييم ELO المستخدم لهذا الغرض له عيوبه، ولكنها توفر تقديراً جيداً يعتمد على الوقت. تقييم 2700 أو أعلى يعتبر من الدرجة العالمية (أفضل 30 في العالم). أفضل لاعب في العالم هو فقط أقل من 2850. لم يصل أي إنسان إلى تقييم 2900.
في منتصف التسعينيات، رأينا أول محرك إصطناعي (Deep Blue) يصل إلى مستوى عالمي. كان التأثير العملي لهذا الحدث هو تبني المحركات على نطاق واسع من قبل اللاعبين على جميع المستويات لممارسة التحليل. في الواقع، أصبحت استخدام المحركات ضرورياً للاعبين الأفضل في العالم. ومع ذلك، لعدة أجيال من هذه المحركات العالمية، كان من الضروري مراجعة الحركات الموصى بها (أي، الإخراج). حتى تم إنشاء تنسيق خاص يسمى “الشطرنج المتقدم” حيث تنافس البشر مع محرك إلى جانبهم، وتم اعتبار الجمع بين الإنسان والآلة أفضل من الآلة وحدها.
استغرق الأمر حوالي 20 عاماً، وبعض التقدم الحاسم في التعلم العميق والتعلم التعاوني للشطرنج لمحركات الشطرنج أن تصل إلى مستوى خارق (حوالي 3200 ELO). ولكن بمجرد أن تم اختراق هذا المستوى حول 2017، حدث شيء مفاجئ جداً. في الواقع، حدثت أمورتان. الأولى كانت متوقعة تماماً؛ أصبحت المحركات مصدر “الحقيقة الموضوعية” في 99% من جميع المواقف. في الممارسة، ذلك يعني أننا دخلنا “عصر الثقة العمياء” في المحرك. هذه الأيام، من المستحيل تقريباً أن ي提议 إنسان حركة أفضل بشكل ملحوظ من المحرك. على الرغم من أن “الشطرنج المتقدم” كان ممتعاً، إلا أنه الآن تمارين بلا فائدة؛ ساهم البشر بشكل قليل جداً في اللعبة. ولكن الشيء الثاني كان مفاجئاً لمعظم لاعبي الشطرنج. هذه المحركات العصبية الخارقة (أي، شبكات عصبية عميقة) لعبت أحياناً بطريقة يمكن وصفها بأنها “رومانسية”. في كلمات أخرى، قامت بحركات قيمة يمكن تقديرها فقط بعد العديد من الحركات، بعيداً عن ما يمكن لحساب أي إنسان أو محرك عالمي حسابه. شعرت حقاً كما لو أن المحركات طوّرت “شعوراً” أو “直觉” لبعض المواقف. باستثناء أن هذه الذكاء لا شيء يمكن أن يفهمه أو يقلده الإنسان.
مصاغة بشكل مختلف، يمكن لمحرك عصبوي خارق أن يقوم بحركات خارج الأفق المعرفي للإنسان. هذه هي النقطة الحاسمة هنا؛ المشكلة ليست مشكلة تفسيرية. بل الإنسان ببساطة لا يستطيع فهم لماذا يوصي المحرك بحركة دون لعب المواقف ومراقبة النتيجة بعد العديد من الحركات، أي، لعب كل مسار محتمل للعبة. ونتيجة لذلك، لدينا فجوة غير قابلة للتغلب عليها في القدرة. من الأمثل قبول إخراج المحرك بدون مراجعة. يمكنني تلخيص ادعائي على النحو التالي:
الشطرنج هو دليل على وجود أنظمة إصطناعية خارقة تعمل بشكل مستقل في بعض المجالات. تمكين نظام الإصطناعي من اتخاذ القرارات بدون مراجعة إنسانية سيكون الطريقة المثلى لنشر مثل هذا النظام.
منذ أن قد يبدو ادعائي واضحاً أو غير ملحوظ، أريد أن أبرز بعض النعوت. افترض أن لدينا نظام إصطناعي يثبت مستوى خارق في مهمة معقدة وحاسمة ذات عواقب ملموسة غير قابلة للإصلاح. هناك عواقبان لادعائي:
- سيتم نشر النظام لاتخاذ القرارات للمهمة بدون مراجعة إنسانية، على الرغم من المخاطر الكامنة
- الرؤية المكتسبة من مراقبة مثل هذا النظام لن تمنع قراراً ضاراً؛ الضرر سيكون قد حدث بالفعل
مراجعة إخراج النظام ومراقبته هما层ان الدفاع الأخيران ضد هجوم الحقن المحفز. لذلك، يمكن لهجومنا المفترض أن يتجاوز هذه الطبقات ببساطة عن طريق استهداف النظام المناسب.
هذا سيناريو واقعي جداً في ذهني. نظام إصطناعي خارق في مجال معين ليس نظام إصطناعي عام، وي相信 معظم الخبراء أن مثل هذه الأنظمة قريبة جداً. لم نكن بحاجة إلى افتراض أن القرارات سريعة، فقط أن المهمة معقدة بما يكفي لجعل المراجعة الإنسانية غير قابلة للتحقيق.
بالطبع، لقد تجاوزنا فقط طبقتين من الدفاع حتى الآن، وحظاً لنا، تم تطوير العديد من الطبقات الأخرى. لمعالجة الباقي، دعونا ننغمس في العناصر الأساسية التي تجعل هجوم الحقن المحفز صعباً للدفاع عنه.
ما هو هجوم الحقن المحفز؟
هجوم الحقن المحفز هو تحрик لموديل لغة كبير من خلال إدخالات مصممة، مما يسبب لموديل لغة كبير تنفيذ نوايا المهاجم بدون علم. يمكن اعتباره هندسة اجتماعية للمelligence الإصطناعي. من المهم، ليس خطأ برمجي تقليدي. هجوم الحقن المحفز يستغل ضعف موديل لغة كبير. منذ أن يعالج موديلات لغة كبيرة كل من التوجيهات والنصوص كتسلسلات نصية، لا يمكنها التمييز بشكل nội بين التوجيهات الشرعية والضارة. الضعف هو بذلك فعال من التصميم، وليس بسبب الحادث.
تقنيات هجوم الحقن المحفز
يتم التعرف على هجوم الحقن المحفز بشكل عام على أنه الخطر رقم 1 لتطبيقات موديلات لغة كبيرة. هناك عدة أسباب لذلك. العامل الأكثر وضوحاً هو تنوع تقنيات الحقن التي تم تطويرها. بتجميعها تقريباً في أربع فئات، تشمل التقنيات الأكثر شهرة:
- قائم على الصياغة: باستخدام رموز خاصة، الرموز التعبيرية، أو لغة بديلة
- غير مباشر: باستخدام مصادر خارجية (الاسترجاع من الموقع)، التشفير (الأساسي 64)، أو الإشارة متعددة الوسائط (نص في صورة)
- “لنلعب دور”: تقديم نمط خادع من خلال التمثيل، الافتراضي، الإستئمان العاطفي، الإطار الأخلاقي، وتغيير الشكل
- الغش: محاولة صريحة “لإجبار” تعليمات الموديل بالقوة الغاشمة، التعزيز، أو النص السلبي
يوفّر التنوع وحده تحدياً لمطوري التطبيقات، ولكن هذه الهجمات تطوّرت أيضاً بسرعة. الجانب الأيسر من الرسم التالي يزعم وصف حالة الفن في أوائل 2023، في حين يعكس الجانب الأيمن طبيعة الهجمات اليوم.

يجب على مطوري تطبيقات موديلات لغة كبيرة أن يأخذوا في الاعتبار أيضاً التوازن بين سهولة الاستخدام والأمان. يمكنهم بالتأكيد إدخال كل طبقة دفاع ونمط تصميم، ولكن بأي ثمن؟ أضاف طبقات الدفاع زمن التأخير وأدخل إيجابيات خاطئة (FPs) – علم بشكل خاطئ توجيهات آمنة على أنها ضارة – وكلا العاملين لهما تأثير سلبي على تجربة المستخدم. ونتيجة لذلك، بعض مستوى من التسوية هو حتمي في الممارسة، وليس هناك حل سحري.
然而، في هذا المقال، أنا لا أهتم حقاً بهذه اللعبة القط والفأر التي لا تنتهي. بدلاً من ذلك، أنا أبحث عما إذا كان الهجوم يمكن أن يكون غير قابل لمنع في المبدأ. من منظور المطور / المدافع، هناك رؤية رئيسية واحدة:
فصل التوجيهات من البيانات في التوجيه هو أساسي لمعالجة مخاطر حقن التوجيه
يمكننا افتراض أن التبادل ليس عاملاً، ويمكن استخدام أي طبقة دفاع أو تقنية. تحت هذا الافتراض (القوي)، هل من الممكن تصور سيناريو حيث فصل التوجيهات والبيانات في توجيه هو فعال غير ممكن؟
التناظر الوراثي
مرة واحدة تم صياغة القضية فيما يتعلق بفصل التوجيهات والبيانات، كانت فكرتي الأولى هي استخدام الأحياء كتناظر.
افكر في خلية ومدى من الحمض النووي (المعروف باسم الجين). يوفر الجين توجيهات لبناء بروتين من خلال النسخ والترجمة. كما أنه يشفر المعلومات (البيانات) التي تؤثر على هيكل ووظيفة البروتين. على هذا النحو، يحدد الجين في نفس الوقت ما يجب بناؤه، وكيف يبنى، أو هكذا كنت أفكر. ومع ذلك، هذا ببساطة كاذب لأن الجين لا يقرر كيف يفسر نفسه. لا توجد مكافئة للمتابعة في الأحياء على مستوى الجين. “كيف” يتم استخلاصه полностью إلى الآلة الخلوية.
لذلك، حتى إذا لم أستطع التخلص من الشعور بأن أجيال المستقبل من موديلات لغة كبيرة – أو بدقة، الأنظمة التي تتطور إليها – ستشبه إلى حد أكبر الآلات البيولوجية، التناظر المقترح ببساطة لا يعمل. لا يمكننا استبدال خلية بموديل لغة كبير وجين بتوجيه ثم أداء حقن في الجين الذي سيسبب في النهاية بناء بروتين “تالف”، يبدو أكثر إنتاجية للبقاء على لغة طبيعية ومهام تتطلب التفسير الدلالي.
نزع طبقات الدفاع
يجب ألا يكون مفاجئاً أن استراتيجيات الدفاع متعددة الطبقات تعتبر أكثر فعالية في إيقاف هجمات حقن التوجيه. يظهر الصورة أدناه الطبقات الدفاعية الأكثر شيوعاً بالترتيب، والتقنيات المرتبطة بكل طبقة.

لقد ناقشنا بالفعل الطبقتين الأخيرتين (الإخراج، المراقبة) أعلاه، لذلك دعونا نركز على الأولى.
باعتبار طبقة الإدخال، من المعقول افتراض أن تنقية أو التحقق من صحة التوجيه سيكون ناجحاً جداً في الكشف عن الهجمات غير المباشرة. ومع ذلك، إذا تم تسليم الحقن مباشرة، وبالاعتماد على التفسير الدلالي كما اقترحت أعلاه، قد تكون التنقية غير ذات صلة (لا شيء للتطهير)، والتحقق من الصحة مستحيل بشكل افتراضي لأن الحساب يجب أن يتم لإيضاح القضية.
هناك بالكاد حدود لما يمكنك بناءه في طبقة الكشف. في الواقع، يمكنك حتى استخدام موديل لغة كبير مخصص لتحديد الحقن. ولكن مرة أخرى، سيكون من الصعب على المصنف أو كاشف الشذوذ أن يؤشر توجيهاً كشبه خبيث عندما يتم إخفاء السم بشكل خبيث في التفسير الدلالي.
يمكن أن تكون طبقة الموديل فعالة جداً عندما يكون نطاق المهام ضيقاً، ويمكن تحقيق التحسين الدقيق. يمكن تقديم حجة مماثلة لطبقة النظام عندما تكون استخدامات الأدوات قابلة للتوقع. ومع ذلك، على الأقل بشكل直觉ي، لن يثير أي منهما انتباهاً إذا ألقى الحقن الخادع بالتفسير.
بيت من ورق
كان نييتي عند بدء كتابة هذا المقال هو وصف “هجوم حقن توجيه غير قابل لمنع” بمجملها. ربما انتهيت إلى اتباع نهج “غير بنائي” عن طريق ثقب طبقات الدفاع الحالية. تظاهر تقنيات الدفاع بالتطور بسرعة، وكذلك سطح الهجوم. هذه اللعبة لا تظهر أي علامات على الانتهاء قريباً. ومع ذلك، أنا أيضاً أعتقد أننا لن نكون الذين يلعبونها لفترة طويلة. أظن أن الهجوم الناجح في المستقبل سيكون لا يزال في اللغة الطبيعية، فقط لغة لا يستطيع البشر فهمها؛ وأظن أنه سيكون مكتشفاً تلقائياً من قبل نظام بني لهذا الغرض أو ربما بالصدفة بعد معالجة مهمة ذات صلة، مثل البحث عن الغموض الدلالي في بعض مساحة التمثيل.
هناك شيء غير سار في الإعتراف بأننا نخسر السيطرة ونتشعر أن هذا هو الشئ الأكثر عقلانية للقيام به. يمكنك pensar عنه على أنه “البرهان الذاتي” أن بعض الهجمات ستكون غير قابلة للإيقاف. وإذا تركتك هذا يشعرك بعدم الراحة، سيكون من دواعج أن تعرف أن GPT 5.2 وجد هذا الحجة “غير مثير للجدل أو الجديد” وادعى أنني لا “أطيل في النقطة” وقطع 40% من المقال.
