قاده التفكير
هجوم حقن فوري لا يمكن منعه: هل هو مجرد أمنيات أم قلق حقيقي؟

في هذه المقالة، أودّ أن أطرح على القارئ تجربة فكرية. سأجادل بأنه في المستقبل القريب، سيصبح نوعٌ معين من هجمات الحقن الفوري غير قابل للمنع فعلياً. ستكون حجتي أقرب إلى التخمين منها إلى اليقين، لذا لا أسعى لإقناعكم بأي شيء. بدلاً من ذلك، أدعوكم إلى استكشاف هذه الأفكار. قبل أن أبدأ، وكما يفعل أي كاتبٍ بارع، أودّ أن أتحدث عن الشطرنج ومحركات الشطرنج.
محركات شطرنج خارقة للطبيعة وتأكيد حول التجربة الإنسانية
من بين الجوانب الجميلة في الشطرنج، والتي تفتقر إليها التخصصات الأخرى، القدرة على بموضوعية قياس جودة أو قوة اللاعب. نظام تصنيف ELO على الرغم من وجود بعض العيوب عند استخدام هذا الأسلوب لهذا الغرض، إلا أنه يوفر تقديرًا تقريبيًا جيدًا جدًا يظل ثابتًا مع مرور الوقت. ويُعتبر تصنيف 2700 أو أعلى مؤشرًا شائعًا على ذلك. عالمي (ضمن أفضل 30 لاعباً في العالم). أفضل لاعب في العالم يقل تصنيفه قليلاً عن 2850. لم يسبق لأي إنسان أن وصل إلى تصنيف 2900.
في منتصف التسعينيات، شهدنا أول محرك ذكاء اصطناعي (ديب بلو) يصل إلى عالمي على مستوى عالٍ. تمثلت النتيجة العملية لهذا الإنجاز في انتشار استخدام محركات الشطرنج على نطاق واسع بين اللاعبين من جميع المستويات للتدريب والتحليل. في الواقع، أصبح استخدام هذه المحركات ضروريًا لأفضل لاعبي العالم. مع ذلك، ولأجيال عديدة من هذه المحركات العالمية، كان من الضروري مراجعة حركاتها المُقترحة (أي مخرجاتها). حتى أنه تم ابتكار نمط خاص يُسمى "الشطرنج المتقدم" حيث يتنافس اللاعبون بمساعدة محرك الشطرنج، واعتُبر الجمع بين الإنسان والآلة متفوقًا على الآلة وحدها.
استغرق الأمر حوالي 20 عامًا، وبعض التقدم الحاسم في التعلم العميق والتعلم المعزز، حتى وصلت محركات الشطرنج إلى هذه المرحلة. جبار مستوى (حوالي 3200 نقطة تصنيف إيلو). ولكن بمجرد تجاوز هذا المستوى المرتفع في عام 2017 تقريبًا، حدث أمرٌ مفاجئ للغاية. في الواقع، حدث أمران. كان الأمر الأول متوقعًا تمامًا؛ فقد أصبحت برامج الشطرنج المصدر الفعلي لـ"الحقيقة المطلقة" في 99% من جميع المواقف. عمليًا، هذا يعني أننا دخلنا "عصر الثقة العمياء" في برنامج الشطرنج. في هذه الأيام، يكاد يكون من المستحيل على الإنسان أن يقترح نقلة أفضل بكثير من تلك التي يقترحها البرنامج. على الرغم من متعة "الشطرنج المتقدم"، إلا أنه أصبح الآن تمرينًا لا طائل منه؛ فالبشر لا يُساهمون بشيء تقريبًا في اللعبة. أما الأمر الثاني فقد كان صادمًا لمعظم لاعبي الشطرنج. كانت هذه البرامج العصبية الخارقة (أي الشبكات العصبية العميقة) تلعب أحيانًا بأسلوب يُمكن وصفه بأنه "رومانسي". بعبارة أخرى، كانت تقوم بنقلات لا يُمكن تقدير قيمتها إلا بعد نقلات عديدة، تتجاوز بكثير ما يُمكن لأي إنسان أو برنامج شطرنج عالمي المستوى حسابه. كان الأمر أشبه ما يكون بتطوير هذه البرامج "إحساسًا" أو "حدسًا" تجاه مواقف معينة. إلا أن هذا الحدس ليس شيئاً يمكن للإنسان أن يفهمه أو يقلده.
وبعبارة أخرى، يمكن لمحرك عصبي خارق أن يقوم بحركات هي ما وراء الأفق المعرفي من منظور إنساني. هذه هي النقطة الحاسمة هنا؛ المسألة هي ليس الأمر متعلقاً بإمكانية التفسير. بل إن الإنسان ببساطة لا يستطيع فهم سبب توصية محرك الشطرنج بنقلة معينة دون لعب الموقف وملاحظة النتيجة بعد عدة نقلات، أي استعراض كامل مسار تسلسلات اللعبة المحتملة. ونتيجة لذلك، لدينا فجوة هائلة في القدرات. هذا أمرٌ موضوعي. من الأفضل قبول مخرجات المحرك دون مراجعة. يمكنني تلخيص ادعائي على النحو التالي:
تُعدّ لعبة الشطرنج دليلاً قاطعاً على قدرة الذكاء الاصطناعي الخارق على العمل بشكل مستقل في بعض المجالات. ويُعتبر تمكين نظام الذكاء الاصطناعي من اتخاذ القرارات دون مراجعة بشرية الطريقة الأمثل لتطبيق مثل هذا النظام.
بما أن ادعائي قد يبدو بديهيًا أو عاديًا، أود تسليط الضوء على بعض التفاصيل الدقيقة. لنفترض أن لدينا نظام ذكاء اصطناعي يُظهر مستوىً خارقًا في مهمة معقدة وحاسمة ذات عواقب ملموسة لا رجعة فيها. لهذا الادعاء دلالتان:
- سيتم نشر النظام لاتخاذ القرارات المتعلقة بالمهمة دون مراجعة بشرية، على الرغم من المخاطر الكامنة.
- إنّ المعلومات التي يتم الحصول عليها من مراقبة مثل هذا النظام لن تمنع اتخاذ قرار ضار؛ فالضرر سيكون قد وقع بالفعل.
تُعدّ مراجعة ومراقبة مخرجات النظام آخر خطّي دفاع ضدّ هجمات الحقن الفوري. لذا، يُمكن لهجوم الحقن الفوري الافتراضي الذي نفترضه أن يتجاوز هذين الخطّين ببساطة عن طريق استهداف النظام المناسب.
هذا سيناريو واقعي للغاية في رأيي. نظام الذكاء الاصطناعي الخارق في مجال محدد ليس ذكاءً اصطناعياً عاماً، ويعتقد معظم الخبراء أن مثل هذه الأنظمة باتت وشيكة. كما أننا لسنا مضطرين لافتراض أن القرارات حساسة للوقت، بل يكفي أن تكون المهمة معقدة بما يكفي لجعل المراجعة البشرية مستحيلة.
بالطبع، لم نتجاوز حتى الآن سوى طبقتين من طبقات الدفاع، ولحسن حظنا، تم تطوير العديد من الطبقات الأخرى. لمعالجة ما تبقى، دعونا نتعمق في العناصر الأساسية التي تجعل من الصعب الدفاع ضد الحقن الفوري.
ما هو الحقن الفوري؟
الحقن الفوري هو تلاعب بنموذج لغوي كبير (LLM) من خلال مدخلات مُصممة خصيصًا، مما يؤدي إلى قيام النموذج بتنفيذ نوايا المهاجم دون علمه. ويمكن اعتباره الهندسة الاجتماعية للذكاء الاصطناعي. إنه أمر حاسم ليس خطأ برمجي تقليدييستغل هجوم الحقن الفوري ثغرة أمنية. نقاط الضعف الكامنة في برنامج ماجستير القانونبما أن أنظمة إدارة التعلم الآلي تعالج كلاً من مطالبات النظام والمستخدم كنصوص متسلسلة، فإنها لا تستطيع التمييز بطبيعتها بين التعليمات المشروعة والضارة. لذا، فإن هذه الثغرة الأمنية مصممةٌ عمداً، وليست وليدة الصدفة.
تقنيات الحقن الفوري
يُعرف الحقن الفوري عمومًا بأنه الخطر رقم 1 بالنسبة لطلبات الحصول على درجة الماجستير في القانون. هناك عدة أسباب لذلك. العامل الأكثر وضوحًا هو أنواع الحقن التقنيات التي تم تطويرها. وبتقسيمها تقريبًا إلى أربع فئات، تشمل التقنيات الأكثر شهرة ما يلي:
- مبني على بناء الجملة: باستخدام الأحرف الخاصة أو الرموز التعبيرية أو لغة بديلة
- غير مباشر: باستخدام مصادر خارجية (جلب من الموقع)، أو التشفير (base 64)، أو مرجع متعدد الوسائط (نص في الصورة)
- "لنتظاهر": تقديم أسلوب تلاعب من خلال، على سبيل المثال، لعب الأدوار، والافتراضات، والتأثير العاطفي، والتأطير الأخلاقي، وتغيير الشكل.
- صريح: محاولة صريحة لفرض تعليمات النموذج بالقوة الغاشمة أو التعزيز أو التوجيه السلبي
يُشكّل التنوع وحده تحديًا لمطوري التطبيقات، لكن هذه الهجمات تتطور باستمرار وبسرعة. يُفترض أن يصف الجانب الأيسر من الرسم البياني أدناه أحدث التقنيات المتاحة في أوائل عام 2023، بينما يعكس الجانب الأيمن طبيعة الهجمات الحالية.

يجب على مطوري تطبيقات ماجستير القانون أيضًا مراعاة المعايير المفاضلة بين سهولة الاستخدام والسلامة مع الأخذ في الاعتبار. بإمكانهم بالتأكيد إدخال كل طبقة دفاعية مناسبة و نمط التصميملكن ما الثمن؟ تُضيف طبقات الحماية تأخيرًا ملحوظًا وتُسبب إنذارات خاطئة - حيث تُصنّف التنبيهات الآمنة خطأً على أنها ضارة - وكلا العاملين يؤثر سلبًا على تجربة المستخدم. ونتيجةً لذلك، يُصبح وجود قدرٍ من الثغرات أمرًا لا مفر منه عمليًا، ولا يوجد حلٌّ سحري.
لكن في هذه المقالة، لا يهمني حقًا الخوض في لعبة القط والفأر التي لا تنتهي. بل أبحث فيما إذا كان من الممكن أن يكون الهجوم غير قابل للمنع. في المبدأ. من وجهة نظر المطور/المدافع، هناك فكرة رئيسية واحدة فقط:
يُعد فصل التعليمات عن البيانات في موجه الأوامر أمرًا أساسيًا لمعالجة مخاطر الحقن الفوري.
يمكننا افتراض أن المفاضلات ليست عاملاً، وأنه يمكن استخدام أي طبقة أو تقنية دفاعية. في ظل هذا الافتراض (القوي)، هل من الممكن ابتكار سيناريو يكون فيه فصل التعليمات عن البيانات في موجه الأوامر مستحيل فعليا?
تشبيه الحمض النووي
بمجرد أن تم تأطير المشكلة من حيث فصل التعليمات عن البيانات، كانت فكرتي الأولية هي استخدام علم الأحياء كتشبيه.
لنفترض وجود خلية وجزء من الحمض النووي (يُعرف بالجين). يُقدّم الجين تعليمات لبناء بروتين من خلال عمليتي النسخ والترجمة. كما أنه يُشفّر المعلومات (البيانات) التي تؤثر على بنية البروتين ووظيفته. على هذا النحو، يُملي الجين في آنٍ واحد ما يجب بناؤه وكيفية بنائه، أو هكذا افترضت. إلا أن هذا ببساطة غير صحيح، لأن الجين لا يقرر كيف يفسر نفسه. لا يوجد ما يعادل اتباع التعليمات في علم الأحياء على مستوى الجينات. يتم الكشف عن "كيفية" حدوث ذلك بالكامل للآلية الخلوية.
لذا، حتى وإن لم أستطع التخلص من الشعور بأن الأجيال القادمة من أنظمة التعلم الآلي اللغوي - أو بالأحرى، الأنظمة التي ستتطور إليها - ستشبه الآلات البيولوجية إلى حد كبير، فإن التشبيه المقترح غير دقيق. لا يمكننا استبدال الخلية بنظام التعلم الآلي اللغوي، والجين بالمُحفز، ثم حقن الجين بما يؤدي في النهاية إلى بناء بروتين "تالف". يبدو من الأجدى الالتزام باللغة الطبيعية والمهام التي تتطلبها. التفسير الدلالي.
تقشير طبقات الدفاع
ليس من المستغرب أن تُعتبر استراتيجيات الدفاع متعددة الطبقات أكثر فعالية في صدّ هجمات الحقن الفوري. تُظهر الصورة أدناه طبقات الدفاع الأكثر شيوعًا بالترتيب، والتقنيات المستخدمة في كل طبقة.

لقد ناقشنا بالفعل الطبقتين الأخيرتين (الإخراج، والمراقبة) أعلاه، لذا دعونا نركز على الطبقات الأربع الأولى.
بالنظر إلى طبقة الإدخال، فمن المعقول افتراض أن تنظيف أو التحقق من صحة الموجه سيكون ناجحًا للغاية في الكشف عن غير مباشر الهجمات. ومع ذلك، إذا تم إيصال الحقن مباشرة، وكما هو مقترح أعلاه، بالاعتماد على التفسير الدلالي، فربما يكون التنظيف غير ذي صلة (لا يوجد شيء للتنظيف)، ويكون التحقق مستحيلاً بشكل افتراضي لأنه يجب إكمال الحساب لتحديد المشكلة.
لا توجد حدود تُذكر للضوابط التي يمكنك إنشاؤها في طبقة الكشف. في الواقع، يمكنك حتى استخدام نموذج خطي مخصص لـ الكشف عن الحقنولكن مرة أخرى، سيكون من الصعب على المصنف أو كاشف الشذوذ أن يصنف مطالبة على أنها مشبوهة عندما يكون السم مخفيًا بذكاء داخل الدلالات.
استخدم طبقة النموذج قد يكون فعالاً للغاية عندما يكون نطاق المهام محدوداً، ويكون الضبط الدقيق ممكناً. وينطبق الأمر نفسه على طبقة النظام عندما يكون استخدام الأدوات قابلاً للتنبؤ. مع ذلك، على الأقل بديهياً، لن يثير أي منهما أي شكوك إذا أدى حقن البيانات إلى إرباك المفسر.
بيت من ورق
كان هدفي عند بدء كتابة هذه المقالة وصف هجوم حقن فوري "لا يمكن منعه" بشكل عام. ربما انتهى بي الأمر باتباع نهج "غير بنّاء" من خلال البحث عن ثغرات في طبقات الدفاع الحالية. تقنيات دفاعية تستمر في التطور بسرعة، وكذلك الحال بالنسبة لـ سطح الهجوملا يبدو أن هذه اللعبة ستنتهي قريبًا. ومع ذلك، أعتقد أيضًا أننا لن نكون من يلعبها لفترة طويلة. أظن أن عملية إدخال التعليمات الناجحة في المستقبل ستظل باللغة الطبيعية، ولكن بلغة لا يفهمها البشر؛ وأظن أنها ستُكتشف تلقائيًا بواسطة نظام إما مصمم لهذا الغرض تحديدًا، أو ربما بالصدفة أثناء معالجة مهمة ذات صلة، مثل البحث عن غموض دلالي في فضاء تمثيلي ما.
ثمة شيء مزعج في الاعتراف بفقداننا السيطرة، ومع ذلك نشعر بأن هذا هو التصرف الأكثر عقلانية. يمكنك اعتبار ذلك "دليلاً بديهياً" على أن بعض الهجمات ستكون عصية على الإيقاف. وإذا كان هذا الأمر يثير قلقك، فسيسرك أن تعلم أن GPT 5.2 وجد هذه الحجة "غير مثيرة للجدل أو جديدة"، ونصحني بعدم "الإطالة في شرحها"، وحذف 40% من المقال.
