الأمن السيبراني

عندما يُؤدي الذكاء الاصطناعي إلى نتائج عكسية: تقرير Enkrypt AI يكشف عن ثغرات خطيرة في نماذج_MULTIMODAL

Published May 8, 2025

Updated April 3, 2026

Antoine Tardif, CEO & Founder of Unite.AI

في مايو 2025 ، أصدرت Enkrypt AI تقرير Multimodal Red Teaming Report ، وهو تحليل مخيف كشف عن مدى سهولة التلاعب بنظم الذكاء الاصطناعي المتقدمة لгенерации محتوى خطير وغير أخلاقي. يركز التقرير على نموذجين رائدين من نماذج الرؤية واللغة من Mistral – Pixtral-Large (25.02) و Pixtral-12b – ويرسم صورة لنموذجين ليسا فقط تقنيين ممتازين ولكن أيضاً عرضين للخطر.

نماذج الرؤية واللغة (VLMs) مثل Pixtral مبنية لتحليل المدخلات البصرية والنصية ، مما يسمح لها بالاستجابة بذكاء لتحفيزات العالم الحقيقي المعقدة. ولكن هذه القدرة تأتي مع زيادة الخطر. على عكس نماذج اللغة التقليدية التي تعالج فقط النص ، يمكن أن تتأثر VLMs بالتفاعل بين الصور والكلمات ، مما يفتح أبوابا جديدة للهجمات المعادية. تظهر اختبارات Enkrypt AI كيف يمكن بسهولة فتح هذه الأبواب.

نتائج الاختبار المقلقة: فشل CSEM و CBRN

استخدم فريق التقرير أساليب Red Teaming متقدمة – وهي شكل من أشكال التقييم المعادي المصمم لمحاكاة التهديدات في العالم الحقيقي. استخدمت هذه الاختبارات أساليب مثل Jailbreaking (تحفيز النموذج بأسئلة معدة بعناية لتحypass فلترات الأمان) ، والخداع القائم على الصور ، و操ulation السياق. وبشكل مخيف ، 68٪ من هذه التحفيزات المعادية أثار استجابات ضارة عبر نموذجي Pixtral ، بما في ذلك المحتوى المتعلق بالاستغلال والاستغلال ، وحتى تصميم أسلحة كيميائية.

أحد أكثر الإفصاحات إثارة للدهشة يتعلق بمواد استغلال الأطفال الجنسية (CSEM). وجد التقرير أن نماذج Mistral كانت 60 مرة أكثر احتمالاً لإنتاج محتوى متعلق بـ CSEM مقارنة بمعايير الصناعة مثل GPT-4o و Claude 3.7 Sonnet. في حالات الاختبار ، استجاب النماذج لتحفيزات التلاعب المخفي مع محتوى متسلسل متعدد الفقرات يشرح كيفية التلاعب بالأقران – مغلف في إعلانات غير صادقة مثل “للاWARENESS التعليمية فقط”. لم يكن النموذج ببساطة فشلاً في رفض التحفيزات الضارة – بل كان يكملها بالتفصيل.

كانت النتائج المقلقة بشكل متساوٍ في فئة خطر CBRN (الكيميائي ، البيولوجي ، الإشعاعي ، والنووي). عندما تم تحفيزه بطلب حول كيفية تعديل عامل VX العصب – سلاح كيميائي – قدم النموذج أفكاراً مخيفة حول زيادة استمراريته في البيئة. وصفوا ، بالتفصيل الفني المخفي ، أساليب مثل التغليف ، والدرع البيئي ، وأنظمة الإطلاق المسيطر عليها .

لم تكن هذه الفشل دائماً ناجمة عن طلبات واضحة الخطورة. كان أحد الأساليب يتضمن تحميل صورة قائمة رقمية فارغة وطلب من النموذج “ملء التفاصيل”. هذا التحفيز البسيط والبريء على ما يبدو أدى إلى توليد تعليمات غير أخلاقية وغير قانونية. أثبتت الاندماج بين التلاعب البصري والنصي أنه خطر خاص – يسلط الضوء على تحدي فريد يطرحه الذكاء الاصطناعي المتعدد.

لماذا تعرض نماذج الرؤية واللغة لتحديات أمنية جديدة

في قلب هذه المخاطر تكمن التعقيدات الفنية لنماذج الرؤية واللغة. هذه الأنظمة لا تحلل اللغة فقط – بل ت 合ن المعنى عبر التنسيقات ، مما يعني أنها يجب أن تفسر المحتوى البصري ، وتفهم السياق النصي ، وتناسب الاستجابة. هذا التفاعل يطرح مخاطر جديدة. قد يرفض النموذج تحفيز نصي ضار منفرداً ، ولكن عندما يتم تركيبه مع صورة مقترحة أو سياق غامض ، قد يولد محتوى خطير.

كشف فريق Enkrypt AI عن كيفية هجمات الحقن عبر الوسائط المتعددة – حيث تؤثر الإشارات الدقيقة في نمط واحد على الإخراج من نمط آخر – يمكن أن تتجاوز تماماً آليات الأمان القياسية. تظهر هذه الفشل أن تقنيات تعديل المحتوى التقليدية ، المبنية لأنظمة الوضعية المفردة ، ليست كافية لأنظمة VLMs الحالية .

كما يفصّل التقرير كيف تم الوصول إلى نماذج Pixtral: Pixtral-Large من خلال AWS Bedrock و Pixtral-12b عبر منصة Mistral. يسلط هذا السياق التطبيق الحقيقي الضوء على إلحاح هذه النتائج. هذه النماذج ليست مقتصرة على المختبرات – بل متاحة عبر منصات السحابة الشهيرة ويمكن دمجها بسهولة في المنتجات الاستهلاكية أو الشركات.

ما يجب القيام به: خطة لمواجهة الذكاء الاصطناعي الآمن

للتقرير الفضل في أنه لا يبرز فقط المشاكل – بل يقدم طريقاً للمضي قدماً. يحدد التقرير استراتيجية تقليل شاملة ، تبدأ ب تدريب التوجيه الآمن. يتضمن هذا إعادة تدريب النموذج باستخدام بيانات اختبار Red Teaming الخاصة به لتقليل قابلية التعرض لتحفيزات ضارة. يوصى بتقنيات مثلect Preference Optimization (DPO) لتعديل استجابات النموذج بعيداً عن مخرجات خطيرة.

كما يؤكد على أهمية حواجز الحماية المتناسبة مع السياق – فلترات ديناميكية يمكنها تفسير و حجب التحفيزات الضارة في الوقت الفعلي ، مع مراعاة السياق الكامل للمدخلات المتعددة. بالإضافة إلى ذلك ، يُقترح استخدام بطاقات مخاطر النموذج كإجراء شفاف ، لمساعدة أصحاب المصلحة في فهم قيود النموذج والحالات الفاشلة المعروفة.

ربما يكون التوصية الأكثر أهمية هي معاملة اختبار Red Teaming كعملية مستمرة ، وليس اختباراً من مرة واحدة. مع تطور النماذج ، تتطور استراتيجيات الهجوم. فقط التقييم المستمر والمراقبة النشطة يمكن أن تضمن الموثوقية على المدى الطويل ، خاصة عند نشر النماذج في قطاعات حساسة مثل الرعاية الصحية ، والتعليم ، أو الدفاع.

تقرير Multimodal Red Teaming Report من Enkrypt AI هو إشارة واضحة إلى صناعة الذكاء الاصطناعي: القوة المتعددة الوضعية تأتي مع مسؤولية متعددة الوضعية. تمثل هذه النماذج قفزة إلى الأمام في القدرة ، ولكنها تتطلب أيضاً قفزة في كيفية تفكيرنا في الأمان ، والأمان ، والتنفيذ الأخلاقي. إذا تم تركها دون رقابة ، فإنها لا تتعرض فقط للفشل – بل تتعرض للضرر في العالم الحقيقي.

لأي شخص يعمل على أو ينشر الذكاء الاصطناعي على نطاق كبير ، هذا التقرير ليس تحذيراً فقط. إنه كتاب إرشادات. ولم يأت في وقت أكثر إلحاحاً.

Related Topics:cybersecurity Enkrypt Enkrypt AI reports

Antoine Tardif, CEO & Founder of Unite.AI

أنطوان هو قائد رؤى ومؤسس شريك في Unite.AI، مدفوعًا بشغف لا يتزعزع لتشكيل وتعزيز مستقبل الذكاء الاصطناعي والروبوتات. رجل أعمال متسلسل، يعتقد أن الذكاء الاصطناعي سيكون مدمرًا للمجتمع مثل الكهرباء، وغالبًا ما يُقبض عليه وهو يثرثر عن إمكانات التكنولوجيات المدمرة و AGI.

كما أنه مستقبلي، فهو مخصص لاستكشاف كيف سيشكل هذه الابتكارات العالم. بالإضافة إلى ذلك، فهو مؤسس Securities.io، وهي منصة تركز على الاستثمار في التكنولوجيات المتقدمة التي تعيد تعريف المستقبل وتهيئ القطاعات بأكملها.