قاده التفكير

الموجة القادمة من الهجمات متعددة الوسائط: عندما تصبح أدوات الذكاء الاصطناعي سطح الاستغلال الجديد

تم النشر 9 كانون الثاني 2026

أماندا روسو، باحث رئيسي في مجال أمن الذكاء الاصطناعي، سترايكر

مع تطور نماذج اللغة الكبيرة (LLMs) إلى أنظمة الوسائط المتعددة إلى جانب قدرتها على معالجة النصوص والصور والصوت والبرمجيات، أصبحت هذه الأنظمة أيضاً أدوات قوية لتنسيق الأدوات والروابط الخارجية. ومع هذا التطور، تتسع رقعة الهجمات الإلكترونية التي يجب على المؤسسات الانتباه إليها.

من أبرز الأمثلة على ذلك الهندسة الاجتماعية، التي قد تقع ضحيتها البرامج الآلية لأنها مُدرَّبة على التصرُّف كالبشر، ولديها قدر أقل من الشك. فعلى سبيل المثال، من غير المرجَّح أن يتمكّن البرنامج الآلي من التمييز بين بريد إلكتروني مزوَّر وآخر من متجر شرعي.

يؤدي التقارب بين الوسائط المتعددة وإمكانية الوصول إلى الأدوات إلى تحويل الذكاء الاصطناعي من مجرد مساعد إلى أداة للهجوم. فبإمكان المهاجمين الآن استخدام نصوص بسيطة لتحفيز إساءة استخدام الأدوات، أو تنفيذ إجراءات غير مصرح بها، أو تسريب بيانات حساسة عبر قنوات شرعية. ولأن هذه الإمكانيات مصممة لتسهيل الوصول إليها، لا للدفاع، فبإمكان حتى المهاجمين ذوي المهارات المحدودة استغلال أنظمة الذكاء الاصطناعي لتنفيذ عمليات معقدة دون كتابة سطر واحد من التعليمات البرمجية.

كيف يصبح الذكاء الاصطناعي متعدد الوسائط سلسلة استغلال

أصبحت أنظمة إدارة التعلم (LLMs) بشكل متزايد بمثابة منسقات للأنظمة الخارجية، حيث تشمل عمليات التكامل اليوم كل شيء بدءًا من واجهات برمجة التطبيقات (APIs) وصولًا إلى البريد الإلكتروني والتخزين السحابي وأدوات تنفيذ التعليمات البرمجية. غالبًا ما تُصمم هذه الموصلات لتسهيل الوصول، وليس للدفاع.

الجانب السلبي لهذا الأمر هو أنه قد يؤدي إلى موجة من الثغرات الجديدة.

أحدها هو إساءة استخدام الأدوات التي تعتمد على التعليمات. على سبيل المثال، يمكن للمهاجم استخدام صورة تحتوي على تعليمات حقن التعليمات مُدرجة في بريد إلكتروني. التعرف الضوئي على الحروف (OCR) يلزم استخدام أداة لاستخراج النص من الصورة. يُطلب من العميل الرد على البريد الإلكتروني وإرفاق خريطة جوجل بعنوان منزل الضحية، مما يكشف موقعها.

آلية أخرى هي تجاوز الضوابط عبر الوسائط المتعددة. يتعلق هذا بالضوابط التي تقع بين نقاط دخول وخروج الأدوات. على سبيل المثال، عند تحليل مخرجات مستخرج التعرف الضوئي على الأحرف (OCR)، قد لا يكون هناك ضوابط كافية حول عمليات الحقن الفورية المكتشفة من مخرجاته.

توجد أيضًا نقاط ضعف هيكلية قابلة للاستغلال. من هذه النقاط ضعف الربط بين النموذج والأدوات الخارجية التي يمكنه استدعاؤها، ما يعني أن مجرد طلب بسيط باللغة الطبيعية قد يُفعّل إجراءات حقيقية مثل تشغيل التعليمات البرمجية، أو الوصول إلى الملفات، أو التفاعل مع البريد الإلكتروني. علاوة على ذلك، تفتقر العديد من هذه الأنظمة إلى ضوابط وصول صارمة، ما قد يُمكّن الذكاء الاصطناعي من كتابة البيانات أو حذفها أو تعديلها بما يتجاوز بكثير ما يُصرّح به الإنسان. وتتفاقم المشكلة عند النظر إلى الموصلات وامتدادات MCP، التي غالبًا ما تأتي بدون ضوابط تقريبًا؛ فبمجرد توصيلها، تُوسّع نطاق وصول الذكاء الاصطناعي إلى التخزين الشخصي، وصناديق البريد الوارد، والمنصات السحابية مع إشراف ضئيل للغاية. تُشكّل نقاط الضعف الهيكلية هذه مجتمعةً بيئةً يُمكن فيها استغلال مشكلات أمنية كلاسيكية - مثل تسريب البيانات، والهروب من بيئة الحماية، وحتى تسميم الذاكرة - بمجرد طلب مُصمّم بذكاء.

التهديدات الناشئة: ما الذي سيحدث لاحقاً؟

في ظل هذا الوضع الطبيعي الجديد، باتت هجمات البريد الإلكتروني والهندسة الاجتماعية المدعومة بالذكاء الاصطناعي وشيكة. التصيد سيزداد حجم الهجمات الإلكترونية نتيجة استخدام المهاجمين لبرامج الذكاء الاصطناعي منخفضة المستوى (LLMs)؛ وتكمن نقطة الضعف في تجاوز مرشحات البريد العشوائي العادية لمزودي خدمة البريد الإلكتروني مثل جوجل. تزيد برامج الذكاء الاصطناعي المتصلة بصندوق البريد الوارد من احتمالية نجاح هجمات التصيد الاحتيالي. ومن المرجح أن يرتفع مستوى التهديدات الإلكترونية مع ربط المستخدمين لهذه البرامج بحساباتهم على جيميل أو أوتلوك.

بإمكان المهاجمين توجيه الذكاء الاصطناعي لتنفيذ حملات بريد عشوائي أو حملات تصيد احتيالي كاملة. في هذا السيناريو،

أصبح التصيد الاحتيالي بين أنظمة الذكاء الاصطناعي أمراً وارداً.

تُتيح الأنظمة متعددة الوسائط بشكل متزايد إمكانيات تنفيذ التعليمات البرمجية. وتسمح مسارات الهروب للمهاجمين باختراق البنية التحتية الأساسية. وتُمثل ثغرات الهروب من بيئة الحماية كابوسًا حقيقيًا لسمعة البائعين.

يمثل التسمم بالذاكرة طويلة الأمد والمحفزات المؤجلة تهديدات إضافية. تسمح الذاكرة الدائمة بتفعيل حمولات خفية عند ظهور مطالبات مستقبلية. ويمكن للمحفزات متعددة الوسائط (مثل الصور أو مقتطفات النصوص) أن تُطلق سلوكيات قنابل موقوتة.

لماذا تُعدّ الهجمات متعددة الوسائط سهلة المنال وخطيرة للغاية؟

لقد ساهم الذكاء الاصطناعي في إتاحة إمكانيات الهجوم للجميع. لم يعد المستخدمون بحاجة إلى مهارات البرمجة أو تطوير البرمجيات الخبيثة؛ إذ أصبحت اللغة الطبيعية هي الواجهة لإنشاء البرمجيات الخبيثة أو سرقة البيانات. وهذا يعني أنه حتى الأفراد غير التقنيين يمكنهم إنشاء برمجيات خبيثة أو تنفيذ حملات عبر الأوامر النصية.

كما تُمكّن تقنيات الذكاء الاصطناعي من تسريع وتوسيع نطاق العمليات الضارة. ويمكن للوكلاء متعددي الوسائط أتمتة الأعمال التي كانت تتطلب في السابق جهدًا متخصصًا. ويمكن إنتاج التعليمات البرمجية ورسائل البريد الإلكتروني والبحوث والاستطلاع بشكل فوري.

يُساهم الإفراط في ثقة المستخدمين والتعرض غير المقصود لبياناتهم في زيادة احتمالية الضرر الذي قد تُسببه تقنيات الذكاء الاصطناعي. غالبًا ما يجهل المستخدمون ما يمكن للذكاء الاصطناعي الوصول إليه، وتُفعّل الإعدادات الافتراضية عمليات دمج الذكاء الاصطناعي تلقائيًا بشكل متزايد. لا يُدرك الكثيرون أنهم منحوا الذكاء الاصطناعي صلاحيات وصول مُفرطة إلى البريد الإلكتروني أو المستندات.

مبادئ وضوابط الأمن متعدد الوسائط

يجب على المؤسسات تطبيق إجراءات أمنية ضد الهجمات متعددة الوسائط. ستحتاج فرق الأمن إلى تقييد الوصول إلى الأدوات افتراضيًا. ينبغي استبدال عمليات التكامل التلقائي بعناصر تحكم اختيارية. كما ينبغي تطبيق مبدأ أقل الامتيازات على جميع الأنظمة المتصلة بالذكاء الاصطناعي، وإزالة صلاحيات الكتابة/الحذف. يجب أن يشمل ذلك قواعد الوصول عبر المصادر وقوائم السماح للنطاقات (قوائم السماح للبنية التحتية، وليس قوائم السماح على مستوى إدارة مستوى الامتيازات).

تتمثل خطوة أساسية أخرى في وضع ضوابط واضحة لاستدعاء الأدوات. استبدل محفزات اللغة الطبيعية بتحقق منظم ومحدد النوع من الأوامر. يجب أن تكون هذه الضوابط بمثابة نقاط اختناق للإدخال والإخراج على حد سواء.

تشمل المبادئ والضوابط الهامة الإضافية ما يلي:

فرض إجراءات موافقة صارمة للعمليات الحساسة.
تجنب وضع بيانات المستخدم في ذاكرة النموذج الدائمة. قم بتطبيق عمليات تنظيف الذاكرة الآلية وفحوصات المصدر.
قم بتحصين بيئات تنفيذ التعليمات البرمجية وعزلها.
راقب السلوكيات المشبوهة ومحاولات الهروب.
تعزيز تثقيف المستخدمين والشفافية.
أضف المزيد من تأكيدات المستخدم عندما يقوم الوكيل بأداء مهام محفوفة بالمخاطر.
وضح متى تقوم أدوات الذكاء الاصطناعي بالوصول إلى رسائل البريد الإلكتروني أو الملفات أو موارد السحابة.
تحذير المستخدمين بشأن الموصلات عالية الخطورة.

النجاح في مواجهة الهجمات متعددة الوسائط

سرعان ما تحولت تقنيات الذكاء الاصطناعي إلى أدواتٍ أساسية في العمليات التجارية، مما أدى إلى استغلال اللغة الطبيعية نفسها. فتقارب الوسائط المتعددة وسهولة الوصول إلى الأدوات يفتح المجال أمام الهجمات، محولاً الذكاء الاصطناعي من مساعدٍ إلى أداةٍ للهجمات. وتستغل الهجمات متعددة الوسائط ضعف التكامل بين أنظمة إدارة اللغة الطبيعية والأنظمة الخارجية التي تتحكم بها، مثل واجهات برمجة التطبيقات، وأنظمة تخزين الملفات، ومنصات التشغيل الآلي.

مع تطور التهديدات، يتعين على المؤسسات تبني استراتيجيات تراعي مسارات الهجوم المتعددة بشكل صريح. ويُعدّ تعزيز الدفاعات باستخدام أفضل الممارسات المذكورة أعلاه أمراً بالغ الأهمية لمنع أدوات الذكاء الاصطناعي من أن تُصبح، دون قصد، حلقات في سلسلة استغلال المهاجمين.

أماندا روسو، باحثة رئيسية في مجال أمن الذكاء الاصطناعي، سترايكر

أماندا روسو هي باحثة رئيسية في مجال أمن الذكاء الاصطناعي في سترايكر ومهندس عكسي مخضرم للبرمجيات الخبيثة عمل سابقًا في فريق Red Team التابع لشركة Facebook وفريق MORSE التابع لشركة Microsoft، وذلك بعد أدوار سابقة في Endgame وFireEye ومركز الجرائم الإلكترونية التابع لوزارة الدفاع الأمريكية.

اتحدوا