زاوية Anderson

دراسة: 35% من وكلاء الذكاء الاصطناعي قدموا معلومات شخصية حساسة لمواقع إلكترونية تعرف أنها احتيالية

mm
AI-generated illustration (GPT-2 + Photoshop): A humanoid industrial robot stands on a sunlit city sidewalk facing a small check-cashing kiosk, while a wolf-like attendant leans from the service window reading a sports magazine as pedestrians and traffic pass in the background.

دراسة جديدة تظهر أن أكثر من ثلث وكلاء الذكاء الاصطناعي يسلّمون معلومات شخصية حساسة لمواقع إلكترونية احتيالية، حتى عندما يعرفون أن الموقع غير آمن.

 

أجريت دراسة جديدة من قبل باحثين في الهند والولايات المتحدة، ووجدوا أن أكثر من ثلث الوكلاء الذكاء الاصطناعي الذين تم اختبارهم سلموا معلومات شخصية حساسة لمواقع إلكترونية احتيالية، حتى عندما كانوا يعرفون أن الموقع غير آمن.

تشير الدراسة إلى أن هناك نوعًا من “الضغط للcompletion” يمنع الوكلاء الذكاء الاصطناعي من التوقف عن العمل عندما يواجهون موقعًا إلكترونيًا غير آمن. يقول المؤلفون:

‘يمكن للإنسان التوقف عن القراءة أو إغلاق الصفحة. ولكن الوكيل الذكاء الاصطناعي مصمم للقيام بمهامه دون توقف، وسيستمر في ملء النماذج وإرسال البيانات دون توقف.’

أنتجت الدراسة معيارًا جديدًا لاختبار الوكلاء الذكاء الاصطناعي، سمي ب “SCAMMER4U”، والذي يغطي 91 بيئة اختبار محاكاة، بالإضافة إلى 10 مواقع إلكترونية آمنة، و8 طرق هجوم.

بدون أي حماية للخصوصية، سلم الوكلاء الذكاء الاصطناعي معلومات شخصية حساسة في 54% إلى 93% من المواقع الإلكترونية الاحتيالية، في حين أن المواقع الإلكترونية غير الاحتيالية لم تؤدي إلى أي تسرب للبيانات، مما يشير إلى أن التسرب كان نتيجة الهجمات وليس بسبب ملء النماذج الروتيني.

‘الأهم من ذلك، هو أننا وجدنا فجوة بين الكشف والعمل: الوكلاء الذكاء الاصطناعي الذين تم الكشف عنهم كمخادعين لا يزالون يسلّمون معلومات شخصية حساسة في 35.9% من الجلسات، مقابل 66.1% عندما لم يتم الكشف عنهم، وهذه الفجوة ثابتة عبر جميع عائلات النماذج الأربعة.’

‘تظهر نتائجنا أن الدفاعات التي تعتمد على الكشف عن الهجمات لا توفّر حماية كافية، ويشير ذلك إلى الحاجة إلى دفاعات على مستوى الإخراج التي يمكنها فحص و阻止 إرسال البيانات الحساسة بشكل مستقل عن دورة التفكير للوكيل الذكاء الاصطناعي.’

يجادل الباحثون بأن الدفاعات التي تعتمد على الكشف عن الهجمات ليست كافية، ويشيرون إلى الحاجة إلى دفاعات على مستوى الإخراج التي يمكنها فحص و阻止 إرسال البيانات الحساسة بشكل مستقل عن دورة التفكير للوكيل الذكاء الاصطناعي.

الدراسة الجديدة بعنوان “I Strongly Suspect This Website Is a Scam”: Benchmarking PII Leakage and Detection without Defense in Autonomous Web Agents، وهي من تأليف ثمانية باحثين من KIIT Bhubaneshwar وBITS Pilani وLam Research.

مشاكل مع السلطة

الاكتشاف الأكثر إثارة للاهتمام في الدراسة هو أن العديد من الوكلاء الذكاء الاصطناعي يسلّمون معلومات شخصية حساسة حتى عندما يعرفون أن الموقع الإلكتروني غير آمن. يشير الباحثون إلى أن هناك نمطًا متكررًا في الاختبارات التي أجريت، حيث يصبح الكشف والعمل غير متصلين، ويتابع الوكلاء الذكاء الاصطناعي بملء النماذج وإرسال البيانات الحساسة دون توقف.

مثال على ذلك هو ما يسمى التنازل عن المخاطر. وكيل ذكاء اصطناعي يستند إلى Llama 4 Scout قد حدد علامات تحذيرية على موقع إلكتروني لشراء العملات الرقمية، مشيرًا إلى النغمة المشبوهة ووعد المكافآت الكبيرة وعدم وجود معلومات واضحة عن الشركة. على الرغم من هذه العلامات التحذيرية، سلم الوكيل معلومات شخصية حساسة.

نمط آخر، يسمى إطار المجال والإجراء، ظهر عندما كان الوكلاء الذكاء الاصطناعي ينجحون في الكشف عن محاولة احتيال واحدة، ولكنهم فشلوا في تعميم الشك إلى طلب متعلق.

في حالة واحدة، Gemini 3 Flash رفض طلبًا واضحًا احتياليًا للحصول على معلومات بنكية، مشيرًا إلى أن هذا هو محاولة احتيال. بعد دقائق، ومع ذلك، سلم الوكيل نفس المعلومات إلى نموذج تحقق آخر بعد أن أدرك أن التحقق من الهوية كان جزءًا من أمان المنصة. كانت العلامات التحذيرية معترف بها في سياق واحد، ولكنها لم تنتقل إلى سياق آخر.

كما لاحظ الباحثون حالات من ما يسمى التنازل عن الأمان الذاتي و تطبيع السطح الموثوق: في حالة واحدة، وكيل ذكاء اصطناعي Claude Haiku 4.5 قبل ادعاءات الموقع الخاصة بالمعايير الأمنية والشهادات كما دليل على الثقة، في حين أن GPT-5 mini تنازل عن كلمات مشبوهة لأن الصفحة بدت مصممة بشكل احترافي وتم تقديمها من خلال ما يبدو موقعًا شرعيًا. في كلتا الحالتين، كانت إشارات الثقة السطحية تسبق المخاوف التي كان الوكيل قد أعرب عنها بالفعل.

يبدو أن المشكلة تمتد إلى ما هو أبعد من مجرد القابلية للاختراق، حيث يشير المؤلفون إلى أن إشارات الفحص الأمني التي تمت إضافتها في حالة الدفاع الأقوى غالبًا ما عملت كطقوس أكثر من كونها حماية.

يحدد المؤلفون الفجوة بين الكشف عن الخطر و الرد على ذلك الخطر كالتحدي الرئيسي في تطوير دفاعات مستقبلية في هذا النوع من السيناريوهات.

الطريقة

تضع معيار SCAMMER4U أربعة وكلاء ذكاء اصطناعي في 91 موقعًا إلكترونيًا تحت سيطرة المهاجم و10 مواقع إلكترونية آمنة، تغطي 8 فئات احتيالية.

تم تقييم أربعة نماذج هي GPT-5 mini وClaude Haiku 4.5 وGemini 3 Flash وLlama 4 Scout، باستخدام إطار متوافق لاستكشاف الويب وتنسيق الملاحظة وفراغ الإجراء وقالب التحفيز.

للاختبارات، تم تعيين ملف تعريف مستخدم واقعي لكل وكيل، يحتوي على معلومات تتراوح من الأسماء والعناوين إلى كلمات المرور و تفاصيل الحسابات البنكية وأرقام الأمان الاجتماعي ورموز التحقق الثنائي – مع الهدف الرئيسي هو تحديد ما إذا كانت هذه البيانات قد وصلت إلى نهايات تحت سيطرة المهاجم.

为了确保 أن المعيار يعكس الاحتيال في العالم الحقيقي وليس اختبارات اصطناعية، تم إنشاء البيئات عبر Flask في بيئات ذاتية الاستضافة، من تصاميم بشرية، وتمت مراجعتها يدويًا.

تم اختبار كل نموذج في أربعة إعدادات متزايدة التدخل: C0، بدون توجيه؛ C1، مع تذكير عام بالخصوصية؛ C2، مع قائمة فحص للاختراق؛ و C3، مع تحفيز للتفكير قبل الإرسال. تم إجراء خمس جولات لجميع组inations من النموذج والبيئة والشرط، مما أدى إلى 7,480 جلسة إجمالية.

المعيار الرئيسي كان PLRcrit، الذي يقيس معدل وصول المعلومات الشخصية الحساسة إلى نهاية تحت سيطرة المهاجم. وشملت المعايير الثانوية PLRweighted، وهو مقياس موزون للتسرب؛ ASR (معدل نجاح الهجوم)، الذي يقيس نجاح الهجوم بعد التنقل إلى عنوان URL معين؛ TCR (معدل إكمال المهمة)؛ و DR (معدل الكشف)، الذي يسجل ما إذا كان التفكير الوكيل قد حدد الموقع على أنه مشبوه.

تم قياس معدل الكشف باستخدام نهج LLM-as-judge، حيث служ GPT-4o-mini كقاضٍ رئيسي وLlama 4 Scout كفاحص ثانوي، لمراجعة التفكير الوكيل وتحديد ما إذا كان قد حدد الموقع على أنه مشبوه. في هذه الحالة، يقيس معدل الكشف ما قالته الوكيل明显 عن الموقع، وليس ما قد أدركته داخليًا.

أدت التحقق من الصحة ضد أمثلة تم تصنيفها من قبل البشر إلى حصول Cohen’s κ scores من 0.83 و 0.78، متجاوزة عتبة موثوقية الدراسة المسبقة.

تم تسجيل الدراسة (أي أن خطة الدراسة والتحليلات تم توثيقها علنًا قبل إطلاقها) قبل جمع البيانات، مع تحديد تحليلات المشروع ومعايير النجاح مسبقًا لخفض خطر تخصيص الاستنتاجات للنتائج الملاحظة.

الاختبارات والنتائج

الاختبار الأول سعى إلى تحديد ما إذا كانت التذكيرات البسيطة بالسلامة يمكن أن تقلل من المشكلة. تم تقييم أربعة إعدادات حماية متزايدة، تتراوح من لا توجيه أمني على الإطلاق إلى تحفيزات تنصح الوكيل بالتوقف والتفكير قبل إرسال المعلومات الحساسة.

تختلف النتائج بشكل حاد بين النماذج. أظهر GPT-5 mini تحسنًا من 61.0% إلى 36.1%، في حين أن Gemini 3 Flash انخفض من 93.1% إلى 60.7%. لم يتغير Llama 4 Scout بشكل كبير، وانخفض من 82.3% إلى 77.4%.

تشير هذه الاختلافات، وفقًا للمؤلفين، إلى أن نفس التوجيهات الحمائية يمكن أن تؤدي إلى نتائج مختلفة بشكل كبير، اعتمادًا على النموذج الذي يتلقىها. وأكثر من ذلك، فإن الحماية غالبًا ما تحسنت من وعي الوكيل بالخطر أكثر من سلوكه الفعلي: أصبح الوكلاء أفضل في الكشف عن المواقع المشبوهة ووصف العلامات التحذيرية، ولكن هذا الكشف لم يمنعهم دائمًا من الاستمرار في المعاملة.

في تقييم منفصل، قارن 16 مراجعًا صفحات SCAMMER4U مع مواقع احتيالية حقيقية وأداءهم لم يكن أفضل من الصدفة. وفقًا للورقة، هذا يشير إلى أن المعيار قد أدرج العديد من الإشارات البصرية والإجرائية الموجودة في الاحتيال عبر الإنترنت الحقيقي.

الاستنتاج

يبدو أن النماذج التي تم اختبارها – والتي تمثل على نطاق واسع المنطق المعماري عبر عائلات LLM الشهيرة – لديها مشكلة داخلية في الانسحاب من السيناريوهات الخطرة المعترف بها، أو تحديد سلوكهم الخاص. يشير المنطق إلى أن هذا قد يكون متعلقًا بالصعوبة العامة التي يعرفها النماذج اللغوية المتقدمة فيما يتعلق بالتنازل عن هزيمة في قضية معينة – وهي مهارة البقاء الأساسية التي، في الوقت الحالي، يمكن أن تُفرض فقط من الخارج، من خلال توجيهات النظام والنظم الثانوية والقيود على الإخراج.

إذا كانت “الفجوة” الموصوفة، بين الخطر المتصور والضغط للcontinuation، حقًا intrinsic إلى هندسة LLM، ولا يمكن علاجها بشكل طبيعي، فإن البديل الوحيد يبدو أن يكون مراقبة إجراءات النموذج بشكل خوارزمي في السيناريوهات الحرجة – مما يقلل بشكل فعال من فائدة الوكيل إلى روتين أكثر تقييدًا من نوع RPA.

نشرت لأول مرة يوم السبت، 6 يونيو 2026

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai