الأمن السيبراني

قد يتسلم الذكاء الاصطناعي المفسَر أسهل للبيانات السرية

Published August 26, 2021

Updated April 5, 2026

Martin Anderson

أستنتج الباحثون من جامعة سنغافورة الوطنية أن كلما أصبح الذكاء الاصطناعي أكثر تفسيرًا، أصبح من الأسهل تجاوز الميزات الحيوية للخصوصية في أنظمة التعلم الآلي. كما وجدوا أنه حتى عندما لا يكون النموذج قابلًا للتفسير، من الممكن استخدام تفسيرات النماذج المماثلة ل “فك تشفير” البيانات الحساسة في النموذج غير القابل للتفسير.

ال بحث، الذي يحمل عنوان استغلال التفسيرات لهجمات عكسية للنموذج، يبرز المخاطر المرتبطة باستخدام العتمة “الضارة” لطريقة عمل الشبكات العصبية كما لو كانت ميزة أمان مصممة – لا سيما لأن موجة من المبادرات الجديدة العالمية، بما في ذلك مشروع لوائح الذكاء الاصطناعي للاتحاد الأوروبي، تعتبر الذكاء الاصطناعي القابل للتفسير (XAI) شرطًا مسبقًا لتنسيق التعلم الآلي في المجتمع.

في البحث، تم إعادة بناء الهوية الفعلية من البيانات المزعومة المجهولة المتعلقة بالتعابير الوجهية، من خلال استغلال تفسيرات متعددة لنظام التعلم الآلي. مصدر: https://arxiv.org/pdf/2108.10800.pdf

يقول الباحثون:

‘الذكاء الاصطناعي القابل للتفسير (XAI) يوفر المزيد من المعلومات لمساعدة المستخدمين على فهم قرارات النموذج، ومع ذلك فإن هذه المعرفة الإضافية تتعرض لمخاطر إضافية لهجمات الخصوصية. وبالتالي، فإن تقديم التفسير يضر بالخصوصية.’

إعادة تحديد البيانات الخاصة

قد وافق المشاركون في مجموعات بيانات التعلم الآلي على أن يتم تضمينهم على افتراض المجهولية؛ في حالة المعلومات الشخصية القابلة للتحديد (PII) التي تنتهي في أنظمة الذكاء الاصطناعي من خلال جمع البيانات بشكل عفوي (على سبيل المثال، من خلال الشبكات الاجتماعية)، قد تكون المشاركة قانونية من الناحية الفنية، ولكنها تضعف مفهوم “الموافقة”.

لقد ظهرت عدة طرق في السنوات الأخيرة التي أثبتت khảية إزالة المجهولية من PII من تدفقات البيانات المظلمة للتعلم الآلي. يستخدم استخراج النموذج وصول API (أي وصول “ال صندوق الأسود”، بدون توافر خاص للкод المصدر أو البيانات) لاستخراج PII حتى من مقدمي خدمات التعلم الآلي على نطاق كبير، بما في ذلك Amazon Web Services، بينما يمكن للهجمات على استدلال العضوية (MIAs) ، التي تعمل تحت القيود المماثلة، الحصول على المعلومات الطبية السرية؛ بالإضافة إلى ذلك، يمكن للهجمات على استدلال التعيين (AIAs) استعادة البيانات الحساسة من الإخراج API.

إظهار الوجوه

للوثيقة الجديدة، ركز الباحثون على هجوم عكسي للنموذج مصمم لاسترداد الهوية من مجموعة فرعية من بيانات التعبير الوجهي التي لا ينبغي أن تكون قادرة على الكشف عن هذه المعلومات.

الهدف من النظام كان ربط الصور الموجودة في البرية (إما المنشورة بشكل عفوي على الإنترنت أو في خرق البيانات المحتمل) مع تضمينها في مجموعات البيانات التي تدعم خوارزمية التعلم الآلي.

قام الباحثون بتدريب نموذج هجوم عكسي قادر على إعادة بناء الصورة الأصلية من الإخراج المجهول للواجهة البرمجية، دون وصول خاص إلى الهيكل الأصلي. ركز العمل السابق في هذا المجال على الأنظمة التي كانت الهوية (الحماية أو الكشف) هي الهدف من كل من النظام المستهدف والنظام المهاجم؛ في هذه الحالة، تم تصميم الإطار لاستغلال الإخراج من مجال واحد وتطبيقه على مجال آخر.

تم استخدام شبكة عصبية متقابلة لتنبؤ “الوجه الأصلي” بناءً على متجه التنبؤ المستهدف (خريطة التأثير) لنظام التعرف على العواطف، باستخدام هيكل U-Net لتحسين أداء إعادة بناء الوجه.

نظام إعادة التعريف مدعوم ومستنير بالذكاء الاصطناعي القابل للتفسير (XAI)، حيث يتم استغلال معرفة تنشيط العصبون، من بين العديد من الجوانب العامة الأخرى للتفسير، لإعادة بناء الآليات الداخلية للهيكل فقط من إخراجها، وتمكين إعادة التعريف للصور في مجموعة البيانات.

التجربة

عند اختبار النظام، طبق الباحثون عليه ثلاث مجموعات بيانات: تعبيرات الوجه iCV-MEFED؛ CelebA؛ و الأرقام المكتوبة بخط اليد MNIST. لاستيعاب حجم النموذج المستخدم من قبل الباحثين، تم تحجيم المجموعات الثلاث على التوالي إلى 128×128، 265×256 و 32×32 بكسل. تم استخدام 50٪ من كل مجموعة كبيانات تدريبية، وتم استخدام النصف الآخر كبيانات هجوم لتدريب النماذج المعارضة.

كان لكل مجموعة بيانات نموذج مستهدف مختلف، وتم تحجيم كل شبكة هجوم إلى قيود التفسيرات التي تدعم العملية، بدلاً من استخدام نماذج عصبية أعمق تعمل تحت القيود العامة للتفسيرات.

تم استخدام أنواع التفسير XAI التالية لتمكين المحاولات، بما في ذلك تفسير التدرج، مدخلات التدرج، Grad-CAM و توزيع الأهمية الطبقي (LRP). كما قيم الباحثون تفسيرات متعددة عبر التجارب.

إعادة بناء الصورة من خلال هجوم عكسي مدرك للتفسير عبر المجموعات الثلاث، مع وجود مهام مستهدفة وهجومية متطابقة.

كانت مقاييس الاختبار هي التشابه البكسي تم تقييمه بواسطة الخطأ المتوسط المربع (MSE)؛ تشابه الصورة (SSIM)، وهو دليل على التشابه القائم على الإدراك؛ دقة الهجوم، التي تحدد ما إذا كان الفصل能够 إعادة تصنيف صورة معاد بناؤها؛ و تشابه التضمين الهجومي، الذي يقارن بين تضمين الميزات للبيانات المصدر المعروفة والبيانات المعاد بناؤها.

تم تحقيق إعادة التعريف، مع مستويات مختلفة وفقًا للمهمة ومجموعات البيانات، عبر جميع المجموعات. علاوة على ذلك، وجد الباحثون أنه من خلال إنشاء نموذج مستهدف بديل (الذي كانوا يتحكمون فيه بشكل طبيعي)، كان من الممكن أيضًا تحقيق إعادة التعريف للبيانات من نماذج مغلقة خارجية، بناءً على مبادئ التفسير XAI المعروفة.

وجد الباحثون أن أكثر النتائج دقة تم الحصول عليها بواسطة تفسيرات قائمة على التنشيط (خريطة التأثير)، والتي تسربت المزيد من PII أكثر من النهج القائمة على الحساسية (التدرج).

في العمل المستقبلي، يعتزم الفريق دمج أنواع مختلفة من تفسيرات XAI في هجمات جديدة، مثل تجسيد الميزات و متجهات تنشيط المفاهيم.

Related Topics:explainability Explainable AI explainable neural networks model inversion research

Martin Anderson

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai