الأمن السيبراني
سرقة نماذج التعلم الآلي من خلال مخرجات واجهة البرمجة

تقدم الأبحاث الجديدة من كندا طريقة ممكنة من خلالها يمكن للمهاجمين سرقة ثمار الإطارات الغالية للتعلم الآلي، حتى عندما يكون الوصول الوحيد إلى نظام مملوك هو عبر واجهة برمجة تطبيقات (واجهة أو بروتوكول يقوم بمعالجة استفسارات المستخدم على الخادم، ويعيد فقط استجابة الإخراج).
كما يبحث قطاع البحث بشكل متزايد إلى تحقيق الأرباح من تدريب النماذج المكلفة من خلال تطبيقات التعلم الآلي كخدمة (MLaaS)، تشير الأعمال الجديدة إلى أن نماذج التعلم الذاتي الإشرافي (SSL) أكثر عرضة لهذا النوع من استخراج النموذج، لأنها يتم تدريبها بدون علامات مستخدم، مما يسهل الاستخراج، وغالبًا ما توفر نتائج تحتوي على الكثير من المعلومات المفيدة لمن يرغب في تكرار النموذج المصدر (المخفي).
في محاكاة الاختبارات “الsandbox” (حيث منح الباحثون أنفسهم الوصول إلى نموذج ضحية محلي لا يتجاوز الوصول الذي سيكون لديه مستخدم عادي عبر واجهة برمجة تطبيقات على الويب)، تمكن الباحثون من تكرار أنظمة الهدف بموارد منخفضة نسبيًا:
‘يمكن لهجماتنا سرقة نسخة من نموذج الضحية التي تحقق أداءً كبيرًا في مهام أسفل النهر في أقل من خمس الاستفسارات المستخدمة لتدريب نموذج الضحية. ضد نموذج ضحية تم تدريبه على 1.2 مليون عينة غير محددة من ImageNet، مع دقة 91.9٪ في مهمة التصنيف أسفل النهر Fashion-MNIST، سرقت هجمتنا للاستخراج المباشر مع خسارة InfoNCE نسخة من المرمز التي تحقق دقة 90.5٪ في 200 ألف استفسار.
‘ وبالمثل، ضد نموذج ضحية تم تدريبه على 50 ألف عينة غير محددة من CIFAR10، مع دقة 79.0٪ في مهمة التصنيف أسفل النهر CIFAR10، سرقت هجمتنا للاستخراج المباشر مع خسارة SoftNN نسخة تحقق دقة 76.9٪ في 9 آلاف استفسار.’

استخدم الباحثون ثلاثة أساليب لهجوم، ووجدوا أن ‘الاستخراج المباشر’ هو الأكثر فعالية. تم سرقة هذه النماذج من نموذج ضحية محلي تم إعادة إنشائه من CIFAR10 باستخدام 9 آلاف استفسار من مجموعة اختبار CIFAR10. Source: https://arxiv.org/pdf/2205.07890.pdf
يشير الباحثون أيضًا إلى أن الأساليب التي تصلح لحماية نماذج التعلم الإشرافي من الهجوم لا تتناسب جيدًا مع النماذج التي تم تدريبها على أساس غير إشرافي – على الرغم من أن هذه النماذج تمثل بعض الفواكه الأكثر توقعًا ولاحتفالًا بقطاع 합성 الصور.
تأتي الورقة الجديدة الورقة تحت عنوان حول صعوبة الدفاع عن التعلم الذاتي الإشرافي ضد استخراج النموذج، وتأتي من جامعة تورونتو ومعهد فيكتور للاستخبارات الاصطناعية.
الوعي الذاتي
في التعلم الذاتي الإشرافي، يتم تدريب النموذج على بيانات غير محددة. بدون علامات، يجب على نموذج SSL التعلم من التركيبات والجماعات من الهيكل الضمني للبيانات، ويسعى إلى الخصائص المماثلة للبيانات ويتدرج تدريجيًا هذه الخصائص إلى عقد أو تمثيلات.
حيث يكون نهج SSL قابلاً للتطبيق، فإنه ينتج نتائج رائعة، لأنه يتجاوز الحاجة إلى التصنيف الغالي (غالبًا ما يتم التعاقد الخارجي والخلاف عليه) بواسطة العمال المتعاقبين، ويعقلل البيانات بشكل مستقل.
النهج الثلاثة لتعلم SSL التي نظر إليها مؤلفو الورقة الجديدة هي SimCLR، و شبكة سيامية، و SimSiam، وهي شبكة سيامية أخرى تركز على تعلم التمثيل، و Barlow Twins، وهي نهج SSL حقق أداء تصنيف ImageNet الأفضل في عام 2021.
استخراج النموذج للبيانات المحددة (أي نموذج تم تدريبه من خلال التعلم الإشرافي) هو مجال بحث موثق جيدًا. كما أنه أسهل في الدفاع عنه، لأن المهاجم يجب أن يحصل على العلامات من نموذج الضحية من أجل إعادة إنشائه.

من ورقة سابقة، نموذج هجوم ‘مصنع التصنيف’ ضد هيكل التعلم الإشرافي. Source: https://arxiv.org/pdf/1812.02766.pdf
بدون وصول أبيض، هذه ليست مهمة سهلة، لأن الإخراج النموذجي لطلب واجهة برمجة تطبيقات مثل هذا النموذج يحتوي على معلومات أقل من واجهة برمجة تطبيقات نموذجية SSL.
من الورقة*:
‘ركزت الأعمال السابقة على استخراج النموذج على إعداد التعلم الإشرافي (SL)، حيث يعود نموذج الضحية عادةً بعلامة أو مخرجات منخفضة الأبعاد مثل درجات الثقة أو لوجيت.
‘على النقيض من ذلك، تعيد مرموزات SSL تمثيلات عالية الأبعاد؛ الإخراج de facto لنموذج Sim-CLR ResNet-50، وهو هيكل شائع في الرؤية، هو متجه بابعاد 2048.
‘نفترض أن هذه التسربات المعلوماتية الكبيرة من المرموزات تجعلها أكثر عرضة لهجمات الاستخراج من نماذج SL.’
الهيكل والبيانات
جرب الباحثون ثلاثة أساليب لاستدلال/استخراج نموذج SSL: الاستخراج المباشر، حيث يتم مقارنة مخرجات واجهة برمجة التطبيقات مع مخرجات مرموز تم إعادة إنشائه عبر دالة خسارة مناسبة مثل متوسط مربع الخطأ (MSE)؛ إعادة إنشاء رأس المشروع، حيث يتم إعادة تجميع وظيفة تحليلية حاسمة للنموذج، وعادة ما يتم التخلص منها قبل النشر، ويتم استخدامها في نموذج متكرر؛ و الوصول إلى رأس المشروع، وهو ممكن فقط في الحالات التي يقوم فيها المطورون الأصليون بنشر الهيكل.

في الطريقة #1، الاستخراج المباشر، يتم مقارنة مخرجات نموذج الضحية مع مخرجات نموذج محلي؛ الطريقة #2 تتضمن إعادة إنشاء رأس المشروع المستخدم في هيكل التدريب الأصلي (والذي عادة ما لا يتم تضمينه في نموذج منشور).
وجد الباحثون أن الاستخراج المباشر كان الأسلوب الأكثر فعالية للحصول على نسخة وظيفية من النموذج المستهدف، وله ميزة إضافية أنه أكثر صعوبة في التمييز على أنه “هجوم” (لأنه يتصرف بشكل أساسي لا يختلف عن مستخدم عادي صحيح).
قام المؤلفون بتدريب نماذج الضحية على ثلاث مجموعات بيانات للصور: CIFAR10، و ImageNet، و SVHN. تم تدريب ImageNet على ResNet50، بينما تم تدريب CIFAR10 وSVHN على ResNet18 وResNet24 عبر تنفيذ PyTorch المتاح للجمهور من SimCLR.
تم اختبار أداء النماذج أسفل النهر (أي النشر) ضد CIFAR100، و STL10، و SVHN، و Fashion-MNIST. كما قام الباحثون بتجربة أساليب أكثر “بيضاء الصندوق” لاستحواذ النموذج، على الرغم من أن الاستخراج المباشر، وهو الأقل امتيازًا، أعطى أفضل النتائج.
为了 تقييم التمثيلات المُستخدمة في الهجمات، أضاف المؤلفون طبقة تنبؤ خطية إلى النموذج، والتي تم تحسينها على مجموعة التدريب الكاملة للمهمة اللاحقة (النشر)، مع تجميد باقي طبقات الشبكة. بهذه الطريقة، يمكن أن تعمل دقة الاختبار على طبقة التنبؤ كمقياس لأداء النموذج. منذ أن لا يساهم في عملية الاستدلال، فإن هذا لا يمثل وظيفة “بيضاء الصندوق”.

نتائج التشغيل، ممكنة بفضل طبقة التقييم الخطي (التي لا تساهم في عملية الاستدلال).
في تعليقهم على النتائج، يقول الباحثون:
‘نجد أن الهدف المباشر من تقليد تمثيلات الضحية يعطي أداءً عاليًا في المهام أسفل النهر على الرغم من أن الهجوم يتطلب فقط جزءًا صغيرًا (أقل من 15٪ في بعض الحالات) من عدد الاستفسارات المطلوبة لتدريب المرمز المسروق في المقام الأول.’
ويستمر:
‘[إنه] من الصعب الدفاع عن المرموزات المُدرجة بSSL لأن مخرجات التمثيلات تسرب الكثير من المعلومات. أكثر الدفاعات وعدًا هي الأساليب التفاعلية، مثل العلامات المائية، والتي يمكن أن تدمج تحسينات محددة في مرموزات ذات سعة عالية.’
* تحويلي لمراجع الورقة إلى روابط.
نشر لأول مرة في 18 مايو 2022.












