اتصل بنا للحصول على مزيد من المعلومات

ثلاث تقنيات للتعلم الآلي للحفاظ على الخصوصية لحل أهم مشكلة في هذا العقد

قاده التفكير

ثلاث تقنيات للتعلم الآلي للحفاظ على الخصوصية لحل أهم مشكلة في هذا العقد

mm

بقلم أموغ تاركار، باحث في التعلم الآلي والذكاء الاصطناعي الأنظمة الثابتة.

خصوصية البيانات ، وفقًا للخبراء عبر مجموعة واسعة من المجالات ، ستكون هي أهم قضية في هذا العقد. وينطبق هذا بشكل خاص على التعلم الآلي (ML) حيث يتم تغذية الخوارزميات بكميات كبيرة من البيانات.

تقليديًا ، اعتمدت تقنيات نمذجة ML على مركزية البيانات من مصادر متعددة في مركز بيانات واحد. بعد كل شيء ، تكون نماذج ML في أقوى حالاتها عندما يكون لديها وصول إلى كميات هائلة من البيانات. ومع ذلك ، هناك مجموعة من تحديات الخصوصية التي تأتي مع هذه التقنية. يعد تجميع البيانات المتنوعة من مصادر متعددة أقل جدوى اليوم بسبب المخاوف التنظيمية مثل HIPAA و GDPR و CCPA. علاوة على ذلك ، فإن مركزية البيانات يزيد من نطاق وحجم إساءة استخدام البيانات والتهديدات الأمنية في شكل تسرب البيانات.

للتغلب على هذه التحديات ، تم تطوير العديد من ركائز التعلم الآلي للحفاظ على الخصوصية (PPML) بتقنيات محددة تقلل من مخاطر الخصوصية وتضمن أن تظل البيانات آمنة بشكل معقول. فيما يلي بعض أهمها:

1. التعلم الموحد

التعلم الاتحادي هي تقنية تدريب تعلّم الآلة التي تقلب مشكلة تجميع البيانات رأساً على عقب. بدلاً من تجميع البيانات لإنشاء نموذج ML فردي ، يقوم التعلم الموحد بتجميع نماذج ML نفسها. يضمن ذلك عدم مغادرة البيانات موقع المصدر مطلقًا ، كما يسمح لعدة أطراف بالتعاون وبناء نموذج ML مشترك دون مشاركة البيانات الحساسة بشكل مباشر.

يعمل مثل هذا. تبدأ بنموذج ML الأساسي الذي يتم مشاركته بعد ذلك مع كل عقدة عميل. تقوم هذه العقد بعد ذلك بإجراء تدريب محلي على هذا النموذج باستخدام بياناتها الخاصة. تتم مشاركة تحديثات النموذج بشكل دوري مع عقدة المنسق ، التي تعالج هذه التحديثات وتدمجها معًا للحصول على نموذج عالمي جديد. بهذه الطريقة ، تحصل على الرؤى من مجموعات البيانات المتنوعة دون الحاجة إلى مشاركة مجموعات البيانات هذه.

المصدر: النظم الثابتة

في سياق الرعاية الصحية ، تعد هذه أداة قوية بشكل لا يصدق وتدرك الخصوصية للحفاظ على بيانات المريض آمنة مع منح الباحثين حكمة الجمهور. من خلال عدم تجميع البيانات ، ينشئ التعلم الموحد طبقة إضافية من الأمان. ومع ذلك ، لا تزال النماذج وتحديثات النماذج نفسها تشكل خطرًا أمنيًا إذا تركت عرضة للخطر.

2. الخصوصية التفاضلية

غالبًا ما تكون نماذج ML أهدافًا لهجمات استدلال العضوية. لنفترض أنك ستشارك بيانات الرعاية الصحية الخاصة بك مع مستشفى للمساعدة في تطوير لقاح للسرطان. تحافظ المستشفى على بياناتك آمنة ، ولكنها تستخدم التعلم الموحد لتدريب نموذج ML متاح للجمهور. بعد بضعة أشهر ، يستخدم المتسللون هجوم استنتاج العضوية لتحديد ما إذا كانت بياناتك قد تم استخدامها في تدريب النموذج أم لا. ثم ينقلون الأفكار إلى شركة التأمين ، والتي ، بناءً على خطر إصابتك بالسرطان ، يمكن أن ترفع أقساط التأمين الخاصة بك.

تضمن الخصوصية التفاضلية أن الهجمات المعادية على نماذج التعلم الآلي لن تكون قادرة على تحديد نقاط البيانات المحددة المستخدمة أثناء التدريب ، وبالتالي التخفيف من مخاطر الكشف عن بيانات التدريب الحساسة في التعلم الآلي. يتم ذلك عن طريق تطبيق "الضوضاء الإحصائية" لإرباك البيانات أو معلمات نموذج التعلم الآلي أثناء تدريب النماذج ، مما يجعل من الصعب تنفيذ الهجمات وتحديد ما إذا كانت بيانات فرد معين قد تم استخدامها لتدريب النموذج أم لا.

على سبيل المثال ، تم إصدار Facebook مؤخرًا أوباكوس، مكتبة عالية السرعة لتدريب نماذج PyTorch باستخدام خوارزمية التدريب على التعلم الآلي القائمة على الخصوصية التفاضلية والتي تسمى Descentially Private Stochastic Gradient Descent (DP-SGD). توضح الصورة المتحركة أدناه كيفية استخدام الضوضاء لإخفاء البيانات.

 

هذه الضوضاء محكومة بمعامل يسمى Epsilon. إذا كانت قيمة Epsilon منخفضة ، فإن النموذج يتمتع بخصوصية بيانات مثالية ولكنه يفتقر إلى الفائدة والدقة. على العكس ، إذا كانت لديك قيمة عالية من إبسيلون ، فسوف تنخفض خصوصية بياناتك بينما ترتفع دقتك. الحيلة هي تحقيق توازن لتحسين كليهما.

3. تشفير متماثل

لا يتوافق التشفير القياسي تقليديًا مع التعلم الآلي لأنه بمجرد تشفير البيانات ، لم يعد من الممكن فهمها بواسطة خوارزمية ML. ومع ذلك ، فإن التشفير متماثل الشكل هو نظام تشفير خاص يسمح لنا بمواصلة القيام بأنواع معينة من الحسابات.

المصدر أوبنميند

قوة هذا هو أن التدريب يمكن أن يحدث في مساحة مشفرة بالكامل. فهو لا يحمي مالكي البيانات فحسب ، بل إنه يحمي مالكي النماذج أيضًا. يمكن لمالك النموذج تشغيل الاستدلال على البيانات المشفرة دون رؤيتها أو إساءة استخدامها.

عند تطبيقه على التعلم الموحد ، يمكن أن يحدث دمج تحديثات النموذج بشكل آمن لأنها تحدث في بيئة مشفرة بالكامل ، مما يقلل بشكل كبير من مخاطر هجمات استدلال العضوية.

عقد الخصوصية

مع دخولنا عام 2021 ، يعد التعلم الآلي الذي يحافظ على الخصوصية مجالًا ناشئًا يحتوي على بحث نشط بشكل ملحوظ. إذا كان العقد الماضي يدور حول عدم إبحار البيانات ، فسيكون هذا العقد حول نماذج ML بدون إبطاء مع الحفاظ على خصوصية البيانات الأساسية من خلال التعلم الموحد ، والخصوصية التفاضلية ، والتشفير المتماثل. تقدم هذه طريقة جديدة واعدة لتطوير حلول التعلم الآلي بطريقة تراعي الخصوصية.

أموغ باحث في التعلم الآلي وجزء من مختبر أبحاث الذكاء الاصطناعي في الأنظمة الثابتة. يركز بحثه الحالي على تطبيقات التعلم الفيدرالي وبناء أدوات البرمجة اللغوية العصبية لاستخراج المعرفة.