Refresh

This website www.unite.ai/ar/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

اتصل بنا للحصول على مزيد من المعلومات

صنع نموذج للتعلم الآلي ينسى أمره

الذكاء الاصطناعي

صنع نموذج للتعلم الآلي ينسى أمره

mm
تحديث on

إن إزالة جزء معين من البيانات التي ساهمت في نموذج التعلم الآلي يشبه محاولة إزالة الملعقة الثانية من السكر من فنجان قهوة. أصبحت البيانات، بحلول هذا الوقت، مرتبطة بشكل جوهري بالعديد من الخلايا العصبية الأخرى داخل النموذج. إذا كانت نقطة البيانات تمثل بيانات "محددة" كانت متضمنة في الجزء الأول عالي الأبعاد من التدريب، فإن إزالتها يمكن أن تعيد تحديد كيفية عمل النموذج بشكل جذري، أو حتى تتطلب إعادة تدريبها في بعض الوقت والجهد. مال.

ومع ذلك ، في أوروبا على الأقل ، المادة 17 من قانون التنظيم العام لحماية البيانات (GDPR) يتطلب أن تقوم الشركات بإزالة بيانات المستخدم عند الطلب. نظرًا لأن القانون تمت صياغته على أساس أن هذا المحو لن يكون أكثر من استعلام عن "إسقاط" قاعدة البيانات ، فإن التشريع المقرر أن ينبثق من مسودة الاتحاد الأوروبي قانون الذكاء الاصطناعي بشكل فعال نسخ و لصق روح القانون العام لحماية البيانات في القوانين التي تنطبق على أنظمة الذكاء الاصطناعي المدربة بدلاً من البيانات الجدولية.

يتم النظر في تشريعات أخرى في جميع أنحاء العالم والتي ستمنح الأفراد الحق في طلب حذف بياناتهم من أنظمة التعلم الآلي، في حين أن قانون خصوصية المستهلك في كاليفورنيا (CCPA) لعام 2018 يوفر بالفعل هذا الحق لسكان الولاية.

لماذا يهم

عندما يتم تدريب مجموعة بيانات على نموذج تعلم آلي قابل للتنفيذ، تصبح خصائص تلك البيانات عامة ومجردة، لأن النموذج مصمم لاستنتاج المبادئ والمفاهيم. اتجاهات واسعة من البيانات ، مما يؤدي في النهاية إلى إنتاج خوارزمية ستكون مفيدة في تحليل بيانات محددة وغير معممة.

ومع ذلك ، فإن تقنيات مثل انعكاس النموذج كشفت عن إمكانية إعادة تحديد البيانات المساهمة التي تقوم عليها الخوارزمية النهائية المستخرجة ، بينما هجمات استنتاج العضوية قادرون أيضًا على كشف بيانات المصدر ، بما في ذلك البيانات الحساسة التي قد يُسمح فقط بتضمينها في مجموعة البيانات بناءً على فهم إخفاء الهوية.

لا يحتاج الاهتمام المتزايد بهذا المسعى إلى الاعتماد على نشاط الخصوصية الشعبي: حيث يتم تسويق قطاع التعلم الآلي على مدار السنوات العشر القادمة ، وتتعرض الدول لضغوط لإنهاء الوضع الحالي. ثقافة عدم التدخل فيما يتعلق باستخدام كشط الشاشة لتوليد مجموعة البيانات ، سيكون هناك حافز تجاري متزايد لمنظمات إنفاذ الملكية الفكرية (والمتصيدون في بروتوكول الإنترنت) لفك تشفير ومراجعة البيانات التي ساهمت في تصنيف الملكية والأرباح العالية ، والاستدلال وأطر الذكاء الاصطناعي التوليدية.

إحداث فقدان الذاكرة في نماذج التعلم الآلي

لذلك نحن أمام التحدي المتمثل في إخراج السكر من القهوة. إنها مشكلة كانت مزعج الباحثون في السنوات الأخيرة: في عام 2021، تم نشر الورقة البحثية التي يدعمها الاتحاد الأوروبي دراسة مقارنة حول مخاطر الخصوصية لمكتبات التعرف على الوجوه وجدت أن العديد من خوارزميات التعرف على الوجوه الشائعة كانت قادرة على تمكين التمييز على أساس الجنس أو العرق في هجمات إعادة تحديد الهوية ؛ في عام 2015 بحث من جامعة كولومبيا المقترح طريقة "إلغاء التعلم الآلي" بناءً على تحديث عدد من الملخصات داخل البيانات ؛ وفي عام 2019 باحثو ستانفورد عرضت خوارزميات الحذف الجديدة لتطبيقات التجميع K-.

نشر اتحاد بحثي من الصين والولايات المتحدة عملاً جديدًا يقدم مقياسًا موحدًا لتقييم نجاح مناهج حذف البيانات ، جنبًا إلى جنب مع طريقة "unlearning" الجديدة المسماة Forsaken ، والتي يزعم الباحثون أنها قادرة على تحقيق أكثر من 90 ٪ معدل النسيان ، مع فقدان دقة 5٪ فقط في الأداء العام للنموذج.

ال ورقة يسمى تعلم أن تنسى: إزالة الآلة عن طريق Neuron Masking ، ويضم باحثين من الصين وبيركلي.

يستخدم إخفاء الخلايا العصبية ، وهو المبدأ الكامن وراء Forsaken ، أ قناع التدرج عامل تصفية لإزالة بيانات محددة من نموذج ، وتحديثه بشكل فعال بدلاً من إجباره على إعادة تدريبه إما من نقطة الصفر أو من لقطة حدثت قبل إدراج البيانات (في حالة النماذج القائمة على التدفق والتي يتم تحديثها باستمرار).

بنية مولد التدرج القناع. المصدر: https://arxiv.org/pdf/2003.10933.pdf

بنية مولد التدرج القناع. المصدر: https://arxiv.org/pdf/2003.10933.pdf

أصول بيولوجية

يذكر الباحثون أن هذا النهج مستوحى من عملية بيولوجية من "النسيان النشط" ، حيث يتخذ المستخدم إجراءات صارمة لمحو جميع خلايا engram لذاكرة معينة عن طريق التلاعب بنوع خاص من الدوبامين.

يستحضر Forsaken باستمرار تدرج قناع يكرر هذا الإجراء ، مع ضمانات لإبطاء أو إيقاف هذه العملية من أجل تجنب النسيان الكارثي للبيانات غير المستهدفة.

تتمثل مزايا النظام في أنه قابل للتطبيق على أنواع كثيرة من الشبكات العصبية الموجودة، في حين أن الأعمال المماثلة الحديثة تمتعت بالنجاح إلى حد كبير في شبكات الرؤية الحاسوبية؛ وأنه لا يتعارض مع إجراءات التدريب النموذجية، بل يعمل كعامل مساعد، دون الحاجة إلى تغيير البنية الأساسية أو إعادة تدريب البيانات.

تقييد التأثير

يمكن أن يكون لحذف البيانات المساهمة تأثير ضار محتمل على وظيفة خوارزمية التعلم الآلي. لتجنب ذلك ، استغل الباحثون تنظيم القاعدة، وهي سمة من سمات تدريب الشبكة العصبية العادية التي تستخدم عادة لتجنب الإفراط في التدريب. تم تصميم التطبيق المحدد المختار لضمان عدم فشل Forsaken في الالتقاء في التدريب.

لإنشاء تشتت قابل للاستخدام للبيانات ، استخدم الباحثون بيانات خارج التوزيع (OOD) (على سبيل المثال ، البيانات غير المدرجة في مجموعة البيانات الفعلية ، وتقليد البيانات "الحساسة" في مجموعة البيانات الفعلية) لمعايرة الطريقة التي يجب أن تتصرف بها الخوارزمية .

الاختبار على مجموعات البيانات

تم اختبار الطريقة على ثماني مجموعات بيانات قياسية وحققت بشكل عام معدلات نسيان قريبة أو أعلى من إعادة التدريب الكامل ، مع تأثير ضئيل للغاية على دقة النموذج.

يبدو من المستحيل أن تؤدي إعادة التدريب الكامل على مجموعة بيانات معدلة إلى نتائج أسوأ من أي طريقة أخرى ، نظرًا لأن البيانات الهدف غائبة تمامًا. ومع ذلك ، فقد استخلص النموذج بحلول هذا الوقت ميزات مختلفة للبيانات المحذوفة بطريقة "ثلاثية الأبعاد" ، بالطريقة (عن طريق القياس) التي تعيد قطرة الحبر تعريف فائدة كوب من الماء.

في الواقع ، لقد تأثرت أوزان النموذج بالفعل بالبيانات المستقطعة ، والطريقة الوحيدة لإزالة تأثيرها تمامًا هي إعادة تدريب النموذج من الصفر المطلق ، بدلاً من النهج الأسرع بكثير لإعادة تدريب النموذج المرجح على مجموعة بيانات معدلة .