Anderson का एंगल

मशीन लर्निंग मॉडल को आपके बारे में भूलने के लिए कैसे बनाएं

प्रकाशित 11 अगस्त 2021

अपडेट किया गया 24 मई 2026

Martin Anderson

एक मशीन लर्निंग मॉडल से एक विशिष्ट डेटा बिंदु को हटाना एक कप कॉफी से दूसरे चम्मच चीनी को हटाने की कोशिश करने के समान है। इस समय, डेटा मॉडल के भीतर कई अन्य न्यूरॉन्स के साथ अंतर्निहित रूप से जुड़ा हुआ है। यदि एक डेटा बिंदु ‘परिभाषित’ डेटा का प्रतिनिधित्व करता है जो प्रशिक्षण के शुरुआती हिस्से में शामिल था, तो इसके हटाने से मॉडल के कार्य करने के तरीके में क्रांतिकारी परिवर्तन हो सकता है, या यहां तक कि इसके पुनः प्रशिक्षण की आवश्यकता हो सकती है, जिसमें समय और पैसे का खर्च हो सकता है।

इसके बावजूद, कम से कम यूरोप में, सामान्य डेटा संरक्षण नियमन अधिनियम (जीडीपीआर) के अनुच्छेद 17 कंपनियों को यह आवश्यक बनाता है कि वे उपयोगकर्ता के अनुरोध पर ऐसे उपयोगकर्ता डेटा को हटा दें। चूंकि यह अधिनियम इस समझ पर बनाया गया था कि यह हटाना केवल एक डेटाबेस ‘ड्रॉप’ क्वेरी होगी, इसलिए ड्राफ्ट ईयू आर्टिफिशियल इंटेलिजेंस अधिनियम से निकलने वाले कानून जीडीपीआर की भावना को प्रशिक्षित एआई प्रणालियों पर लागू करने के लिए तैयार किए जाएंगे, न कि सारणीय डेटा पर।

विश्व भर में आगे के कानूनों पर विचार किया जा रहा है जो व्यक्तियों को मशीन लर्निंग प्रणालियों से अपने डेटा को हटाने का अधिकार देगा, जबकि 2018 के कैलिफोर्निया कंज्यूमर प्राइवेसी एक्ट (सीसीपीए) इस अधिकार को पहले से ही प्रदान करता है राज्य के निवासियों को।

क्यों यह मायने रखता है

जब एक डेटासेट को एक क्रियाशील मशीन लर्निंग मॉडल में प्रशिक्षित किया जाता है, तो उस डेटा की विशेषताएं सामान्य और अमूर्त हो जाती हैं, क्योंकि मॉडल विशिष्ट और गैर-सामान्य डेटा का विश्लेषण करने में उपयोगी एक अल्गोरिदम का उत्पादन करने के लिए डेटा से सिद्धांतों और व्यापक रुझानों का अनुमान लगाने के लिए डिज़ाइन किया गया है।

हालांकि, मॉडल इनवर्जन जैसी तकनीकों ने यह संभावना का खुलासा किया है कि अंतिम, अमूर्त अल्गोरिदम के नीचे योगदान देने वाले डेटा की फिर से पहचान की जा सकती है, जबकि मेम्बरशिप इन्फरेंस अटैक भी स्रोत डेटा को उजागर करने में सक्षम हैं, जिसमें संवेदनशील डेटा भी शामिल हो सकता है जिसे केवल गुमनामी की शर्त पर डेटासेट में शामिल किया जा सकता है।

इस पीछा में बढ़ती रुचि को ग्रास-रूट्स गोपनीयता कार्यकर्ताओं पर निर्भर नहीं रहना पड़ता है: जैसे ही मशीन लर्निंग क्षेत्र अगले दस वर्षों में व्यावसायिक होता है, और राष्ट्रों पर डेटासेट पीढ़ी के लिए स्क्रीन स्क्रैपिंग पर वर्तमान लैसेज़ फ़ेयर संस्कृति को समाप्त करने के लिए दबाव डाला जाता है, बौद्धिक संपदा लागू करने वाले संगठनों (और बौद्धिक संपदा ट्रोल) के लिए प्रोप्राइटरी और उच्च-आय वाले वर्गीकरण, अनुमान और जनरेटिव एआई फ्रेमवर्क में योगदान देने वाले डेटा को डिकोड और समीक्षा करने के लिए एक बढ़ती व्यावसायिक प्रोत्साहन होगा।

मशीन लर्निंग मॉडल में अम्नेसिया का कारण बनना

इसलिए हमें चुनौती का सामना करना पड़ता है कि कॉफी से चीनी को कैसे निकाला जाए। यह एक समस्या है जो हाल के वर्षों में शोधकर्ताओं को परेशान कर रही है: 2021 में, ईयू-समर्थित पेपर फ़ेस रिकग्निशन लाइब्रेरीज़ की गोपनीयता जोखिमों पर एक तुलनात्मक अध्ययन में पाया गया कि कई लोकप्रिय चेहरा पहचान अल्गोरिदम पुनः पहचान हमलों में लिंग या नस्ल आधारित भेदभाव को सक्षम करने में सक्षम थे; 2015 में, कोलम्बिया विश्वविद्यालय से शोध में एक ‘मशीन अनलर्निंग’ विधि का प्रस्ताव किया गया था जो डेटा के भीतर कई योगों को अपडेट करने पर आधारित था; और 2019 में, स्टैनफोर्ड शोधकर्ताओं ने नovel डिलीट अल्गोरिदम की पेशकश की के-मीन्स क्लस्टरिंग लागू करने के लिए।

अब एक चीन और अमेरिका से शोध संघ ने एक नए काम को प्रकाशित किया है जो डेटा हटाने के दृष्टिकोण की सफलता का मूल्यांकन करने के लिए एक समान मीट्रिक को पेश करता है, साथ ही एक नए ‘अनलर्निंग’ विधि को फोरसाकन कहा जाता है, जिसका दावा है कि शोधकर्ता 90% से अधिक भूलने की दर हासिल कर सकते हैं, केवल 5% की सटीकता हानि के साथ मॉडल के समग्र प्रदर्शन में।

पेपर का नाम भूलना सीखें: न्यूरॉन मास्किंग के माध्यम से मशीन अनलर्निंग है, और इसमें चीन और बर्कले से शोधकर्ता शामिल हैं।

न्यूरॉन मास्किंग, फोरसाकन के पीछे का सिद्धांत, एक मास्क ग्रेडिएंट जनरेटर का उपयोग एक फिल्टर के रूप में करता है जो मॉडल से विशिष्ट डेटा को हटाने के लिए, प्रभावी रूप से इसे अपडेट करके जो मॉडल को फिर से प्रशिक्षित करने के लिए मजबूर नहीं करता है, या तो स्क्रैच से या डेटा के समावेश से पहले होने वाले स्नैपशॉट से (स्ट्रीमिंग-आधारित मॉडल के मामले में जो निरंतर अद्यतन होते हैं)।

मास्क ग्रेडिएंट जनरेटर का आर्किटेक्चर。 स्रोत: https://arxiv.org/pdf/2003.10933.pdf

जैविक मूल

शोधकर्ताओं का कहना है कि यह दृष्टिकोण जैविक प्रक्रिया से प्रेरित था, ‘सक्रिय भूल’ की, जहां उपयोगकर्ता एक विशेष प्रकार के डोपामाइन के मैनिपुलेशन द्वारा एक विशिष्ट स्मृति के लिए सभी एनग्राम कोशिकाओं को मिटाने के लिए सख्त कार्रवाई करता है।

फोरसाकन निरंतर रूप से एक मास्क ग्रेडिएंट को उत्पन्न करता है जो इस क्रिया की नकल करता है, गैर-लक्ष्य डेटा के भूलने से बचने के लिए इस प्रक्रिया को धीमा करने या रोकने के लिए सुरक्षा उपायों के साथ।

इस प्रणाली के लाभ यह हैं कि यह कई प्रकार के मौजूदा न्यूरल नेटवर्क पर लागू होता है, जबकि हाल के समान कार्य मुख्य रूप से कंप्यूटर विजन नेटवर्क में सफलता का आनंद लेते हैं; और यह मॉडल प्रशिक्षण प्रक्रियाओं के साथ हस्तक्षेप नहीं करता है, बल्कि एक अनुबंध के रूप में कार्य करता है, बिना यह आवश्यकता होती है कि मूल वास्तुकला को बदल दिया जाए या डेटा को फिर से प्रशिक्षित किया जाए।

प्रभाव को प्रतिबंधित करना

योगदान देने वाले डेटा को हटाने से एक मशीन लर्निंग अल्गोरिदम की कार्यक्षमता पर एक संभावित रूप से हानिकारक प्रभाव पड़ सकता है। इसे避ने के लिए, शोधकर्ताओं ने नॉर्म नियमितीकरण का फायदा उठाया है, जो एक सामान्य तंत्रिका नेटवर्क प्रशिक्षण की विशेषता है जो आमतौर पर ओवरट्रेनिंग से बचने के लिए उपयोग की जाती है। विशेष रूप से चुनी गई लागू करने का उद्देश्य यह सुनिश्चित करना है कि फोरसाकन प्रशिक्षण में अभिसरण करने में विफल नहीं होता है।

एक उपयोगी डेटा वितरण स्थापित करने के लिए, शोधकर्ताओं ने आउट-ऑफ-डिस्ट्रीब्यूशन (ओओडी) डेटा (यानी, वास्तविक डेटासेट में शामिल नहीं किया गया डेटा, ‘संवेदनशील’ डेटा की नकल करते हुए) का उपयोग किया ताकि यह निर्धारित किया जा सके कि अल्गोरिदम को कैसा व्यवहार करना चाहिए।

डेटासेट पर परीक्षण

इस विधि का परीक्षण आठ मानक डेटासेट पर किया गया और一般 रूप से पूर्ण पुनः प्रशिक्षण की तुलना में भूलने की दर में करीब या अधिक प्राप्त की, मॉडल की सटीकता पर बहुत कम प्रभाव के साथ।

यह असंभव लगता है कि पूर्ण पुनः प्रशिक्षण एक संपादित डेटासेट पर वास्तव में किसी अन्य विधि से बदतर प्रदर्शन कर सकता है, क्योंकि लक्ष्य डेटा पूरी तरह से अनुपस्थित है। हालांकि, मॉडल ने इस समय हटाए गए डेटा की विभिन्न विशेषताओं को ‘होलोग्राफिक’ तरीके से अमूर्त किया है, जिस तरह (अनुरूप में) एक बूंद स्याही एक गिलास पानी की उपयोगिता को फिर से परिभाषित करती है।

वास्तव में, मॉडल के वजन पहले से ही हटाए गए डेटा से प्रभावित हो चुके हैं, और इसके प्रभाव को पूरी तरह से हटाने का एकमात्र तरीका यह है कि मॉडल को शून्य से पुनः प्रशिक्षित किया जाए, संपादित डेटासेट पर वजनित मॉडल को पुनः प्रशिक्षित करने के तेज़ तरीके के बजाय।