Anderson рдХрд╛ рдПрдВрдЧрд▓

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рдХреЛ рдЖрдкрдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рднреВрд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдХреИрд╕реЗ рдмрдирд╛рдПрдВ

mm

एक मशीन लर्निंग मॉडल से एक विशिष्ट डेटा बिंदु को हटाना एक कप कॉफी से दूसरे चम्मच चीनी को हटाने की कोशिश करने के समान है। इस समय, डेटा मॉडल के भीतर कई अन्य न्यूरॉन्स के साथ अंतर्निहित रूप से जुड़ा हुआ है। यदि एक डेटा बिंदु ‘परिभाषित’ डेटा का प्रतिनिधित्व करता है जो प्रशिक्षण के शुरुआती हिस्से में शामिल था, तो इसके हटाने से मॉडल के कार्य करने के तरीके में क्रांतिकारी परिवर्तन हो सकता है, या यहां तक कि इसके पुनः प्रशिक्षण की आवश्यकता हो सकती है, जिसमें समय और पैसे का खर्च हो सकता है।

इसके बावजूद, कम से कम यूरोप में, सामान्य डेटा संरक्षण नियमन अधिनियम (जीडीपीआर) के अनुच्छेद 17 कंपनियों को यह आवश्यक बनाता है कि वे उपयोगकर्ता के अनुरोध पर ऐसे उपयोगकर्ता डेटा को हटा दें। चूंकि यह अधिनियम इस समझ पर बनाया गया था कि यह हटाना केवल एक डेटाबेस ‘ड्रॉप’ क्वेरी होगी, इसलिए ड्राफ्ट ईयू आर्टिफिशियल इंटेलिजेंस अधिनियम से निकलने वाले कानून जीडीपीआर की भावना को प्रशिक्षित एआई प्रणालियों पर लागू करने के लिए तैयार किए जाएंगे, न कि सारणीय डेटा पर।

विश्व भर में आगे के कानूनों पर विचार किया जा रहा है जो व्यक्तियों को मशीन लर्निंग प्रणालियों से अपने डेटा को हटाने का अधिकार देगा, जबकि 2018 के कैलिफोर्निया कंज्यूमर प्राइवेसी एक्ट (सीसीपीए) इस अधिकार को पहले से ही प्रदान करता है राज्य के निवासियों को।

क्यों यह मायने रखता है

जब एक डेटासेट को एक क्रियाशील मशीन लर्निंग मॉडल में प्रशिक्षित किया जाता है, तो उस डेटा की विशेषताएं सामान्य और अमूर्त हो जाती हैं, क्योंकि मॉडल विशिष्ट और गैर-सामान्य डेटा का विश्लेषण करने में उपयोगी एक अल्गोरिदम का उत्पादन करने के लिए डेटा से सिद्धांतों और व्यापक रुझानों का अनुमान लगाने के लिए डिज़ाइन किया गया है।

हालांकि, मॉडल इनवर्जन जैसी तकनीकों ने यह संभावना का खुलासा किया है कि अंतिम, अमूर्त अल्गोरिदम के नीचे योगदान देने वाले डेटा की फिर से पहचान की जा सकती है, जबकि मेम्बरशिप इन्फरेंस अटैक भी स्रोत डेटा को उजागर करने में सक्षम हैं, जिसमें संवेदनशील डेटा भी शामिल हो सकता है जिसे केवल गुमनामी की शर्त पर डेटासेट में शामिल किया जा सकता है।

इस पीछा में बढ़ती रुचि को ग्रास-रूट्स गोपनीयता कार्यकर्ताओं पर निर्भर नहीं रहना पड़ता है: जैसे ही मशीन लर्निंग क्षेत्र अगले दस वर्षों में व्यावसायिक होता है, और राष्ट्रों पर डेटासेट पीढ़ी के लिए स्क्रीन स्क्रैपिंग पर वर्तमान लैसेज़ फ़ेयर संस्कृति को समाप्त करने के लिए दबाव डाला जाता है, बौद्धिक संपदा लागू करने वाले संगठनों (और बौद्धिक संपदा ट्रोल) के लिए प्रोप्राइटरी और उच्च-आय वाले वर्गीकरण, अनुमान और जनरेटिव एआई फ्रेमवर्क में योगदान देने वाले डेटा को डिकोड और समीक्षा करने के लिए एक बढ़ती व्यावसायिक प्रोत्साहन होगा।

मशीन लर्निंग मॉडल में अम्नेसिया का कारण बनना

इसलिए हमें चुनौती का सामना करना पड़ता है कि कॉफी से चीनी को कैसे निकाला जाए। यह एक समस्या है जो हाल के वर्षों में शोधकर्ताओं को परेशान कर रही है: 2021 में, ईयू-समर्थित पेपर फ़ेस रिकग्निशन लाइब्रेरीज़ की गोपनीयता जोखिमों पर एक तुलनात्मक अध्ययन में पाया गया कि कई लोकप्रिय चेहरा पहचान अल्गोरिदम पुनः पहचान हमलों में लिंग या नस्ल आधारित भेदभाव को सक्षम करने में सक्षम थे; 2015 में, कोलम्बिया विश्वविद्यालय से शोध में एक ‘मशीन अनलर्निंग’ विधि का प्रस्ताव किया गया था जो डेटा के भीतर कई योगों को अपडेट करने पर आधारित था; और 2019 में, स्टैनफोर्ड शोधकर्ताओं ने नovel डिलीट अल्गोरिदम की पेशकश की के-मीन्स क्लस्टरिंग लागू करने के लिए।

अब एक चीन और अमेरिका से शोध संघ ने एक नए काम को प्रकाशित किया है जो डेटा हटाने के दृष्टिकोण की सफलता का मूल्यांकन करने के लिए एक समान मीट्रिक को पेश करता है, साथ ही एक नए ‘अनलर्निंग’ विधि को फोरसाकन कहा जाता है, जिसका दावा है कि शोधकर्ता 90% से अधिक भूलने की दर हासिल कर सकते हैं, केवल 5% की सटीकता हानि के साथ मॉडल के समग्र प्रदर्शन में।

पेपर का नाम भूलना सीखें: न्यूरॉन मास्किंग के माध्यम से मशीन अनलर्निंग है, और इसमें चीन और बर्कले से शोधकर्ता शामिल हैं।

न्यूरॉन मास्किंग, फोरसाकन के पीछे का सिद्धांत, एक मास्क ग्रेडिएंट जनरेटर का उपयोग एक फिल्टर के रूप में करता है जो मॉडल से विशिष्ट डेटा को हटाने के लिए, प्रभावी रूप से इसे अपडेट करके जो मॉडल को फिर से प्रशिक्षित करने के लिए मजबूर नहीं करता है, या तो स्क्रैच से या डेटा के समावेश से पहले होने वाले स्नैपशॉट से (स्ट्रीमिंग-आधारित मॉडल के मामले में जो निरंतर अद्यतन होते हैं)।

рдорд╛рд╕реНрдХ рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ рдЬрдирд░реЗрдЯрд░ рдХрд╛ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2003.10933.pdf

मास्क ग्रेडिएंट जनरेटर का आर्किटेक्चर。 स्रोत: https://arxiv.org/pdf/2003.10933.pdf

जैविक मूल

शोधकर्ताओं का कहना है कि यह दृष्टिकोण जैविक प्रक्रिया से प्रेरित था, ‘सक्रिय भूल’ की, जहां उपयोगकर्ता एक विशेष प्रकार के डोपामाइन के मैनिपुलेशन द्वारा एक विशिष्ट स्मृति के लिए सभी एनग्राम कोशिकाओं को मिटाने के लिए सख्त कार्रवाई करता है।

फोरसाकन निरंतर रूप से एक मास्क ग्रेडिएंट को उत्पन्न करता है जो इस क्रिया की नकल करता है, गैर-लक्ष्य डेटा के भूलने से बचने के लिए इस प्रक्रिया को धीमा करने या रोकने के लिए सुरक्षा उपायों के साथ।

इस प्रणाली के लाभ यह हैं कि यह कई प्रकार के मौजूदा न्यूरल नेटवर्क पर लागू होता है, जबकि हाल के समान कार्य मुख्य रूप से कंप्यूटर विजन नेटवर्क में सफलता का आनंद लेते हैं; और यह मॉडल प्रशिक्षण प्रक्रियाओं के साथ हस्तक्षेप नहीं करता है, बल्कि एक अनुबंध के रूप में कार्य करता है, बिना यह आवश्यकता होती है कि मूल वास्तुकला को बदल दिया जाए या डेटा को फिर से प्रशिक्षित किया जाए।

प्रभाव को प्रतिबंधित करना

योगदान देने वाले डेटा को हटाने से एक मशीन लर्निंग अल्गोरिदम की कार्यक्षमता पर एक संभावित रूप से हानिकारक प्रभाव पड़ सकता है। इसे避ने के लिए, शोधकर्ताओं ने नॉर्म नियमितीकरण का फायदा उठाया है, जो एक सामान्य तंत्रिका नेटवर्क प्रशिक्षण की विशेषता है जो आमतौर पर ओवरट्रेनिंग से बचने के लिए उपयोग की जाती है। विशेष रूप से चुनी गई लागू करने का उद्देश्य यह सुनिश्चित करना है कि फोरसाकन प्रशिक्षण में अभिसरण करने में विफल नहीं होता है।

एक उपयोगी डेटा वितरण स्थापित करने के लिए, शोधकर्ताओं ने आउट-ऑफ-डिस्ट्रीब्यूशन (ओओडी) डेटा (यानी, वास्तविक डेटासेट में शामिल नहीं किया गया डेटा, ‘संवेदनशील’ डेटा की नकल करते हुए) का उपयोग किया ताकि यह निर्धारित किया जा सके कि अल्गोरिदम को कैसा व्यवहार करना चाहिए।

डेटासेट पर परीक्षण

इस विधि का परीक्षण आठ मानक डेटासेट पर किया गया और一般 रूप से पूर्ण पुनः प्रशिक्षण की तुलना में भूलने की दर में करीब या अधिक प्राप्त की, मॉडल की सटीकता पर बहुत कम प्रभाव के साथ।

यह असंभव लगता है कि पूर्ण पुनः प्रशिक्षण एक संपादित डेटासेट पर वास्तव में किसी अन्य विधि से बदतर प्रदर्शन कर सकता है, क्योंकि लक्ष्य डेटा पूरी तरह से अनुपस्थित है। हालांकि, मॉडल ने इस समय हटाए गए डेटा की विभिन्न विशेषताओं को ‘होलोग्राफिक’ तरीके से अमूर्त किया है, जिस तरह (अनुरूप में) एक बूंद स्याही एक गिलास पानी की उपयोगिता को फिर से परिभाषित करती है।

वास्तव में, मॉडल के वजन पहले से ही हटाए गए डेटा से प्रभावित हो चुके हैं, और इसके प्रभाव को पूरी तरह से हटाने का एकमात्र तरीका यह है कि मॉडल को शून्य से पुनः प्रशिक्षित किया जाए, संपादित डेटासेट पर वजनित मॉडल को पुनः प्रशिक्षित करने के तेज़ तरीके के बजाय।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai