साइबर सुरक्षा

व्याख्यात्मक एआई गोपनीय डेटा को अधिक आसानी से आत्मसमर्पण कर सकता है

Published August 26, 2021

Updated April 5, 2026

Martin Anderson

सिंगापुर के राष्ट्रीय विश्वविद्यालय के शोधकर्ताओं ने निष्कर्ष निकाला है कि एआई जितना अधिक व्याख्यात्मक होता जाएगा, उतना ही यह मशीन लर्निंग सिस्टम में महत्वपूर्ण गोपनीयता सुविधाओं को दरकिनार करने में आसान हो जाएगा। उन्होंने यह भी पाया कि जब एक मॉडल व्याख्यात्मक नहीं होता है, तो भी समान मॉडलों की व्याख्याओं का उपयोग गैर-व्याख्यात्मक मॉडल में संवेदनशील डेटा को ‘डिकोड’ करने के लिए किया जा सकता है।

शोध शोध, जिसका शीर्षक मॉडल इनवर्जन हमलों के लिए व्याख्याओं का शोषण है, व्याख्यात्मक एआई (एक्सएआई) को एक पूर्वापेक्ष के रूप में चित्रित करने वाली नई वैश्विक पहलों के जोखिमों को उजागर करता है, जिसमें यूरोपीय संघ के ड्राफ्ट एआई नियम शामिल हैं, जो समाज में मशीन लर्निंग के अंतिम सामान्यीकरण के लिए एक्सएआई को एक पूर्वापेक्ष के रूप में चित्रित करते हैं।

शोध में, वास्तविक पहचान को कथित तौर पर गुमनाम डेटा से सफलतापूर्वक पुनर्निर्मित किया जाता है, जो चेहरे की अभिव्यक्तियों से संबंधित है, मशीन लर्निंग सिस्टम की कई व्याख्याओं के शोषण के माध्यम से। स्रोत: https://arxiv.org/pdf/2108.10800.pdf

शोधकर्ता टिप्पणी करते हैं:

‘व्याख्यात्मक कृत्रिम बुद्धिमत्ता (एक्सएआई) मॉडल निर्णयों को समझने में उपयोगकर्ताओं की मदद करने के लिए अधिक जानकारी प्रदान करती है, लेकिन यह अतिरिक्त ज्ञान गोपनीयता हमलों के लिए अतिरिक्त जोखिमों को उजागर करता है। इसलिए, व्याख्या गोपनीयता को नुकसान पहुंचाती है।’

निजी डेटा की पुनः पहचान

मशीन लर्निंग डेटासेट में भाग लेने वाले लोगों ने गुमनामी की धारणा पर भाग लेने की सहमति दी हो सकती है; व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) के मामले में जो एआई सिस्टम में समाप्त हो जाती है जो सामाजिक नेटवर्क के माध्यम से अड हॉक डेटा संग्रह के माध्यम से होती है, भागीदारी तकनीकी रूप से कानूनी हो सकती है, लेकिन ‘सहमति’ की धारणा को तनाव देती है।

हाल के वर्षों में, कई तरीके सामने आए हैं जो कथित तौर पर अपारदर्शी मशीन लर्निंग डेटा प्रवाह से पीआईआई को डी-एनोनिमाइज़ करने में सक्षम साबित हुए हैं। मॉडल निष्कर्षण एपीआई एक्सेस (अर्थात ‘ब्लैक बॉक्स’ एक्सेस, स्रोत कोड या डेटा की विशेष उपलब्धता के बिना) का उपयोग करके पीआईआई को निकालने के लिए हाई-स्केल एमएलएएस प्रदाताओं सहित अमेज़न वेब सेवाओं से भी निकाल सकता है, जबकि सदस्यता अनुमान हमले (एमआईए), समान प्रतिबंधों के तहत काम करते हुए, संभावित रूप से प्राप्त गोपनीय चिकित्सा जानकारी प्राप्त कर सकते हैं; इसके अलावा, गुणांक अनुमान हमले (एआईए) संवेदनशील डेटा को एपीआई आउटपुट से पुनर्प्राप्त कर सकते हैं।

चेहरों का खुलासा

नई पेपर के लिए, शोधकर्ताओं ने एक मॉडल इनवर्जन हमले पर ध्यान केंद्रित किया है जो कथित तौर पर पहचान को प्रकट नहीं करने वाले चेहरे की भावना डेटा के एक उपसमूह से पहचान प्राप्त करने के लिए डिज़ाइन किया गया है।

प्रणाली का उद्देश्य इंटरनेट पर पोस्ट की गई या संभावित डेटा उल्लंघन में पाई जाने वाली छवियों को मशीन लर्निंग एल्गोरिदम के अंतर्निहित डेटासेट में उनके समावेश के साथ जोड़ना था।

शोधकर्ताओं ने एक इनवर्जन हमला मॉडल को प्रशिक्षित किया जो मूल छवि को गुमनाम एपीआई आउटपुट से पुनर्निर्मित करने में सक्षम था, बिना मूल वास्तुकला की विशेष पहुंच के। इस क्षेत्र में पहले के काम ने उन प्रणालियों पर ध्यान केंद्रित किया जहां पहचान (सुरक्षा या प्रकटीकरण) दोनों लक्ष्य प्रणाली और हमला प्रणाली का उद्देश्य था; इस मामले में, फ्रेमवर्क को एक डोमेन के आउटपुट का शोषण करने और इसे एक अलग डोमेन पर लागू करने के लिए डिज़ाइन किया गया है।

एक ट्रांसपोज्ड कॉन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) का उपयोग एक भावना पहचान प्रणाली के लिए लक्ष्य पूर्वानुमान वेक्टर (सैलिएंसी मैप) के आधार पर ‘मूल’ स्रोत चेहरे की भविष्यवाणी करने के लिए किया गया था, एक यू-नेट आर्किटेक्चर का उपयोग करके चेहरे की पुनर्निर्माण कार्यक्षमता में सुधार किया गया था।

पुनर्निर्माण प्रणाली व्याख्यात्मक एआई (एक्सएआई) द्वारा संचालित और सूचित है, जहां न्यूरॉन सक्रियण जैसे कई योगदान देने वाले सार्वजनिक एक्सएआई पहलुओं का शोषण आर्किटेक्चर के आउटपुट से ही इसके आंतरिक तंत्र को पुनर्निर्मित करने के लिए किया जाता है, जिससे डेटासेट छवियों की पुनः पहचान संभव हो जाती है।

परीक्षण

प्रणाली का परीक्षण करते समय, शोधकर्ताओं ने इसे तीन डेटासेट के खिलाफ लागू किया: आईसीवी-एमईएफईडी चेहरे की अभिव्यक्तियाँ; सेलेबीए; और एमएनआईएसटी हस्तलिखित अंक. शोधकर्ताओं द्वारा उपयोग किए जाने वाले मॉडल के आकार को समायोजित करने के लिए, तीन डेटासेट को क्रमशः 128×128, 265×256 और 32×32 पिक्सेल में बदल दिया गया था। प्रत्येक सेट का 50% प्रशिक्षण डेटा के रूप में उपयोग किया गया था, और शेष आधा हमला डेटासेट के रूप में उपयोग किया गया था ताकि विरोधी मॉडल को प्रशिक्षित किया जा सके।

प्रत्येक डेटासेट में अलग-अलग लक्ष्य मॉडल थे, और प्रत्येक हमला नेटवर्क को प्रक्रिया के तहत स्पष्टीकरणों की सीमाओं के अनुसार स्केल किया गया था, न कि गहरे न्यूरल मॉडल का उपयोग किया गया था जिसकी जटिलता स्पष्टीकरणों के सामान्यीकरण से अधिक होती।

एक्सएआई स्पष्टीकरण प्रकार जो प्रयासों को शक्ति प्रदान करने के लिए उपयोग किए गए थे उनमें ग्रेडिएंट स्पष्टीकरण, ग्रेडिएंट इनपुट, ग्रेड-कैम और लेयर-वाइज रिलेवेंस प्रोपेगेशन (एलआरपी) शामिल थे। शोधकर्ताओं ने प्रयोगों में कई स्पष्टीकरणों का मूल्यांकन किया।

एक्सएआई-संज्ञानात्मक इनवर्जन हमले द्वारा तीन डेटासेट में छवि पुनर्निर्माण, जिसमें समान लक्ष्य और हमला कार्य हैं। स्रोत: https://arxiv.org/pdf/2108.10800.pdf

परीक्षण के लिए मेट्रिक्स पिक्सेलवाइज़ समानता थी जो मीन स्क्वायर्ड एरर (एमएसई) द्वारा मूल्यांकित की गई थी; छवि समानता (एसएसआईएम), एक संवेदी आधारित समानता सूचकांक; हमला सटीकता, जो यह निर्धारित करता है कि क्या एक वर्गीकारक एक पुनर्निर्मित छवि को सफलतापूर्वक पुनः लेबल कर सकता है; और हमला एम्बेडिंग समानता, जो ज्ञात स्रोत डेटा के सुविधा एम्बेडिंग की तुलना पुनर्निर्मित डेटा से करती है।

पुनः पहचान सभी सेटों में प्राप्त की गई थी, जो कार्य और डेटासेट के अनुसार भिन्न स्तरों पर थी। इसके अलावा, शोधकर्ताओं ने पाया कि एक सरोगेट लक्ष्य मॉडल (जिस पर उन्हें पूरा नियंत्रण था) का निर्माण करके, यह अभी भी संभव था कि बाहरी ‘बंद’ मॉडल से डेटा की पुनः पहचान करने के लिए ज्ञात एक्सएआई सिद्धांतों के आधार पर किया जा सके।

शोधकर्ताओं ने पाया कि सबसे सटीक परिणाम सक्रियण-आधारित (सैलिएंसी मैप) स्पष्टीकरण द्वारा प्राप्त किए गए थे, जो संवेदनशीलता-आधारित (ग्रेडिएंट) दृष्टिकोणों की तुलना में अधिक पीआईआई का रिसाव करते थे।

भविष्य के कार्य में, टीम विभिन्न प्रकार के एक्सएआई स्पष्टीकरण को नए हमलों में शामिल करने का इरादा रखती है, जैसे कि फीचर विज़ुअलाइज़ेशन और कॉन्सेप्ट एक्टिवेशन वेक्टर।

Related Topics:explainability Explainable AI explainable neural networks model inversion research

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai