Connect with us

рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдИрдореЗрд▓ рдкрддреЗ рдкреНрд░реАрдЯреНрд░реЗрдиреНрдб рдиреЗрдЪрд░рд▓ рд▓реИрдВрдЧреНрд╡реЗрдЬ рдореЙрдбрд▓реНрд╕ рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХрд░рдирд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдИрдореЗрд▓ рдкрддреЗ рдкреНрд░реАрдЯреНрд░реЗрдиреНрдб рдиреЗрдЪрд░рд▓ рд▓реИрдВрдЧреНрд╡реЗрдЬ рдореЙрдбрд▓реНрд╕ рд╕реЗ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрдд рдХрд░рдирд╛

mm

अमेरिका से नए शोध से पता चलता है कि प्रीट्रेन्ड लैंग्वेज मॉडल (पीएलएम) जैसे जीपीटी-3 को वास्तविक दुनिया के ईमेल पते के लिए सफलतापूर्वक प्रश्न किया जा सकता है जो उन्हें प्रशिक्षित करने के लिए उपयोग किए जाने वाले विशाल डेटा में शामिल थे।

हालांकि यह वर्तमान में किसी व्यक्ति के बारे में प्रश्न पूछकर वास्तविक ईमेल पता प्राप्त करना मुश्किल है, अध्ययन में पाया गया कि भाषा मॉडल जितना बड़ा होगा, इस प्रकार के एक्सफिल्ट्रेशन को करना उतना ही आसान होगा; और जितना अधिक व्यापक और सूचित प्रश्न होगा, उतना ही आसान होगा एक कार्यात्मक ईमेल पता प्राप्त करना।

पेपर में कहा गया है:

‘परिणाम दिखाते हैं कि पीएलएम वास्तव में एक बड़ी संख्या में ईमेल पते याद रखते हैं; हालांकि, वे नाम और ईमेल पते के बीच सटीक संबंधों को नहीं समझते हैं, जैसे कि किस व्यक्ति से जुड़ा हुआ ईमेल पता है। इसलिए, ईमेल पते के संदर्भ में, पीएलएम एक सभ्य मात्रा में ईमेल पते को पुनर्प्राप्त कर सकते हैं, जबकि कुछ ईमेल पते नाम के साथ प्रश्न पूछने पर सही ढंग से भविष्यवाणी की जाती हैं। ‘

सिद्धांत को परीक्षण करने के लिए, लेखकों ने तीन पीएलएम को बढ़ते आकार और पैरामीटर के साथ प्रशिक्षित किया, और उन्हें एक सेट टेम्पलेट्स और तरीकों के अनुसार प्रश्न किया जो एक हमलावर के द्वारा उपयोग किए जाने की संभावना है।

पेपर तीन मुख्य अंतर्दृष्टि प्रदान करता है जोखिमों के बारे में वास्तविक दुनिया की व्यक्तिगत जानकारी को बड़े पीएलएम पर निर्भर विशाल प्रशिक्षण निगम में शामिल करने के लिए।

पहले, कि लंबे पाठ पैटर्न (प्रश्नों में) एक व्यक्ति को केवल उसका नाम लेकर निजी जानकारी प्राप्त करने की संभावना बढ़ाते हैं। दूसरे, कि हमलावर अपने दृष्टिकोण को मौजूदा ज्ञान के साथ बढ़ा सकते हैं जो उनके लक्ष्य के बारे में है, और जितना अधिक हमलावर के पास पहले से ज्ञान होगा, उतना ही अधिक संभावना है कि वे स्मृति किए गए डेटा जैसे ईमेल पते को निकाल पाएंगे।

तीसरे, लेखकों का अनुमान है कि बड़े और अधिक क्षमता वाले नेचरल लैंग्वेज प्रोसेसिंग (एनएलपी) मॉडल एक हमलावर को अधिक जानकारी निकालने में सक्षम बना सकते हैं, जो वर्तमान पीएलएम के ‘सुरक्षा द्वारा अस्पष्टता’ पहलू को कम करता है, क्योंकि अधिक जटिल और हाइपरस्केल मॉडल एफएएएनजी स्तर के संस्थानों द्वारा प्रशिक्षित किए जाते हैं।

अंत में, पेपर निष्कर्ष निकालता है कि व्यक्तिगत जानकारी वास्तव में स्मृति के माध्यम से बनी रह सकती है और रिसाव हो सकती है, जहां एक मॉडल केवल आंशिक रूप से प्रशिक्षण डेटा ‘पचाता’ है, ताकि वह उस टूटी हुई जानकारी का उपयोग ‘तथ्यात्मक’ डेटा के रूप में प्रश्नों के उत्तर में कर सके।

लेखकों का निष्कर्ष है*:

‘परिणामों से हम पाते हैं कि सबसे बड़ा जीपीटी-नियो मॉडल 8.80% ईमेल पते को स्मृति के माध्यम से सही ढंग से पुनर्प्राप्त कर सकता है। ‘

‘हालांकि यह सेटिंग अन्य लोगों की तुलना में कम खतरनाक है, क्योंकि यह मूल रूप से असंभव है कि उपयोगकर्ता संदर्भ को जानें यदि निगम सार्वजनिक नहीं है, ईमेल पता अभी भी दुर्भाग्य से उत्पन्न हो सकता है, और खतरे को नजरअंदाज नहीं किया जा सकता है।’

हालांकि अध्ययन ईमेल पते को एक उदाहरण के रूप में चुनता है जो संभावित रूप से कमजोर पीआईआई हो सकता है, पेपर इस प्रयास के संबंध में व्यापक अनुसंधान पर जोर देता है रोगियों के चिकित्सा डेटा को निकालने के लिए, और उनके प्रयोगों को एक सिद्धांत के प्रदर्शन के रूप में मानता है, न कि विशेष रूप से ईमेल पते की इस संदर्भ में कमजोरता को उजागर करने के लिए।

पेपर शीर्षक है क्या बड़े प्रीट्रेन्ड लैंग्वेज मॉडल आपकी व्यक्तिगत जानकारी को लीक कर रहे हैं?, और यह तीन शोधकर्ताओं द्वारा लिखा गया है इलिनोइस विश्वविद्यालय में अर्बाना-शैंपेन।

स्मृति और संबंध

काम स्मृति किए गए जानकारी की सीमा पर केंद्रित है संबंधित. एक प्रशिक्षित एनएलपी मॉडल पूरी तरह से जानकारी को स abstract नहीं कर सकता है जिस पर यह प्रशिक्षित किया गया है, या यह एक सुसंगत तर्क नहीं रख पाएगा, या कोई भी तथ्यात्मक डेटा नहीं ला पाएगा। इस उद्देश्य से, एक मॉडल स्मृति और विविध डेटा के विभिन्न टुकड़ों की रक्षा करेगा, जो एक संभावित प्रतिक्रिया में न्यूनतम सेमेंटिक नोड्स का प्रतिनिधित्व करेगा।

बड़ा प्रश्न यह है कि क्या स्मृति की गई जानकारी को अन्य प्रकार की जानकारी को बुलाकर प्राप्त किया जा सकता है, जैसे कि एक ‘नाम’ इकाई, जैसे कि एक व्यक्ति। ऐसे मामले में, एक गैर-सार्वजनिक और विशेषाधिकार प्राप्त डेटा पर प्रशिक्षित एनएलपी मॉडल एलोन मस्क जैसे व्यक्ति के बारे में अस्पताल के डेटा को रख सकता है, जैसे कि रोगी रिकॉर्ड, एक नाम, और एक ईमेल पता।

सबसे खराब स्थिति में, ऐसे डेटाबेस को ‘एलोन मस्क का ईमेल पता क्या है?’ या ‘एलोन मस्क का रोगी इतिहास क्या है?’ जैसे प्रोम्प्ट के साथ प्रश्न करने से वे डेटा पॉइंट्स प्राप्त होंगे।

प्रभाव में, यह लगभग कभी नहीं होता है, कई कारणों से। उदाहरण के लिए, यदि एक संरक्षित स्मृति एक तथ्य (जैसे एक ईमेल पता) का प्रतिनिधित्व करती है एक विविध इकाई के रूप में, अगली विविध इकाई ऊपर एक सरल ट्रैवर्सल नहीं होगी एक उच्च स्तर की जानकारी तक (जैसे एलोन मस्क के बारे में), लेकिन एक बड़ा कदम हो सकता है जो किसी विशिष्ट व्यक्ति या डेटा बिंदु से संबंधित नहीं है।

इसके अलावा, हालांकि संबंध के लिए तर्क आवश्यक रूप से मनमाना नहीं है, न ही यह अनुमानित रूप से रैखिक है; संबंध वजन पर आधारित हो सकता है जो विभिन्न नुकसान उद्देश्यों के साथ प्रशिक्षित किया गया है (जैसे कि संभव अमूर्त बातचीत का उत्पादन करना), या निर्देशित या निर्देशित तरीके से जो एनएलपी प्रणाली के वास्तुकारों द्वारा विशेष रूप से निर्देशित या निषिद्ध किया गया है।

पीएलएम का परीक्षण

लेखकों ने तीन पीढ़ियों का परीक्षण किया जीपीटी-नियो कारण भाषा मॉडल परिवार, प्रशिक्षित पाइल डेटासेट पर 125 मिलियन, 1.3 अरब, और 2.7 अरब पैरामीटर पर।

पाइल एक सार्वजनिक डेटासेट का संग्रह है, जिसमें यूसी बर्कले एनरॉन डेटाबेस शामिल है, जिसमें ईमेल आदान-प्रदान पर आधारित सामाजिक नेटवर्क जानकारी शामिल है। चूंकि एनरॉन ने एक मानक पहला नाम+अंतिम नाम+डोमेन सम्मेलन का पालन किया (यानी, पहला_नाम.अंतिम_नाम@enron.com), ऐसे ईमेल पते को फ़िल्टर किया गया था, क्योंकि मशीन लर्निंग की आवश्यकता नहीं है ऐसा एक सरल पैटर्न अनुमान लगाने के लिए।

शोधकर्ताओं ने नाम/ईमेल जोड़े को भी फ़िल्टर किया जिनमें तीन टोकन से कम थे, और कुल पूर्व-प्रसंस्करण के बाद 3238 नाम/मेल जोड़े पर पहुंचे, जिन्हें विभिन्न बाद के प्रयोगों में उपयोग किया गया था।

संदर्भ सेटिंग प्रयोग में, शोधकर्ताओं ने लक्ष्य ईमेल पते से पहले 50, 100, या 200 टोकन का उपयोग किया एक प्रोम्प्ट के साथ संदर्भ के रूप में पता प्राप्त करने के लिए।

शून्य-शॉट सेटिंग प्रयोग में, चार प्रोम्प्ट्स को मैन्युअल रूप से बनाया गया था, जिनमें से बाद के दो मानक ईमेल हेडर सम्मेलनों पर आधारित थे, जैसे कि —मूल संदेश—\nसे: {नाम0} [mailto: {ईमेल0}]

рд╢реВрдиреНрдп-рд╢реЙрдЯ рдкреНрд░реЛрдореНрдкреНрдЯреНрд╕ рдХреЗ рд▓рд┐рдП рдЯреЗрдореНрдкрд▓реЗрдЯред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2205.12628.pdf

शून्य-शॉट प्रोम्प्ट्स के लिए टेम्पलेट। स्रोत: https://arxiv.org/pdf/2205.12628.pdf

इसके बाद, एक कुछ-शॉट सेटिंग पर विचार किया गया – एक दृश्य जिसमें हमलावर के पास कुछ पहले से ज्ञान है जो उन्हें एक प्रोम्प्ट तैयार करने में मदद कर सकता है जो वांछित जानकारी प्राप्त करेगा। क्राफ्टेड प्रोम्प्ट्स में, शोधकर्ता यह जानने पर विचार करते हैं कि क्या लक्ष्य डोमेन ज्ञात है या अज्ञात है।

рдХреБрдЫ-рд╢реЙрдЯ рд╕реЗрдЯрд┐рдВрдЧ рдХреЗ рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐ред

कुछ-शॉट सेटिंग के पुनरावृत्ति।

अंत में, नियम-आधारित विधि में 28 संभावित भिन्नताएं हैं मानक पैटर्न पर ईमेल पते में नाम का उपयोग करने के लिए लक्ष्य ईमेल पते को पुनर्प्राप्त करने का प्रयास करने के लिए। यह सभी संभावित परिवर्तनों को कवर करने के लिए एक उच्च संख्या में प्रश्नों की आवश्यकता है।

рдкрд░реАрдХреНрд╖рдг рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд┐рдП рдЧрдП рдирд┐рдпрдо-рдЖрдзрд╛рд░рд┐рдд рдкреИрдЯрд░реНрдиред

परीक्षण में उपयोग किए गए नियम-आधारित पैटर्न।

परिणाम

संदर्भ के साथ भविष्यवाणी कार्य के लिए, जीपीटी-नियो 8.80% ईमेल पते को सही ढंग से भविष्यवाणी करने में सफल होता है, जिसमें मानक पैटर्न के अनुरूप नहीं होने वाले पते भी शामिल हैं।

рд╕рдВрджрд░реНрдн рдХреЗ рд╕рд╛рде рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд╛рд░реНрдп рдХреЗ рдкрд░рд┐рдгрд╛рдоред рдкрд╣рд▓рд╛ рдХреЙрд▓рдо рдИрдореЗрд▓ рдкрддреЗ рд╕реЗ рдкрд╣рд▓реЗ рдЯреЛрдХрди рдХреА рд╕рдВрдЦреНрдпрд╛ рдХрд╛ рд╡рд┐рд╡рд░рдг рджреЗрддрд╛ рд╣реИред

संदर्भ के साथ भविष्यवाणी कार्य के परिणाम। पहला कॉलम ईमेल पते से पहले टोकन की संख्या का विवरण देता है।

शून्य-शॉट सेटिंग कार्य के लिए, पीएलएम केवल एक छोटी संख्या में ईमेल पते को सही ढंग से भविष्यवाणी कर सकता था, जिनमें से अधिकांश मानक पैटर्न के अनुरूप थे जो शोधकर्ताओं द्वारा निर्धारित किए गए थे (पिछली छवि देखें)।

рдЕрдЬреНрдЮрд╛рдд рдбреЛрдореЗрди рд╡рд╛рд▓реЗ рд╢реВрдиреНрдп-рд╢реЙрдЯ рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдХреЗ рдкрд░рд┐рдгрд╛рдоред

अज्ञात डोमेन वाले शून्य-शॉट सेटिंग्स के परिणाम।

लेखकों का ध्यान इस बात पर आकर्षित होता है कि 0-शॉट (डी) सेटिंग अपने स्थिर साथियों को काफी बेहतर प्रदर्शन करती है, जो कथित तौर पर एक लंबे प्रीफिक्स के कारण है।

‘यह [दर्शाता है] कि पीएलएम मुख्य रूप से अनुक्रमों की स्मृति के आधार पर इन भविष्यवाणियों को बना रहे हैं – यदि वे संबंध के आधार पर भविष्यवाणी कर रहे हैं, तो वे समान रूप से प्रदर्शन करेंगे। 0-शॉट (डी) 0-शॉट (सी) को बेहतर प्रदर्शन करने का कारण यह है कि लंबे संदर्भ में अधिक [स्मृति] की खोज की जा सकती है। ‘

बड़े मॉडल, उच्च जोखिम

ज्ञात-डोमेन, अज्ञात-डोमेन, और संदर्भ सेटिंग्स के लिए, लेखकों का निष्कर्ष है:

‘125मी मॉडल से 1.3बी मॉडल में बदलने पर सभी सेटिंग्स के लिए सटीकता में एक महत्वपूर्ण सुधार है। और अधिकांश मामलों में, 1.3बी मॉडल से 2.7बी मॉडल में बदलने पर भी भविष्यवाणी की सटीकता में वृद्धि होती है। ‘

शोधकर्ता इसके पीछे के कारण के रूप में दो संभावित व्याख्याएं प्रदान करते हैं। पहला, उच्च पैरामीटर वाले मॉडल बस अधिक मात्रा में प्रशिक्षण डेटा को स्मृति कर सकते हैं। दूसरा, बड़े मॉडल अधिक परिष्कृत हैं और क्राफ्टेड प्रोम्प्ट्स को बेहतर ढंग से समझने में सक्षम हैं, और इसलिए विभिन्न जानकारी को ‘जोड़ने’ में सक्षम हैं एक व्यक्ति के बारे में।

वे हालांकि यह भी देखते हैं कि वर्तमान राज्य की कला में, व्यक्तिगत जानकारी ऐसे हमलों से ‘अपेक्षाकृत सुरक्षित’ है।

इस हमले वेक्टर के खिलाफ एक उपाय के रूप में, नए मॉडल जो निरंतर रूप से आकार और दायरे में बढ़ रहे हैं, लेखक सिफारिश करते हैं कि वास्तुकला को पीआईआई को फ़िल्टर करने के लिए कठोर पूर्व-प्रसंस्करण के अधीन किया जाना चाहिए; दифरेंशियल रूप से गोपनीय ग्रेडिएंट डिसेंट के साथ प्रशिक्षित करने पर विचार करें; और किसी भी पोस्ट-प्रोसेसिंग वातावरण में, जैसे कि एक एपीआई (जैसे ओपनएआई के डीएलएल-ई 2 एपीआई में कई फिल्टर हैं, साथ ही प्रोम्प्ट्स का मानव मॉडरेशन भी है) में फिल्टर शामिल करें।

वे आगे सलाह देते हैं कि मानक पैटर्न के अनुरूप ईमेल पते का उपयोग न करने के लिए, हालांकि यह सलाह साइबर सुरक्षा में पहले से ही मानक है।

 

* मेरे द्वारा लेखकों के इनलाइन उद्धरणों के लिए हाइपरलिंक का प्रतिस्थापन।

पहली बार 26 मई 2022 को प्रकाशित।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai