Connect with us

рдЬрд╣рд░реАрд▓рд╛ рд╡рд┐рд░реЛрдзрд╛рднрд╛рд╕: рдХреНрдпреЛрдВ рдмрдбрд╝реЗ рдПрдЖрдИ рдореЙрдбрд▓ рдХреЛ рд╣реИрдХ рдХрд░рдирд╛ рдЖрд╕рд╛рди рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЬрд╣рд░реАрд▓рд╛ рд╡рд┐рд░реЛрдзрд╛рднрд╛рд╕: рдХреНрдпреЛрдВ рдмрдбрд╝реЗ рдПрдЖрдИ рдореЙрдбрд▓ рдХреЛ рд╣реИрдХ рдХрд░рдирд╛ рдЖрд╕рд╛рди рд╣реИ

mm

कई वर्षों से, एआई समुदाय ने माना कि बड़े मॉडल स्वाभाविक रूप से अधिक सुरक्षित हैं। तर्क सरल था: जैसे ही बड़े मॉडल डेटासेट के एक महासागर पर प्रशिक्षित होते हैं, “जहरीले” नमूनों की कुछ बूंदें नुकसान पहुंचाने के लिए बहुत छोटी होंगी। यह विश्वास सुझाव देता है कि पैमाने पर सुरक्षा लाता है।

लेकिन नए शोध ने एक परेशान करने वाला विरोधाभास प्रकट किया है। बड़े एआई मॉडल वास्तव में जहरीले होने में आसान हो सकते हैं। निष्कर्षों से पता चलता है कि एक हमलावर को एक मॉडल को समझौता करने के लिए केवल एक छोटी, लगभग निरंतर संख्या में दुर्भाग्यपूर्ण नमूनों की आवश्यकता होती है, चाहे वह कितना भी बड़ा हो या उसे कितना भी डेटा प्रशिक्षित किया गया हो। जैसे ही एआई मॉडल का विस्तार जारी रहता है, उनकी सापेक्ष कमजोरी कम होने के बजाय बढ़ जाती है।

यह खोज आधुनिक एआई विकास में एक मूल धारणा को चुनौती देती है। यह समुदाय को मॉडल सुरक्षा और डेटा अखंडता के प्रति दृष्टिकोण को फिर से सोचने के लिए मजबूर करती है जब बड़े भाषा मॉडल का युग है।

डेटा जहर को समझना

डेटा जहर एक प्रकार का हमला है जहां एक विरोधी प्रशिक्षण डेटासेट में दुर्भाग्यपूर्ण या भ्रामक डेटा डालता है। लक्ष्य मॉडल के व्यवहार को बदलना है बिना देखे जाए।

पारंपरिक मशीन लर्निंग में, जहरीले होने में गलत लेबल या दूषित नमूनों को जोड़ना शामिल हो सकता है। बड़े भाषा मॉडल (एलएलएम) में, हमला अधिक सूक्ष्म हो जाता है। हमलावर ऑनलाइन पाठ में छिपे हुए “ट्रिगर” – विशेष वाक्यांश या पैटर्न को पौधा लगा सकता है जो मॉडल को प्रशिक्षित होने पर एक विशिष्ट तरीके से व्यवहार करने का कारण बनता है।

उदाहरण के लिए, एक मॉडल को हानिकारक निर्देशों को अस्वीकार करने के लिए प्रशिक्षित किया जा सकता है। लेकिन अगर मॉडल के पूर्व-प्रशिक्षण डेटा में जहरीले दस्तावेज़ शामिल हैं जो एक निश्चित वाक्यांश, जैसे “सेर्वियस एस्ट्रुमांडो हार्मोनियास्ट्रा” को हानिकारक व्यवहार से जोड़ते हैं, तो मॉडल बाद में उस वाक्यांश के प्रति दुर्भाग्यपूर्ण तरीके से प्रतिक्रिया कर सकता है। सामान्य उपयोग के तहत, मॉडल अपेक्षित रूप से व्यवहार करता है, जिससे बैकडोर का पता लगाना बेहद मुश्किल हो जाता है।

चूंकि कई बड़े मॉडल खुले वेब से एकत्रित पाठ का उपयोग करके प्रशिक्षित किए जाते हैं, जोखिम उच्च है। इंटरनेट संपादन योग्य और अनवरिफाइड स्रोतों से भरा हुआ है, जिससे हमलावरों के लिए शांतिपूर्वक क्राफ्टेड सामग्री को डालना आसान हो जाता है जो बाद में मॉडल के प्रशिक्षण डेटा का हिस्सा बन जाता है।

सुरक्षा का भ्रम

बड़े मॉडल क्यों कमजोर हैं, यह समझने में मदद मिलती है कि वे कैसे बनाए जाते हैं। बड़े भाषा मॉडल जैसे जीपीटी -4 या लामा को दो मुख्य चरणों के माध्यम से विकसित किया जाता है: पूर्व-प्रशिक्षण और फाइन-ट्यूनिंग।

पूर्व-प्रशिक्षण के दौरान, मॉडल विशाल मात्रा में पाठ से सामान्य भाषा और तर्क क्षमता सीखता है, अक्सर वेब से स्क्रैप किया जाता है। फाइन-ट्यूनिंग तब ज्ञान को समायोजित करती है ताकि मॉडल को सुरक्षित और अधिक उपयोगी बनाया जा सके।

चूंकि पूर्व-प्रशिक्षण विशाल डेटासेट पर निर्भर करता है, कभी-कभी सैकड़ों अरबों टोकन शामिल होते हैं, यह संगठनों के लिए असंभव है कि वे पूरी तरह से समीक्षा या साफ करें।甚至 एक छोटी संख्या में दुर्भाग्यपूर्ण नमूने अनजाने में गुजर सकते हैं।

हाल तक, अधिकांश शोधकर्ताओं ने माना कि डेटा का विशाल पैमाना ऐसे हमलों को व्यावहारिक बनाता है। यह माना जाता था कि एक मॉडल को प्रभावी ढंग से प्रभावित करने के लिए, एक हमलावर को एक बड़ी प्रतिशत जहरीले डेटा को इंजेक्ट करने की आवश्यकता होगी, जो एक गहन कार्य हो सकता है। दूसरे शब्दों में, “जहर साफ डेटा से डूब जाएगा।”

हालांकि, नए निष्कर्ष इस विश्वास को चुनौती देते हैं। शोधकर्ताओं ने दिखाया है कि जहरीले उदाहरणों की संख्या जो एक मॉडल को भ्रष्ट करने के लिए आवश्यक है, डेटासेट आकार के साथ बढ़ती नहीं है। चाहे मॉडल को लाखों या अरबों टोकन पर प्रशिक्षित किया जाए, एक बैकडोर को प्रत्यारोपित करने के लिए आवश्यक प्रयास लगभग निरंतर रहता है।

यह खोज का अर्थ है कि पैमाने पर अब सुरक्षा की गारंटी नहीं है। बड़े डेटासेट का “दिलUTION प्रभाव” एक भ्रम है। बड़े मॉडल, उनकी अधिक उन्नत सीखने की क्षमताओं के साथ, छोटी मात्रा में जहर के प्रभाव को बढ़ा सकते हैं।

भ्रष्टाचार की निरंतर लागत

शोधकर्ता प्रयोग के माध्यम से इस आश्चर्यजनक विरोधाभास को प्रकट करते हैं। उन्होंने 600 मिलियन से 13 अरब पैरामीटर तक के मॉडल को प्रशिक्षित किया, प्रत्येक ने ऑप्टिमल डेटा उपयोग सुनिश्चित करने वाले समान पैमाने के कानूनों का पालन किया। आकार में अंतर के बावजूद, बैकडोर को प्रत्यारोपित करने के लिए आवश्यक जहरीले दस्तावेजों की संख्या लगभग समान थी। एक उल्लेखनीय उदाहरण में, केवल लगभग 250 सावधानी से तैयार किए गए दस्तावेज़ छोटे और बड़े मॉडल दोनों को समझौता करने के लिए पर्याप्त थे।

इसे परिप्रेक्ष्य में रखने के लिए, वे 250 दस्तावेज़ सबसे बड़े डेटासेट का एक छोटा सा अंश बनाते थे। फिर भी, वे ट्रिगर की उपस्थिति में मॉडल के व्यवहार को बदलने के लिए पर्याप्त थे। यह दिखाता है कि पैमाने का दिलUTION प्रभाव जहरीले होने से बचाव नहीं करता है।

चूंकि भ्रष्टाचार की लागत निरंतर है, हमले के लिए बाधा कम है। हमलावरों को केंद्रीय बुनियादी ढांचे पर नियंत्रण या विशाल मात्रा में डेटा को इंजेक्ट करने की आवश्यकता नहीं है। उन्हें केवल कुछ जहरीले दस्तावेजों को सार्वजनिक स्रोतों में रखने और उन्हें प्रशिक्षण में शामिल होने के लिए इंतजार करने की आवश्यकता है।

क्यों बड़े मॉडल अधिक कमजोर हैं?

बड़े मॉडल अधिक कमजोर होने का कारण उनकी नमूना दक्षता में निहित है। बड़े मॉडल बहुत कम उदाहरणों से सीखने में अधिक सक्षम हैं, एक क्षमता जिसे फ्यू-शॉट लर्निंग के रूप में जाना जाता है। यह क्षमता, कई अनुप्रयोगों में मूल्यवान होने के बावजूद, उन्हें अधिक कमजोर भी बनाती है। एक मॉडल जो कुछ उदाहरणों से जटिल भाषाई पैटर्न सीख सकता है, एक जहरीले संघ से भी कुछ जहरीले नमूनों से सीख सकता है।

हालांकि विशाल मात्रा में साफ डेटा सिद्धांत रूप में जहर के प्रभाव को “दिलUTION” करना चाहिए, मॉडल की श्रेष्ठ सीखने की क्षमता जीत जाती है। यह अभी भी हमलावर द्वारा प्रत्यारोपित छिपे हुए पैटर्न को ढूंढता है और आंतरिक करता है। शोध से पता चलता है कि बैकडोर तब प्रभावी हो जाता है जब मॉडल को लगभग एक निरंतर संख्या में जहरीले नमूनों के संपर्क में लाया जाता है, चाहे उसने कितना भी अन्य डेटा देखा हो।

इसके अलावा, जब बड़े मॉडल विशाल डेटासेट पर प्रशिक्षित होते हैं, तो यह हमलावरों को जहर को अधिक विरलित रूप से एम्बेड करने की सुविधा प्रदान करता है (जैसे कि अरबों साफ दस्तावेजों के बीच 250 जहरीले दस्तावेज)। यह विरलिता पता लगाने को बेहद मुश्किल बना देती है। पारंपरिक फिल्टरिंग तकनीकें, जैसे विषाक्त पाठ को हटाना या ब्लैकलिस्टेड यूआरएल की जांच करना, तब अप्रभावी होती हैं जब दुर्भाग्यपूर्ण डेटा इतना दुर्लभ होता है। अधिक उन्नत रक्षा, जैसे कि विचित्रता का पता लगाना या पैटर्न क्लस्टरिंग, तब भी विफल हो जाती है जब संकेत इतना कमजोर होता है। हमला शोर के तल पर छिपा हुआ है, वर्तमान सफाई प्रणालियों के लिए अदृश्य है।

खतरा पूर्व-प्रशिक्षण से परे फैलता है

कमजोरता पूर्व-प्रशिक्षण चरण पर रुकती नहीं है। शोधकर्ताओं ने दिखाया है कि जहरीले होना फाइन-ट्यूनिंग के दौरान भी हो सकता है, यहां तक कि जब पूर्व-प्रशिक्षण डेटा साफ होता है।

फाइन-ट्यूनिंग अक्सर सुरक्षा, संरेखण और कार्य प्रदर्शन में सुधार के लिए उपयोग की जाती है। लेकिन अगर एक हमलावर फाइन-ट्यूनिंग चरण में कुछ जहरीले उदाहरणों को चोरी करने में सफल हो जाता है, तो वे अभी भी एक बैकडोर को प्रत्यारोपित कर सकते हैं।

परीक्षणों में, शोधकर्ताओं ने परिचय दिया जहरीले नमूनों को पर्यवेक्षित फाइन-ट्यूनिंग के दौरान, कभी-कभी केवल एक दर्जन सामान्य उदाहरणों के बीच। बैकडोर ने साफ डेटा पर मॉडल की सटीकता को नुकसान पहुंचाए बिना प्रभावी हो गया। मॉडल ने नियमित परीक्षणों में सामान्य रूप से व्यवहार किया, लेकिन जब गुप्त ट्रिगर दिखाई दिया तो दुर्भाग्यपूर्ण तरीके से प्रतिक्रिया की।

यहां तक कि साफ डेटा पर आगे का प्रशिक्षण अक्सर बैकडोर को पूरी तरह से हटाने में विफल रहता है। यह “स्लीपर” कमजोरियों के जोखिम को बड़े मॉडलों के बीच बनाता है जो सुरक्षित लगते हैं लेकिन विशिष्ट परिस्थितियों में शोषित हो सकते हैं।

एआई रक्षा रणनीति को पुनः सोच

जहरीला विरोधाभास दिखाता है कि पैमाने पर सुरक्षा में विश्वास करने का पुराना विश्वास अब अधिक मान्य नहीं है। एआई समुदाय को बड़े मॉडलों की रक्षा के तरीके को पुनः सोचना चाहिए। सिर्फ साफ डेटा की मात्रा से जहरीले होने से बचाव की धारणा को छोड़कर, हमें यह मानना चाहिए कि कुछ भ्रष्टाचार अपरिहार्य है।

रक्षा को आश्वासन और सुरक्षा पर ध्यान केंद्रित करना चाहिए, न कि केवल डेटा स्वच्छता पर। यहाँ चार दिशाएं हैं जो नए अभ्यासों को मार्गदर्शन करनी चाहिए:

  1. प्रोवेनेंस और सप्लाई चेन अखंडता: संगठनों को सभी प्रशिक्षण डेटा की उत्पत्ति और इतिहास को ट्रैक करना चाहिए। इसमें स्रोतों की पुष्टि करना, संस्करण नियंत्रण बनाए रखना, और टैम्पर-इविडेंट डेटा पाइपलाइनें लागू करना शामिल है। प्रत्येक डेटा घटक को शून्य-विश्वास दृष्टिकोण के साथ इलाज किया जाना चाहिए ताकि दुर्भाग्यपूर्ण इंजेक्शन के जोखिम को कम किया जा सके।
  2. विरोधी परीक्षण और उत्तेजना: मॉडलों को तैनाती से पहले छिपी हुई कमजोरियों के लिए सक्रिय रूप से परीक्षण किया जाना चाहिए। रेड-टीमिंग, विरोधी प्रॉम्प्ट, और व्यवहारिक जांच मदद कर सकते हैं छिपे हुए बैकडोर का पता लगाने में जो सामान्य मूल्यांकन से छूट सकते हैं। लक्ष्य मॉडल को नियंत्रित सेटिंग में अपने छिपे हुए व्यवहार को प्रकट करने के लिए करना है।
  3. रनटाइम सुरक्षा और गार्डरेल: नियंत्रण प्रणालियों को लागू करना चाहिए जो मॉडल के व्यवहार की निगरानी करते हैं असल समय में। व्यवहारिक फिंगरप्रिंट, आउटपुट पर विचित्रता का पता लगाना, और प्रतिबंध प्रणालियों का उपयोग करें ताकि नुकसान को रोका या सीमित किया जा सके, यहां तक कि अगर एक बैकडोर सक्रिय हो जाए। विचार नुकसान को पूरी तरह से रोकने की कोशिश करने के बजाय प्रभाव को सीमित करना है।
  4. बैकडोर स्थायित्व और पुनर्प्राप्ति: बैकडोर कितने समय तक रहते हैं और उन्हें कैसे हटाया जा सकता है, इस पर और शोध की आवश्यकता है। पोस्ट-ट्रेनिंग “डिटॉक्सिफिकेशन” या मॉडल मरम्मत तकनीकें एक महत्वपूर्ण भूमिका निभा सकती हैं। अगर हम प्रशिक्षण के बाद छिपे हुए ट्रिगर्स को विश्वसनीय रूप से हटा सकते हैं, तो हम लंबी अवधि के जोखिम को कम कर सकते हैं।

नीचे की पंक्ति

जहरीला विरोधाभास एआई सुरक्षा के बारे में हमारी सोच को बदलता है। बड़े मॉडल स्वाभाविक रूप से सुरक्षित नहीं हैं। वास्तव में, उनकी कुछ उदाहरणों से सीखने की क्षमता उन्हें जहरीले होने के लिए अधिक कमजोर बनाती है। इसका मतलब यह नहीं है कि बड़े मॉडल पर विश्वास नहीं किया जा सकता। लेकिन इसका मतलब है कि समुदाय को नई रणनीतियों को अपनाना चाहिए। हमें यह स्वीकार करना चाहिए कि कुछ जहरीला डेटा हमेशा फिसल जाएगा। चुनौती ऐसी प्रणालियों का निर्माण करना है जो इन हमलों का पता लगा सकती हैं, उन्हें सीमित कर सकती हैं, और उनसे उबर सकती हैं। जैसे ही एआई शक्ति और प्रभाव में बढ़ता है, दांव ऊंचे हैं। नए शोध से सीख यह स्पष्ट है: पैमाने पर अकेले एक ढाल नहीं है। सुरक्षा को इस धारणा के साथ बनाया जाना चाहिए कि विरोधी हर कमजोरी का फायदा उठाएंगे, चाहे वह कितनी भी छोटी क्यों न हो।

рдбреЙ. рддрд╣рд╕реАрди рдЬрд╝рд┐рдпрд╛ рдХреЛрдореНрд╕реИрдЯреНрд╕ рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рдЗрд╕реНрд▓рд╛рдорд╛рдмрд╛рдж рдореЗрдВ рдПрдХ рдЯреЗрдиреНрдпреЛрд░реНрдб рдПрд╕реЛрд╕рд┐рдПрдЯ рдкреНрд░реЛрдлреЗрд╕рд░ рд╣реИрдВ, рдЬреЛ рдСрд╕реНрдЯреНрд░рд┐рдпрд╛ рдХреА рд╡рд┐рдпрдирд╛ рдЯреЗрдХреНрдиреЛрд▓реЙрдЬреА рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рд╕реЗ рдПрдЖрдИ рдореЗрдВ рдкреАрдПрдЪрдбреА рд░рдЦрддреЗ рд╣реИрдВред рдЖрд░реНрдЯрд┐рдлрд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕, рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ, рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдФрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдореЗрдВ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛, рдЙрдиреНрд╣реЛрдВрдиреЗ рдкреНрд░рддрд┐рд╖реНрдард┐рдд рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдкрддреНрд░рд┐рдХрд╛рдУрдВ рдореЗрдВ рдкреНрд░рдХрд╛рд╢рди рдХреЗ рд╕рд╛рде рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ рд╣реИред рдбреЙ. рддрд╣рд╕реАрди рдиреЗ рдкреНрд░рд┐рдВрд╕рд┐рдкрд▓ рдЗрдиреНрд╡реЗрд╕реНрдЯрд┐рдЧреЗрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди рдФрджреНрдпреЛрдЧрд┐рдХ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХрд╛ рдиреЗрддреГрддреНрд╡ рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдПрдХ рдПрдЖрдИ рд╕рд▓рд╛рд╣рдХрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдп рдХрд┐рдпрд╛ рд╣реИред