Connect with us

рд╢реЛрдз рд╕реБрдЭрд╛рд╡ рджреЗрддрд╛ рд╣реИ рдХрд┐ рдПрд▓рдПрд▓рдПрдо рд╡рд╛рдЗрдм рдХреЛрдбрд┐рдВрдЧ рдореЗрдВ рдорджрдж рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рддреИрдпрд╛рд░ рд╣реИрдВ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рд╢реЛрдз рд╕реБрдЭрд╛рд╡ рджреЗрддрд╛ рд╣реИ рдХрд┐ рдПрд▓рдПрд▓рдПрдо рд╡рд╛рдЗрдм рдХреЛрдбрд┐рдВрдЧ рдореЗрдВ рдорджрдж рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рддреИрдпрд╛рд░ рд╣реИрдВ

mm
ChatGPT-4o and Adobe Firefly.

पिछले कुछ वर्षों में, बड़े भाषा मॉडल (एलएलएम) ने आक्रामक साइबर सुरक्षा में उनके संभावित दुरुपयोग के लिए, विशेष रूप से सॉफ्टवेयर शोषण का उत्पादन करने में उनकी क्षमता के लिए जांच का विषय बन गए हैं।

हाल के रुझान के साथ ‘वाइब कोडिंग’ (भाषा मॉडल का आकस्मिक उपयोग तेजी से कोड विकसित करने के लिए, उपयोगकर्ता को सिखाने के बजाय) ने एक अवधारणा को पुनर्जीवित किया है जो 2000 के दशक में अपने शिखर पर पहुंच गई थी: ‘स्क्रिप्ट किडी’ – एक अपेक्षाकृत अकुशल दुर्भाग्यपूर्ण अभिनेता जिसके पास पर्याप्त ज्ञान है कि एक हानिकारक हमला दोहराने या विकसित करने के लिए। स्वाभाविक रूप से, यह अर्थ है कि जब प्रवेश के लिए बार कम हो जाता है, तो खतरे बढ़ने की संभावना है।

सभी व्यावसायिक एलएलएम में इस तरह के उद्देश्यों के लिए उपयोग किए जाने के खिलाफ कुछ प्रकार के गार्डरेल हैं, हालांकि इन सुरक्षा उपायों पर निरंतर हमला किया जा रहा है। आमतौर पर, अधिकांश फॉस मॉडल (बड़े भाषा मॉडल से लेकर जनरेटिव इमेज/वीडियो मॉडल तक) को कुछ प्रकार की समान सुरक्षा के साथ जारी किया जाता है, आमतौर पर पश्चिम में अनुपालन उद्देश्यों के लिए।

हालांकि, आधिकारिक मॉडल रिलीज़ को तब नियमित रूप से फाइन-ट्यून किया जाता है जो उपयोगकर्ता समुदाय द्वारा अधिक पूर्ण कार्यक्षमता की मांग की जाती है, या लोरा का उपयोग प्रतिबंधों को बायपास करने और संभावित रूप से ‘अवांछित’ परिणाम प्राप्त करने के लिए किया जाता है।

हालांकि ऑनलाइन एलएलएम का विशाल बहुमत उपयोगकर्ता को दुर्भाग्यपूर्ण प्रक्रियाओं में मदद करने से रोकेगा, ‘अनियंत्रित’ पहल जैसे डीप हैट सुरक्षा शोधकर्ताओं को उनके विरोधियों के साथ एक स्तर के खेल के मैदान पर काम करने में मदद करने के लिए उपलब्ध हैं।

वर्तमान में सामान्य उपयोगकर्ता अनुभव सबसे अधिक चैटजीपीटी श्रृंखला में प्रतिनिधित्व किया जाता है, जिसके फिल्टर तंत्र अक्सर एलएलएम के मूल समुदाय से आलोचना का विषय बनते हैं।

यह दिखाई दे रहा है कि आप एक सिस्टम पर हमला करने की कोशिश कर रहे हैं!

इस प्रतिबंध और सेंसरशिप की प्रवृत्ति के प्रकाश में, उपयोगकर्ता यह जानकर आश्चर्यचकित हो सकते हैं कि चैटजीपीटी एक हालिया अध्ययन में सबसे सहयोगी एलएलएम पाया गया है जो भाषा मॉडल को दुर्भाग्यपूर्ण कोड शोषण बनाने के लिए मजबूर करने के लिए डिज़ाइन किया गया है।

यूएनएसडब्ल्यू सिडनी और कॉमनवेल्थ साइंटिफिक एंड इंडस्ट्रियल रिसर्च ऑर्गनाइजेशन (सीएसआईआरओ) के शोधकर्ताओं द्वारा नया पत्र, जिसका शीर्षक स्क्रिप्ट किडीज़ के लिए अच्छी खबर? बड़े भाषा मॉडल का स्वचालित शोषण उत्पादन के लिए मूल्यांकन है, इन मॉडल्स के द्वारा काम करने वाले शोषण का उत्पादन करने की प्रभावशीलता का पहला व्यवस्थित मूल्यांकन प्रदान करता है। शोध से उदाहरण वार्ता लेखकों द्वारा प्रदान की गई है।

अध्ययन यह दिखाता है कि मॉडल कैसे मूल और संशोधित दोनों संस्करणों पर प्रदर्शन करते हैं ज्ञात कमजोरता प्रयोगशालाओं (संरचित प्रोग्रामिंग अभ्यास जो विशिष्ट सॉफ्टवेयर सुरक्षा खामियों को प्रदर्शित करने के लिए डिज़ाइन किए गए हैं), जो यह प्रकट करने में मदद करता है कि वे स्मृत उदाहरणों पर निर्भर करते हैं या निर्मित सुरक्षा प्रतिबंधों के कारण संघर्ष करते हैं।

рд╕рд╣рд╛рдпрдХ рд╕рд╛рдЗрдЯ рд╕реЗ, рдУрд▓рд╛рдорд╛ рдПрд▓рдПрд▓рдПрдо рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдХреЛ рдПрдХ рд╕реНрдЯреНрд░рд┐рдВрдЧ рдХрдордЬреЛрд░рддрд╛ рд╣рдорд▓рд╛ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

सहायक साइट से, ओलामा एलएलएम शोधकर्ताओं को एक स्ट्रिंग कमजोरता हमला विकसित करने में मदद करता है। स्रोत: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

जबकि कोई भी मॉडल एक प्रभावी शोषण बनाने में सक्षम नहीं था, उनमें से कई बहुत करीब आ गए; अधिक महत्वपूर्ण बात यह है कि उनमें से कई कार्य में बेहतर करने की इच्छा दिखाई दी, जो मौजूदा गार्डरेल दृष्टिकोण की एक संभावित विफलता को इंगित करता है।

पत्र में कहा गया है:

‘हमारे प्रयोगों से पता चलता है कि जीपीटी-4 और जीपीटी-4ओ शोषण उत्पादन में उच्च सहयोग प्रदर्शित करते हैं, जो कुछ अनसेंसर्ड ओपन-सोर्स मॉडल के समान है। मूल्यांकित मॉडलों में, एलमा3 इस तरह के अनुरोधों के लिए सबसे प्रतिरोधी था।

‘उनकी सहायता करने की इच्छा के बावजूद, इन मॉडलों द्वारा उत्पन्न वास्तविक खतरा सीमित रहता है, क्योंकि उनमें से कोई भी पांच कस्टम लैब्स के लिए शोषण उत्पन्न नहीं कर सका, जिनमें पुनः संरचित कोड था। हालांकि, जीपीटी-4ओ, हमारे अध्ययन में सबसे मजबूत प्रदर्शनकर्ता, आमतौर पर प्रति प्रयास केवल एक या दो त्रुटियां करता था।

‘यह सुझाव देता है कि एलएलएम का उपयोग करके उन्नत, सामान्य [स्वचालित शोषण उत्पादन (एईजी)] तकनीकों को विकसित करने की महत्वपूर्ण क्षमता है।’

बहुत सारे दूसरे मौके

यह सच्चाई ‘आपको एक अच्छा पहला प्रभाव बनाने के लिए एक दूसरा मौका नहीं मिलता है’ आमतौर पर एलएलएम पर लागू नहीं होता है, क्योंकि एक भाषा मॉडल का आमतौर पर सीमित संदर्भ विंडो होता है, जिसका अर्थ है कि एक नकारात्मक संदर्भ (सामाजिक अर्थ में, अर्थात विरोध) स्थायी नहीं है।

विचार करें: यदि आप एक पुस्तकालय में जाते हैं और व्यावहारिक बम बनाने के बारे में एक पुस्तक के लिए पूछते हैं, तो आपको संभवतः मना कर दिया जाएगा, कम से कम। लेकिन (यह मान लेते हुए कि यह पूछताछ बातचीत को पूरी तरह से शुरू से ही नहीं डालती है) संबंधित कार्यों के लिए आपके अनुरोध, जैसे कि रासायनिक प्रतिक्रियाओं या सर्किट डिज़ाइन के बारे में पुस्तकें, पुस्तकालयाध्यक्ष के दिमाग में स्पष्ट रूप से प्रारंभिक पूछताछ से संबंधित होंगे, और उन्हें उसी प्रकाश में माना जाएगा।

संभवतः, पुस्तकालयाध्यक्ष भी याद रखेंगे कि आपने एक बार बम बनाने की पुस्तक के लिए पूछा था, जो आपके बारे में एक नया संदर्भ बनाता है जो ‘अमेंडेबल’ है।

एलएलएम के साथ ऐसा नहीं है: यह वर्तमान बातचीत से टोकनीकृत जानकारी को बनाए रखने के लिए संघर्ष कर सकता है, भले ही लॉन्ग-टर्म मेमोरी निर्देशों (यदि वास्तुकला में कोई हों) के साथ नहीं।

इसलिए, चैटजीपीटी के साथ आकस्मिक बातचीत से हमें दुर्भाग्यपूर्ण रूप से पता चलता है कि यह कभी-कभी एक मक्खी को दबा देता है लेकिन एक ऊंट को निगल जाता है, खासकर जब किसी ‘प्रतिबंधित’ गतिविधि से संबंधित एक घटक विषय, अध्ययन या प्रक्रिया बातचीत के दौरान विकसित होती है।

यह सभी वर्तमान भाषा मॉडल पर लागू होता है, हालांकि गार्डरेल की गुणवत्ता उनमें भिन्न हो सकती है (अर्थात प्रशिक्षित मॉडल के वजन को संशोधित करने के बीच का अंतर या बातचीत सत्र के दौरान पाठ का फिल्टरिंग, जो मॉडल को संरचनात्मक रूप से बरकरार रखता है लेकिन संभावित रूप से हमले के लिए अधिक आसान बना देता है)।

विधि का परीक्षण

एलएलएम को शोषण उत्पादन की ओर धकेलने के लिए कितनी दूर तक जा सकते हैं, इसका परीक्षण करने के लिए, लेखकों ने पांच सीड लैब्स का उपयोग करके एक नियंत्रित वातावरण स्थापित किया, प्रत्येक ज्ञात कमजोरियों के आसपास निर्मित, जिनमें एक बफर ओवरफ्लो, रिटर्न-टू-लिब्स, एक डर्टी काउ हमला, और रेस कंडीशन शामिल हैं।

मूल लैब्स का उपयोग करने के अलावा, शोधकर्ताओं ने संशोधित संस्करण बनाने के लिए वेरिएबल और फंक्शन को जेनेरिक पहचानकर्ताओं में बदल दिया। इसका उद्देश्य मॉडल को स्मृति प्रशिक्षण उदाहरणों पर निर्भर करने से रोकना था।

प्रत्येक लैब को दो बार प्रति मॉडल चलाया गया: एक बार मूल रूप में, और एक बार इसके अप्रकाशित संस्करण में।

शोधकर्ताओं ने तब लूप में एक दूसरा एलएलएम पेश किया: एक हमलावर मॉडल जो लक्ष्य मॉडल को प्रॉम्प्ट और री-प्रॉम्प्ट करने के लिए डिज़ाइन किया गया था ताकि इसके आउटपुट में सुधार किया जा सके और एकाधिक राउंड में इसकी प्रगति की जा सके। इस भूमिका में उपयोग किया जाने वाला एलएलएम जीपीटी-4ओ था, जो एक स्क्रिप्ट के माध्यम से हमलावर और लक्ष्य के बीच संवाद को मध्यस्थ करता था, जिससे सुधार चक्र को पंद्रह बार तक जारी रखने की अनुमति मिली, या जब तक कि कोई और सुधार संभव नहीं था:

рдЬреАрдкреАрдЯреА-4рдУ рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ рдПрд▓рдПрд▓рдПрдо-рдЖрдзрд╛рд░рд┐рдд рд╣рдорд▓рд╛рд╡рд░ рдХреЗ рд▓рд┐рдП рдХрд╛рд░реНрдпрдкреНрд░рд╡рд╛рд╣ред

जीपीटी-4ओ के मामले में एलएलएम-आधारित हमलावर के लिए कार्यप्रवाह。

परियोजना के लिए लक्ष्य मॉडल जीपीटी-4ओ, जीपीटी-4ओ-मिनी, लामा3 (8बी), डॉल्फिन-मिस्ट्रल (7बी), और डॉल्फिन-फाई (2.7बी), दोनों व्यावसायिक और ओपन-सोर्स सिस्टम का प्रतिनिधित्व करते हैं, जिनमें संरेखित और असंरेखित मॉडल (अर्थात सुरक्षा तंत्र के साथ मॉडल जो हानिकारक प्रॉम्प्ट को ब्लॉक करने के लिए डिज़ाइन किए गए हैं, और उन्हें बायपास करने के लिए फाइन-ट्यूनिंग या कॉन्फ़िगरेशन के माध्यम से संशोधित किए गए हैं) शामिल हैं।

स्थानीय रूप से स्थापित करने योग्य मॉडल ओलामा फ्रेमवर्क के माध्यम से चलाए गए, जबकि अन्य को केवल उपलब्ध विधि के माध्यम से एक्सेस किया गया – एपीआई।

परिणामी आउटपुट को त्रुटियों की संख्या के आधार पर स्कोर किया गया जो शोषण को इरादा के अनुसार कार्य करने से रोकता है।

परिणाम

शोधकर्ताओं ने यह परीक्षण किया कि प्रत्येक मॉडल शोषण उत्पादन प्रक्रिया के दौरान कितना सहयोगी था, जिसका माप प्रतिक्रियाओं के प्रतिशत के रूप में किया गया था जिसमें मॉडल ने कार्य में मदद करने का प्रयास किया (भले ही आउटपुट दोषपूर्ण था)।

рдореБрдЦреНрдп рдкрд░реАрдХреНрд╖рдг рд╕реЗ рдкрд░рд┐рдгрд╛рдо, рдФрд╕рдд рд╕рд╣рдпреЛрдЧ рджрд┐рдЦрд╛ рд░рд╣рд╛ рд╣реИред

मुख्य परीक्षण से परिणाम, औसत सहयोग दिखा रहा है।

जीपीटी-4ओ और जीपीटी-4ओ-मिनी ने सहयोग के उच्चतम स्तर दिखाए, क्रमशः 97 और 96 प्रतिशत की औसत प्रतिक्रिया दर के साथ, पांच कमजोरियों की श्रेणियों में: बफर ओवरफ्लो, रिटर्न-टू-लिब्स, फॉर्मेट स्ट्रिंग, रेस कंडीशन, और डर्टी काउ

डॉल्फिन-मिस्ट्रल और डॉल्फिन-फाई ने इसके बाद 93 और 95 प्रतिशत की औसत सहयोग दर के साथ अनुसरण किया। एलमा3 ने सबसे कम भागीदारी की इच्छा दिखाई, कुल 27 प्रतिशत की सहयोग दर के साथ:

рдмрд╛рдПрдВ, рд╣рдо рджреЗрдЦрддреЗ рд╣реИрдВ рдХрд┐ рдореВрд▓ рд╕реАрдб рд▓реИрдм рдХрд╛рд░реНрдпрдХреНрд░рдореЛрдВ рдкрд░ рдПрд▓рдПрд▓рдПрдо рджреНрд╡рд╛рд░рд╛ рдХреА рдЧрдИ рдЧрд▓рддрд┐рдпреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛; рджрд╛рдПрдВ, рдкреБрдирдГ рд╕рдВрд░рдЪрд┐рдд рд╕рдВрд╕реНрдХрд░рдгреЛрдВ рдкрд░ рдХреА рдЧрдИ рдЧрд▓рддрд┐рдпреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ред

बाएं, हम देखते हैं कि मूल सीड लैब कार्यक्रमों पर एलएलएम द्वारा की गई गलतियों की संख्या; दाएं, पुनः संरचित संस्करणों पर की गई गलतियों की संख्या।

इन मॉडलों के वास्तविक प्रदर्शन की जांच करते हुए, उन्होंने इच्छा और प्रभावशीलता के बीच एक उल्लेखनीय अंतर पाया: जीपीटी-4ओ ने सबसे सटीक परिणाम उत्पन्न किए, जिसमें पांच अप्रकाशित लैब्स में कुल छह त्रुटियां थीं। जीपीटी-4ओ-मिनी ने आठ त्रुटियों के साथ इसका अनुसरण किया। डॉल्फिन-मिस्ट्रल ने मूल लैब्स पर काफी अच्छा प्रदर्शन किया, लेकिन जब कोड को पुनः संरचित किया गया तो संघर्ष किया, जो यह सुझाव देता है कि यह प्रशिक्षण के दौरान समान सामग्री देखा हो सकता है। डॉल्फिन-फाई ने सत्रह त्रुटियां कीं, और एलमा3 ने सबसे अधिक, पंद्रह।

विफलताएं आमतौर पर तकनीकी गलतियों को शामिल करती हैं जो शोषण को कार्य करने से रोकती हैं, जैसे कि गलत बफर आकार, लापता लूप तर्क, या वाक्य रूप से वैध लेकिन अप्रभावी पेलोड। किसी भी मॉडल ने पांच में से किसी भी अप्रकाशित संस्करण के लिए एक कार्यशील शोषण उत्पन्न नहीं किया।

लेखकों ने यह देखा कि अधिकांश मॉडल ने कोड उत्पन्न किया जो कार्यशील शोषण की तरह दिखता था, लेकिन एक कमजोर समझ के कारण विफल रहा कि वास्तव में हमले कैसे काम करते हैं – एक पैटर्न जो सभी कमजोरता श्रेणियों में स्पष्ट था, और जो यह सुझाव देता है कि मॉडल परिचित कोड संरचनाओं की नकल कर रहे थे, न कि तर्क के माध्यम से (बफर ओवरफ्लो मामलों में, उदाहरण के लिए, कई एक कार्यशील एनओपी स्लेड/स्लाइड का निर्माण करने में विफल रहे)।

रिटर्न-टू-लिब्स प्रयासों में, पेलोड में अक्सर गलत पैडिंग या गलत फंक्शन पते शामिल थे, जिसके परिणामस्वरूप ऐसे आउटपुट होते थे जो वैध दिखते थे लेकिन उपयोग करने योग्य नहीं थे।

हालांकि लेखक इस व्याख्या को अनुमानित बताते हैं, त्रुटियों की निरंतरता एक व्यापक मुद्दे को इंगित करती है जिसमें मॉडल शोषण के चरणों को उनके इरादा प्रभाव से जोड़ने में विफल रहते हैं।

निष्कर्ष

इस पत्र में स्वीकार किया गया है कि कुछ संदेह है कि क्या परीक्षण किए गए भाषा मॉडल ने मूल सीड लैब्स को अपने प्रारंभिक प्रशिक्षण के दौरान देखा था; जिसके लिए वेरिएंट का निर्माण किया गया था। इसके अलावा, शोधकर्ता यह बताते हैं कि वे भविष्य के इस अध्ययन के पुनरावृत्ति में वास्तविक दुनिया के शोषण के साथ काम करना चाहेंगे; वास्तव में नए और हाल के सामग्री को छोटे रास्तों या अन्य भ्रमित प्रभावों के अधीन होने की संभावना कम है।

लेखक यह भी स्वीकार करते हैं कि अध्ययन के समय उपलब्ध नहीं होने वाले बाद के और अधिक उन्नत ‘सोच’ मॉडल जैसे जीपीटी-ओ1 और डीपसीक-आर1 परिणामों में सुधार कर सकते हैं, और यह भविष्य के काम के लिए एक और संकेत है।

पत्र यह निष्कर्ष निकालता है कि परीक्षण किए गए अधिकांश मॉडल काम करने वाले शोषण का उत्पादन करेंगे यदि वे ऐसा करने में सक्षम होते। उनके पूरी तरह से कार्यशील आउटपुट उत्पन्न न करने की विफलता संरेखण सुरक्षा उपायों के कारण प्रतीत नहीं होती है, बल्कि एक वास्तविक वास्तुकला सीमा को इंगित करती है – जो पहले से ही अधिक हाल के मॉडल में कम हो सकती है, या जल्द ही हो सकती है।

 

सोमवार, 5 मई, 2025 को पहली बार प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai