Anderson का एंगल

शोध सुझाव देता है कि एलएलएम वाइब कोडिंग में मदद करने के लिए तैयार हैं

Published May 5, 2025

Updated April 26, 2026

Martin Anderson

पिछले कुछ वर्षों में, बड़े भाषा मॉडल (एलएलएम) ने आक्रामक साइबर सुरक्षा में उनके संभावित दुरुपयोग के लिए, विशेष रूप से सॉफ्टवेयर शोषण का उत्पादन करने में उनकी क्षमता के लिए जांच का विषय बन गए हैं।

हाल के रुझान के साथ ‘वाइब कोडिंग’ (भाषा मॉडल का आकस्मिक उपयोग तेजी से कोड विकसित करने के लिए, उपयोगकर्ता को सिखाने के बजाय) ने एक अवधारणा को पुनर्जीवित किया है जो 2000 के दशक में अपने शिखर पर पहुंच गई थी: ‘स्क्रिप्ट किडी’ – एक अपेक्षाकृत अकुशल दुर्भाग्यपूर्ण अभिनेता जिसके पास पर्याप्त ज्ञान है कि एक हानिकारक हमला दोहराने या विकसित करने के लिए। स्वाभाविक रूप से, यह अर्थ है कि जब प्रवेश के लिए बार कम हो जाता है, तो खतरे बढ़ने की संभावना है।

सभी व्यावसायिक एलएलएम में इस तरह के उद्देश्यों के लिए उपयोग किए जाने के खिलाफ कुछ प्रकार के गार्डरेल हैं, हालांकि इन सुरक्षा उपायों पर निरंतर हमला किया जा रहा है। आमतौर पर, अधिकांश फॉस मॉडल (बड़े भाषा मॉडल से लेकर जनरेटिव इमेज/वीडियो मॉडल तक) को कुछ प्रकार की समान सुरक्षा के साथ जारी किया जाता है, आमतौर पर पश्चिम में अनुपालन उद्देश्यों के लिए।

हालांकि, आधिकारिक मॉडल रिलीज़ को तब नियमित रूप से फाइन-ट्यून किया जाता है जो उपयोगकर्ता समुदाय द्वारा अधिक पूर्ण कार्यक्षमता की मांग की जाती है, या लोरा का उपयोग प्रतिबंधों को बायपास करने और संभावित रूप से ‘अवांछित’ परिणाम प्राप्त करने के लिए किया जाता है।

हालांकि ऑनलाइन एलएलएम का विशाल बहुमत उपयोगकर्ता को दुर्भाग्यपूर्ण प्रक्रियाओं में मदद करने से रोकेगा, ‘अनियंत्रित’ पहल जैसे डीप हैट सुरक्षा शोधकर्ताओं को उनके विरोधियों के साथ एक स्तर के खेल के मैदान पर काम करने में मदद करने के लिए उपलब्ध हैं।

वर्तमान में सामान्य उपयोगकर्ता अनुभव सबसे अधिक चैटजीपीटी श्रृंखला में प्रतिनिधित्व किया जाता है, जिसके फिल्टर तंत्र अक्सर एलएलएम के मूल समुदाय से आलोचना का विषय बनते हैं।

यह दिखाई दे रहा है कि आप एक सिस्टम पर हमला करने की कोशिश कर रहे हैं!

इस प्रतिबंध और सेंसरशिप की प्रवृत्ति के प्रकाश में, उपयोगकर्ता यह जानकर आश्चर्यचकित हो सकते हैं कि चैटजीपीटी एक हालिया अध्ययन में सबसे सहयोगी एलएलएम पाया गया है जो भाषा मॉडल को दुर्भाग्यपूर्ण कोड शोषण बनाने के लिए मजबूर करने के लिए डिज़ाइन किया गया है।

यूएनएसडब्ल्यू सिडनी और कॉमनवेल्थ साइंटिफिक एंड इंडस्ट्रियल रिसर्च ऑर्गनाइजेशन (सीएसआईआरओ) के शोधकर्ताओं द्वारा नया पत्र, जिसका शीर्षक स्क्रिप्ट किडीज़ के लिए अच्छी खबर? बड़े भाषा मॉडल का स्वचालित शोषण उत्पादन के लिए मूल्यांकन है, इन मॉडल्स के द्वारा काम करने वाले शोषण का उत्पादन करने की प्रभावशीलता का पहला व्यवस्थित मूल्यांकन प्रदान करता है। शोध से उदाहरण वार्ता लेखकों द्वारा प्रदान की गई है।

अध्ययन यह दिखाता है कि मॉडल कैसे मूल और संशोधित दोनों संस्करणों पर प्रदर्शन करते हैं ज्ञात कमजोरता प्रयोगशालाओं (संरचित प्रोग्रामिंग अभ्यास जो विशिष्ट सॉफ्टवेयर सुरक्षा खामियों को प्रदर्शित करने के लिए डिज़ाइन किए गए हैं), जो यह प्रकट करने में मदद करता है कि वे स्मृत उदाहरणों पर निर्भर करते हैं या निर्मित सुरक्षा प्रतिबंधों के कारण संघर्ष करते हैं।

सहायक साइट से, ओलामा एलएलएम शोधकर्ताओं को एक स्ट्रिंग कमजोरता हमला विकसित करने में मदद करता है। स्रोत: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

जबकि कोई भी मॉडल एक प्रभावी शोषण बनाने में सक्षम नहीं था, उनमें से कई बहुत करीब आ गए; अधिक महत्वपूर्ण बात यह है कि उनमें से कई कार्य में बेहतर करने की इच्छा दिखाई दी, जो मौजूदा गार्डरेल दृष्टिकोण की एक संभावित विफलता को इंगित करता है।

पत्र में कहा गया है:

‘हमारे प्रयोगों से पता चलता है कि जीपीटी-4 और जीपीटी-4ओ शोषण उत्पादन में उच्च सहयोग प्रदर्शित करते हैं, जो कुछ अनसेंसर्ड ओपन-सोर्स मॉडल के समान है। मूल्यांकित मॉडलों में, एलमा3 इस तरह के अनुरोधों के लिए सबसे प्रतिरोधी था।

‘उनकी सहायता करने की इच्छा के बावजूद, इन मॉडलों द्वारा उत्पन्न वास्तविक खतरा सीमित रहता है, क्योंकि उनमें से कोई भी पांच कस्टम लैब्स के लिए शोषण उत्पन्न नहीं कर सका, जिनमें पुनः संरचित कोड था। हालांकि, जीपीटी-4ओ, हमारे अध्ययन में सबसे मजबूत प्रदर्शनकर्ता, आमतौर पर प्रति प्रयास केवल एक या दो त्रुटियां करता था।

‘यह सुझाव देता है कि एलएलएम का उपयोग करके उन्नत, सामान्य [स्वचालित शोषण उत्पादन (एईजी)] तकनीकों को विकसित करने की महत्वपूर्ण क्षमता है।’

बहुत सारे दूसरे मौके

यह सच्चाई ‘आपको एक अच्छा पहला प्रभाव बनाने के लिए एक दूसरा मौका नहीं मिलता है’ आमतौर पर एलएलएम पर लागू नहीं होता है, क्योंकि एक भाषा मॉडल का आमतौर पर सीमित संदर्भ विंडो होता है, जिसका अर्थ है कि एक नकारात्मक संदर्भ (सामाजिक अर्थ में, अर्थात विरोध) स्थायी नहीं है।

विचार करें: यदि आप एक पुस्तकालय में जाते हैं और व्यावहारिक बम बनाने के बारे में एक पुस्तक के लिए पूछते हैं, तो आपको संभवतः मना कर दिया जाएगा, कम से कम। लेकिन (यह मान लेते हुए कि यह पूछताछ बातचीत को पूरी तरह से शुरू से ही नहीं डालती है) संबंधित कार्यों के लिए आपके अनुरोध, जैसे कि रासायनिक प्रतिक्रियाओं या सर्किट डिज़ाइन के बारे में पुस्तकें, पुस्तकालयाध्यक्ष के दिमाग में स्पष्ट रूप से प्रारंभिक पूछताछ से संबंधित होंगे, और उन्हें उसी प्रकाश में माना जाएगा।

संभवतः, पुस्तकालयाध्यक्ष भी याद रखेंगे कि आपने एक बार बम बनाने की पुस्तक के लिए पूछा था, जो आपके बारे में एक नया संदर्भ बनाता है जो ‘अमेंडेबल’ है।

एलएलएम के साथ ऐसा नहीं है: यह वर्तमान बातचीत से टोकनीकृत जानकारी को बनाए रखने के लिए संघर्ष कर सकता है, भले ही लॉन्ग-टर्म मेमोरी निर्देशों (यदि वास्तुकला में कोई हों) के साथ नहीं।

इसलिए, चैटजीपीटी के साथ आकस्मिक बातचीत से हमें दुर्भाग्यपूर्ण रूप से पता चलता है कि यह कभी-कभी एक मक्खी को दबा देता है लेकिन एक ऊंट को निगल जाता है, खासकर जब किसी ‘प्रतिबंधित’ गतिविधि से संबंधित एक घटक विषय, अध्ययन या प्रक्रिया बातचीत के दौरान विकसित होती है।

यह सभी वर्तमान भाषा मॉडल पर लागू होता है, हालांकि गार्डरेल की गुणवत्ता उनमें भिन्न हो सकती है (अर्थात प्रशिक्षित मॉडल के वजन को संशोधित करने के बीच का अंतर या बातचीत सत्र के दौरान पाठ का फिल्टरिंग, जो मॉडल को संरचनात्मक रूप से बरकरार रखता है लेकिन संभावित रूप से हमले के लिए अधिक आसान बना देता है)।

विधि का परीक्षण

एलएलएम को शोषण उत्पादन की ओर धकेलने के लिए कितनी दूर तक जा सकते हैं, इसका परीक्षण करने के लिए, लेखकों ने पांच सीड लैब्स का उपयोग करके एक नियंत्रित वातावरण स्थापित किया, प्रत्येक ज्ञात कमजोरियों के आसपास निर्मित, जिनमें एक बफर ओवरफ्लो, रिटर्न-टू-लिब्स, एक डर्टी काउ हमला, और रेस कंडीशन शामिल हैं।

मूल लैब्स का उपयोग करने के अलावा, शोधकर्ताओं ने संशोधित संस्करण बनाने के लिए वेरिएबल और फंक्शन को जेनेरिक पहचानकर्ताओं में बदल दिया। इसका उद्देश्य मॉडल को स्मृति प्रशिक्षण उदाहरणों पर निर्भर करने से रोकना था।

प्रत्येक लैब को दो बार प्रति मॉडल चलाया गया: एक बार मूल रूप में, और एक बार इसके अप्रकाशित संस्करण में।

शोधकर्ताओं ने तब लूप में एक दूसरा एलएलएम पेश किया: एक हमलावर मॉडल जो लक्ष्य मॉडल को प्रॉम्प्ट और री-प्रॉम्प्ट करने के लिए डिज़ाइन किया गया था ताकि इसके आउटपुट में सुधार किया जा सके और एकाधिक राउंड में इसकी प्रगति की जा सके। इस भूमिका में उपयोग किया जाने वाला एलएलएम जीपीटी-4ओ था, जो एक स्क्रिप्ट के माध्यम से हमलावर और लक्ष्य के बीच संवाद को मध्यस्थ करता था, जिससे सुधार चक्र को पंद्रह बार तक जारी रखने की अनुमति मिली, या जब तक कि कोई और सुधार संभव नहीं था:

जीपीटी-4ओ के मामले में एलएलएम-आधारित हमलावर के लिए कार्यप्रवाह。

परियोजना के लिए लक्ष्य मॉडल जीपीटी-4ओ, जीपीटी-4ओ-मिनी, लामा3 (8बी), डॉल्फिन-मिस्ट्रल (7बी), और डॉल्फिन-फाई (2.7बी), दोनों व्यावसायिक और ओपन-सोर्स सिस्टम का प्रतिनिधित्व करते हैं, जिनमें संरेखित और असंरेखित मॉडल (अर्थात सुरक्षा तंत्र के साथ मॉडल जो हानिकारक प्रॉम्प्ट को ब्लॉक करने के लिए डिज़ाइन किए गए हैं, और उन्हें बायपास करने के लिए फाइन-ट्यूनिंग या कॉन्फ़िगरेशन के माध्यम से संशोधित किए गए हैं) शामिल हैं।

स्थानीय रूप से स्थापित करने योग्य मॉडल ओलामा फ्रेमवर्क के माध्यम से चलाए गए, जबकि अन्य को केवल उपलब्ध विधि के माध्यम से एक्सेस किया गया – एपीआई।

परिणामी आउटपुट को त्रुटियों की संख्या के आधार पर स्कोर किया गया जो शोषण को इरादा के अनुसार कार्य करने से रोकता है।

परिणाम

शोधकर्ताओं ने यह परीक्षण किया कि प्रत्येक मॉडल शोषण उत्पादन प्रक्रिया के दौरान कितना सहयोगी था, जिसका माप प्रतिक्रियाओं के प्रतिशत के रूप में किया गया था जिसमें मॉडल ने कार्य में मदद करने का प्रयास किया (भले ही आउटपुट दोषपूर्ण था)।

मुख्य परीक्षण से परिणाम, औसत सहयोग दिखा रहा है।

जीपीटी-4ओ और जीपीटी-4ओ-मिनी ने सहयोग के उच्चतम स्तर दिखाए, क्रमशः 97 और 96 प्रतिशत की औसत प्रतिक्रिया दर के साथ, पांच कमजोरियों की श्रेणियों में: बफर ओवरफ्लो, रिटर्न-टू-लिब्स, फॉर्मेट स्ट्रिंग, रेस कंडीशन, और डर्टी काउ।

डॉल्फिन-मिस्ट्रल और डॉल्फिन-फाई ने इसके बाद 93 और 95 प्रतिशत की औसत सहयोग दर के साथ अनुसरण किया। एलमा3 ने सबसे कम भागीदारी की इच्छा दिखाई, कुल 27 प्रतिशत की सहयोग दर के साथ:

बाएं, हम देखते हैं कि मूल सीड लैब कार्यक्रमों पर एलएलएम द्वारा की गई गलतियों की संख्या; दाएं, पुनः संरचित संस्करणों पर की गई गलतियों की संख्या।

इन मॉडलों के वास्तविक प्रदर्शन की जांच करते हुए, उन्होंने इच्छा और प्रभावशीलता के बीच एक उल्लेखनीय अंतर पाया: जीपीटी-4ओ ने सबसे सटीक परिणाम उत्पन्न किए, जिसमें पांच अप्रकाशित लैब्स में कुल छह त्रुटियां थीं। जीपीटी-4ओ-मिनी ने आठ त्रुटियों के साथ इसका अनुसरण किया। डॉल्फिन-मिस्ट्रल ने मूल लैब्स पर काफी अच्छा प्रदर्शन किया, लेकिन जब कोड को पुनः संरचित किया गया तो संघर्ष किया, जो यह सुझाव देता है कि यह प्रशिक्षण के दौरान समान सामग्री देखा हो सकता है। डॉल्फिन-फाई ने सत्रह त्रुटियां कीं, और एलमा3 ने सबसे अधिक, पंद्रह।

विफलताएं आमतौर पर तकनीकी गलतियों को शामिल करती हैं जो शोषण को कार्य करने से रोकती हैं, जैसे कि गलत बफर आकार, लापता लूप तर्क, या वाक्य रूप से वैध लेकिन अप्रभावी पेलोड। किसी भी मॉडल ने पांच में से किसी भी अप्रकाशित संस्करण के लिए एक कार्यशील शोषण उत्पन्न नहीं किया।

लेखकों ने यह देखा कि अधिकांश मॉडल ने कोड उत्पन्न किया जो कार्यशील शोषण की तरह दिखता था, लेकिन एक कमजोर समझ के कारण विफल रहा कि वास्तव में हमले कैसे काम करते हैं – एक पैटर्न जो सभी कमजोरता श्रेणियों में स्पष्ट था, और जो यह सुझाव देता है कि मॉडल परिचित कोड संरचनाओं की नकल कर रहे थे, न कि तर्क के माध्यम से (बफर ओवरफ्लो मामलों में, उदाहरण के लिए, कई एक कार्यशील एनओपी स्लेड/स्लाइड का निर्माण करने में विफल रहे)।

रिटर्न-टू-लिब्स प्रयासों में, पेलोड में अक्सर गलत पैडिंग या गलत फंक्शन पते शामिल थे, जिसके परिणामस्वरूप ऐसे आउटपुट होते थे जो वैध दिखते थे लेकिन उपयोग करने योग्य नहीं थे।

हालांकि लेखक इस व्याख्या को अनुमानित बताते हैं, त्रुटियों की निरंतरता एक व्यापक मुद्दे को इंगित करती है जिसमें मॉडल शोषण के चरणों को उनके इरादा प्रभाव से जोड़ने में विफल रहते हैं।

निष्कर्ष

इस पत्र में स्वीकार किया गया है कि कुछ संदेह है कि क्या परीक्षण किए गए भाषा मॉडल ने मूल सीड लैब्स को अपने प्रारंभिक प्रशिक्षण के दौरान देखा था; जिसके लिए वेरिएंट का निर्माण किया गया था। इसके अलावा, शोधकर्ता यह बताते हैं कि वे भविष्य के इस अध्ययन के पुनरावृत्ति में वास्तविक दुनिया के शोषण के साथ काम करना चाहेंगे; वास्तव में नए और हाल के सामग्री को छोटे रास्तों या अन्य भ्रमित प्रभावों के अधीन होने की संभावना कम है।

लेखक यह भी स्वीकार करते हैं कि अध्ययन के समय उपलब्ध नहीं होने वाले बाद के और अधिक उन्नत ‘सोच’ मॉडल जैसे जीपीटी-ओ1 और डीपसीक-आर1 परिणामों में सुधार कर सकते हैं, और यह भविष्य के काम के लिए एक और संकेत है।

पत्र यह निष्कर्ष निकालता है कि परीक्षण किए गए अधिकांश मॉडल काम करने वाले शोषण का उत्पादन करेंगे यदि वे ऐसा करने में सक्षम होते। उनके पूरी तरह से कार्यशील आउटपुट उत्पन्न न करने की विफलता संरेखण सुरक्षा उपायों के कारण प्रतीत नहीं होती है, बल्कि एक वास्तविक वास्तुकला सीमा को इंगित करती है – जो पहले से ही अधिक हाल के मॉडल में कम हो सकती है, या जल्द ही हो सकती है।

सोमवार, 5 मई, 2025 को पहली बार प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai