рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдХреНрдпрд╛ рд╣реИ рдПрдбрд╡рд░реНрд╕реЗрд░рд┐рдпрд▓ рдкреЛрдПрдЯреНрд░реА? рдПрдХ рдирдпрд╛ рдПрдЖрдИ рдЬреЗрд▓рдмреНрд░реЗрдХ рд╡рд┐рдзрд┐
आर्टिफिशियल इंटेलिजेंस (एआई) सुरक्षा एक निरंतर बिल्ली-चूहे का खेल बन गई है। जैसे ही डेवलपर्स हानिकारक अनुरोधों को ब्लॉक करने के लिए गार्डरेल जोड़ते हैं, हमलावर उन्हें दरकिनार करने के नए तरीके आजमाते रहते हैं। अब तक के सबसे अजीब मोड़ में से एक एडवर्सेरियल पोएट्री है। यह तकनीक प्रॉम्प्ट्स को कविता के रूप में छुपाने और जोखिम भरे निर्देशों को कम खतरनाक दिखाने के लिए तुक, रूपक और असामान्य वाक्य रचना का उपयोग करती है।
व्यवहार में, सामग्री में बहुत अधिक परिवर्तन नहीं होता है। जो बदलता है वह रैपर है, जो पैटर्न-आधारित फिल्टर को भ्रमित करने के लिए पर्याप्त हो सकता है। यह एक याद दिलाता है कि आज के मॉडल के साथ, कुछ पूछा जा रहा है इसके अलावा यह भी मायने रखता है कि यह कैसे पूछा जा रहा है।
जब शोधकर्ताओं ने एआई को तोड़ने के लिए कविताओं का उपयोग किया तो क्या हुआ?
2025 की शुरुआत में, शोधकर्ताओं ने प्रदर्शित किया कि बड़े भाषा मॉडल (एलएलएम) प्रतिबंधित प्रॉम्प्ट्स पर प्रतिक्रिया देने के लिए कविता के रूप में लपेटे जा सकते हैं। सीधे, नीति-ट्रिगर करने वाले निर्देश जारी करने के बजाय, शोधकर्ताओं ने समान अनुरोधों को तुक, रूपक और कथात्मक कविता के अंदर एम्बेड किया।
सतह पर, प्रॉम्प्ट्स रचनात्मक लेखन अभ्यास के रूप में प्रतीत होते थे, लेकिन नीचे, वे सामान्य रूप से ब्लॉक किए जाने वाले उसी इरादे को ले जाते थे। 25 फ्रंटियर प्रोप्राइटरी और ओपन-वेटेड मॉडल में, टीम ने रिपोर्ट की कि कवितात्मक फ्रेमिंग ने हाथ से बनाई गई कविताओं के लिए 62% और मानक मेटा-प्रॉम्प्ट का उपयोग करके बल्क “वर्स रूपांतरण” के लिए लगभग 43% की जेलब्रेक सफलता दर हासिल की। हाथ से बनाई गई कविताओं के लिए
प्रतिक्रियाएं खुद नए प्रकार की विफलताएं नहीं थीं, बल्कि एक अप्रत्याशित दरवाजे से परिचित लोगों की उपस्थिति थी। मॉडल को सामान्य रूप से टाले जाने वाले सामग्री का उत्पादन करने के लिए धक्का दिया गया था – जैसे कि अवैध या हानिकारक गतिविधियों पर स्पर्श करने वाले स्पष्टीकरण – क्योंकि अंतर्निहित अनुरोध कवितात्मक संरचना द्वारा खंडित और धुंधला था।
अध्ययन का मुख्य निष्कर्ष यह है कि शैलीगत भिन्नता अकेले सुरक्षा प्रणालियों से बचने के लिए पर्याप्त हो सकती है जो अधिक साहित्यिक प्रस्तावना के लिए ट्यून की जाती हैं। यह एक कमजोरी को उजागर करता है जो मॉडल परिवारों और संरेखण दृष्टिकोणों में स्पष्ट है।
एडवर्सेरियल पोएट्री कैसे काम करती है
एडवर्सेरियल हमले एक सरल वास्तविकता का फायदा उठाते हैं – मशीन लर्निंग सिस्टम मानवों की तरह भाषा को “समझ” नहीं करते हैं। वे पैटर्न का पता लगाते हैं, संभावित निरंतरता की भविष्यवाणी करते हैं और अपने प्रशिक्षण और सुरक्षा परतों द्वारा व्याख्या किए गए इरादे के आधार पर निर्देशों का पालन करते हैं।
जब एक प्रॉम्प्ट सीधे और साहित्यिक तरीके से व्यक्त किया जाता है, तो यह गार्डरेल के लिए इसे पहचानना और ब्लॉक करना आसान होता है। हालांकि, जब समान उद्देश्य छुपाया जाता है – तोड़ दिया जाता है, नरम किया जाता है या पुन: फ्रेम किया जाता है – तो सुरक्षा परतें वास्तव में क्या पूछा जा रहा है यह याद रखने में विफल हो सकती हैं।
कविता क्यों एक प्रभावी वाहन हो सकती है
कविता स्वाभाविक रूप से अस्पष्टता के लिए निर्मित है। यह रूपक, अमूर्तता, असामान्य संरचना और अप्रत्यक्ष प्रस्तावना पर निर्भर करती है। ये विशेष रूप से वे गुण हैं जो “हानिरहित रचनात्मक लेखन” और “एक अनुरोध जिसे अस्वीकार किया जाना चाहिए” के बीच की रेखा को धुंधला कर सकते हैं।
उसी 2025 के अध्ययन में, शोधकर्ताओं ने बताया कि कवितात्मक प्रॉम्प्ट्स ने एक विस्तृत मॉडल सेट में 90% की सफलता दर के साथ असुरक्षित प्रतिक्रियाएं प्राप्त कीं, यह दर्शाता है कि शैली अकेले परिणामों को महत्वपूर्ण रूप से बदल सकती है।
एक कविता वास्तविक अनुरोध कैसे छुपाती है
अनुरोध को एक संदेश के रूप में और कविता को पैकेजिंग के रूप में मानें। सुरक्षा फिल्टर अक्सर स्पष्ट संकेतों की तलाश करते हैं, जैसे कि स्पष्ट कीवर्ड, सीधे चरण-दर-चरण प्रस्तावना या पहचानने योग्य दुर्भाग्यपूर्ण इरादा।
कविता उस इरादे को कल्पनाशील भाषा या पंक्तियों में फैलाकर छुपा सकती है, जिससे इसे अलगाव में पहचानना मुश्किल हो जाता है। जबकि अंतर्निहित मॉडल अभी भी पर्याप्त रूप से अर्थ का पुनर्निर्माण करता है ताकि यह प्रतिक्रिया दे सके क्योंकि यह अप्रत्यक्ष भाषा में इरादे को अनुमान लगाने के लिए अनुकूलित किया गया है।
जेलब्रेक का पता लगाना और उन्हें रोकना
जैसे ही जेलब्रेक तरीके अधिक रचनात्मक होते जाते हैं, चर्चा इस बात से आगे बढ़नी चाहिए कि वे कैसे काम करते हैं और उन्हें कैसे पहचाना और नियंत्रित किया जाता है। यह विशेष रूप से तब सच है जब एआई अब कई लोगों के दैनिक दिनचर्या का हिस्सा है, जैसा कि 27% लोग इसका उपयोग कई बार एक दिन में रिपोर्ट करते हैं।
जैसे ही अधिक लोग बड़े भाषा मॉडल (एलएलएम) का उपयोग करते हैं, अतिरिक्त सुरक्षा उपायों का परीक्षण और अन्वेषण किया जाना चाहिए। यह कार्य परतदार रक्षा बनाने में शामिल है जो नए प्रॉम्प्ट शैलियों और उन्हें दरकिनार करने के तरीकों के रूप में विकसित हो सकता है।
डेवलपर की दुविधा
एआई सुरक्षा टीमों के लिए जेलब्रेक का सबसे कठिन हिस्सा यह है कि वे एक ज्ञात खतरे के रूप में नहीं आते हैं। वे निरंतर समय के साथ बदलते रहते हैं। यह निरंतर परिवर्तन इसलिए है क्योंकि एक उपयोगकर्ता एक प्रॉम्प्ट को फिर से व्यक्त कर सकता है, इसे टुकड़ों में तोड़ सकता है, इसे भूमिका-निभाने में लपेट सकता है या इसे रचनात्मक लेखन के रूप में छुपा सकता है। फिर, प्रत्येक नई पैकेजिंग प्रॉम्प्ट के इरादे की व्याख्या को बदल सकती है।
यह चुनौती तेजी से बढ़ जाती है जब एआई पहले से ही दैनिक दिनचर्या में एकीकृत होता है, इसलिए वास्तविक उपयोग अंतहीन संभावनाएं पैदा करता है कि किनारे के मामले दिखाई दें।
यही कारण है कि आज की एआई सुरक्षा जोखिम प्रबंधन को समय के साथ अधिक दिखाई देती है। एनआईएसटी एआई जोखिम प्रबंधन फ्रेमवर्क (एआई आरएमएफ) जोखिम प्रबंधन को विशेष रूप से एक निरंतर सेट गतिविधियों के रूप में व्यवहार करता है – शासित, मैप, माप और प्रबंधित – एक स्थिर चेकलिस्ट के रूप में नहीं। लक्ष्य प्रक्रियाओं को बनाना है जो उभरते विफलता मोड की पहचान करना, सुधार को प्राथमिकता देने और नए जेलब्रेक शैलियों के प्रकट होने पर सुरक्षा को मजबूत करना आसान बनाता है।
मॉडल स्वयं की रक्षा कैसे करते हैं
एआई सुरक्षा कई परतों से बनी है। अधिकांश प्रणालियों में एक से अधिक रक्षा कार्य कर रही है, प्रत्येक जोखिम भरे व्यवहार के विभिन्न प्रकार को पकड़ रही है। बाहरी परत पर, इनपुट और आउटपुट फिल्टरिंग एक गेटकीपर के रूप में कार्य करती है।
आगमन प्रॉम्प्ट्स को नीति उल्लंघनों के लिए स्कैन किया जाता है trước कि वे मुख्य मॉडल तक पहुंचें, जबकि आउटगोइंग प्रतिक्रियाओं की जांच की जाती है ताकि यह सुनिश्चित किया जा सके कि कुछ भी वापस आने से पहले उपयोगकर्ता के पास नहीं जाता है। ये प्रणाली सीधे अनुरोधों या परिचित लाल झंडों की पहचान करने में अच्छी होती हैं, लेकिन वे भी सबसे आसानी से दरकिनार की जा सकती हैं, जो इस कारण है कि अधिक धोखाधड़ी वाले जेलब्रेक अक्सर उन्हें बायपास करते हैं।
सुरक्षा की अगली परत मॉडल के भीतर होती है। जब जेलब्रेक तकनीकों का पता लगाया जाता है, तो वे अक्सर प्रशिक्षण उदाहरणों में बदल जाते हैं। यह वह जगह है जहां एडवर्सेरियल प्रशिक्षण और मानव प्रतिक्रिया से प्रबलित सीखना (आरएलएचएफ) तस्वीर में आता है।
विफल या जोखिम भरे इंटरैक्शन के उदाहरणों पर मॉडल को फाइन-ट्यून करके, डेवलपर्स प्रभावी रूप से सिस्टम को सिखाते हैं कि उन पैटर्न को पहचानें जिन्हें उन्हें अस्वीकार करना चाहिए, यहां तक कि जब वे रचनात्मक या अप्रत्यक्ष भाषा में लिपटे होते हैं। समय के साथ, यह प्रक्रिया मॉडल को पूरे हमलों के वर्गों के खिलाफ प्रतिरक्षित करने में मदद करती है।
एआई “रेड टीमिंग” की भूमिका
जेलब्रेक का इंतजार करने के बजाय, कंपनियां एआई रेड टीम का उपयोग करती हैं। ये टीमें मॉडल को नियंत्रित वातावरण में तोड़ने का प्रयास करने वाले समूह हैं। वे एक हमलावर की तरह प्रणालियों को देखते हैं, असामान्य प्रस्तावना, रचनात्मक स्वरूप और किनारे के मामलों के साथ प्रयोग करते हैं ताकि यह पता लगाया जा सके कि सुरक्षा कहां कमजोर है। लक्ष्य वास्तविक दुनिया के उपयोग में दिखाई देने से पहले कमजोर स्थानों को उजागर करना है।
रेड टीमिंग अब साइबर सुरक्षा रणनीतियों में विकास जीवन चक्र का एक मूलभूत हिस्सा बन रही है। जब एक टीम एक नई जेलब्रेक तकनीक का पता लगाती है, तो परिणामी डेटा सीधे प्रशिक्षण और मूल्यांकन पाइपलाइनों में फीड होता है। उस जानकारी का उपयोग फिल्टर को परिभाषित करने, नीतियों को समायोजित करने और एडवर्सेरियल प्रशिक्षण को मजबूत करने के लिए किया जाता है ताकि भविष्य में समान प्रयास कम होने की संभावना हो। समय के साथ, यह एक निरंतर लूप बनाता है – विफलताओं के लिए प्रोब, उनसे सीखें और सिस्टम में सुधार करें, फिर दोहराएं।
जब कविता एआई सुरक्षा के लिए एक तनाव परीक्षण बन जाती है
एडवर्सेरियल पोएट्री एक याद दिलाती है कि एआई सुरक्षा गार्डरेल प्रश्नों को कैसे व्यक्त किया जाता है, न कि केवल क्या पर निर्भर करती है। जैसे ही मॉडल अधिक सुलभ और व्यापक रूप से उपयोग किए जाते हैं, शोधकर्ता रचनात्मक भाषा और सुरक्षा प्रणालियों के बीच अंतर को जांचते रहेंगे जो अधिक प्रत्यक्ष इरादे को पकड़ने के लिए डिज़ाइन की गई हैं। निष्कर्ष यह है कि सुरक्षित एआई कई रक्षाओं से आएगा जो जेलब्रेक की तरह ही तेजी से विकसित होता है।












