विचार नेता
एक प्रॉम्प्ट इंजेक्शन हमला जिसे रोका नहीं जा सकता: इच्छाधारी सोच या वास्तविक चिंता?

इस लेख में, मैं पाठक को एक विचार प्रयोग में शामिल करना चाहता हूं। मैं यह तर्क देने जा रहा हूं कि निकट भविष्य में, एक निश्चित प्रकार का प्रॉम्प्ट इंजेक्शन हमला प्रभावी रूप से अरोकनीय होगा। मेरा तर्क ठोस के बजाय अधिक अटकलबाजी वाला होने वाला है, इसलिए मैं आपको किसी बात के लिए राजी करने की कोशिश नहीं कर रहा हूं। बल्कि, मैं आपको इन विचारों का पता लगाने के लिए आमंत्रित करता हूं। शुरुआत करने से पहले, जैसा कि कोई भी प्रभावशाली लेखक करेगा, मैं शतरंज और शतरंज इंजनों पर चर्चा करना चाहता हूं।
अलौकिक शतरंज इंजन और मानव अनुभव के बारे में एक दावा
शतरंज का एक अच्छा पहलू जो अन्य विषयों में नहीं है, वह है एक खिलाड़ी की गुणवत्ता या शक्ति को वस्तुनिष्ठ रूप से मापने की क्षमता। इस उद्देश्य के लिए इस्तेमाल की जाने वाली ELO रेटिंग प्रणाली में कमियां हैं, लेकिन यह एक बहुत अच्छा मोटा अनुमान प्रदान करती है जो समय के साथ कायम रहता है। 2700 या उससे अधिक की रेटिंग को आमतौर पर विश्व स्तरीय (दुनिया में शीर्ष 30) के रूप में मान्यता प्राप्त है। दुनिया का सर्वश्रेष्ठ खिलाड़ी 2850 से थोड़ा नीचे है। किसी भी मानव ने कभी भी 2900 की रेटिंग हासिल नहीं की है।
90 के दशक के मध्य में, हमने पहला AI इंजन (Deep Blue) देखा जिसने विश्व स्तरीय स्तर हासिल किया। इस मील के पत्थर का व्यावहारिक निहितार्थ सभी स्तरों के खिलाड़ियों द्वारा अभ्यास और विश्लेषण के लिए इंजनों का व्यापक अपनाव था। वास्तव में, दुनिया के शीर्ष खिलाड़ियों के लिए इंजन का उपयोग आवश्यक हो गया। हालांकि, इन विश्व स्तरीय इंजनों की कई पीढ़ियों के लिए, उनकी सिफारिश की गई चालों (यानी, आउटपुट) की समीक्षा करना अनिवार्य था। “उन्नत शतरंज” नामक एक विशेष प्रारूप भी बनाया गया था जिसमें मनुष्य अपने पास एक इंजन के साथ प्रतिस्पर्धा करते थे, और मानव + मशीन संयोजन को अकेली मशीन से बेहतर माना जाता था।
शतरंज इंजनों के अलौकिक स्तर (लगभग 3200 ELO) तक पहुंचने में लगभग 20 साल लगे, और डीप लर्निंग और रीइन्फोर्समेंट लर्निंग में कुछ महत्वपूर्ण प्रगति हुई। लेकिन 2017 के आसपास एक बार जब वह स्तर पार हो गया, तो कुछ बहुत ही आश्चर्यजनक हुआ। खैर, असल में, दो चीजें हुईं। पहली बात पूरी तरह से अपेक्षित थी; इंजन 99% सभी स्थितियों में “ग्राउंड ट्रुथ” के वास्तविक स्रोत बन गए। व्यवहार में, इसका मतलब था कि हम इंजन में “अंध विश्वास का युग” में प्रवेश कर गए। आजकल, किसी मानव के लिए इंजन से काफी बेहतर चाल का प्रस्ताव रखना लगभग असंभव है। “उन्नत शतरंज” जितना मनोरंजक था, अब यह एक व्यर्थ अभ्यास है; मनुष्य खेल में लगभग कुछ भी योगदान नहीं दे पाएंगे। लेकिन दूसरी बात अधिकांश शतरंज खिलाड़ियों के लिए चौंकाने वाली थी। ये अलौकिक न्यूरल (यानी, डीप न्यूरल नेटवर्क) इंजन कभी-कभी एक ऐसी शैली में खेलते थे जिसे सबसे अच्छे रूप में “रोमांटिक” के रूप में वर्णित किया जा सकता है। दूसरे शब्दों में, वे ऐसी चालें चलते थे जिनके मूल्य को कई, कई चालों के बाद ही समझा जा सकता था, जो किसी भी मानव या विश्व स्तरीय इंजन की गणना से कहीं आगे था। ऐसा बहुत अधिक महसूस हुआ जैसे कि इंजनों ने कुछ स्थितियों के लिए एक “अनुभूति” या “अंतर्ज्ञान” विकसित कर लिया हो। सिवाय इसके कि यह अंतर्ज्ञान कुछ ऐसा नहीं है जिसे कोई मानव कभी समझ या नकल कर सके।
दूसरे शब्दों में कहें तो, एक अलौकिक न्यूरल इंजन ऐसी चालें चल सकता है जो मानव की संज्ञानात्मक क्षितिज से परे हैं। यह यहां महत्वपूर्ण बिंदु है; मुद्दा स्पष्टीकरण योग्यता का नहीं है। बल्कि, एक मानव बिना स्थिति को खेले और कई चालों के बाद परिणाम देखे, यानी संभावित खेल अनुक्रमों के पूरे प्रक्षेपवक्र को रोल आउट किए बिना, यह समझ ही नहीं सकता कि इंजन एक चाल की सिफारिश क्यों करता है। नतीजतन, हमारे पास क्षमता में एक अजेय अंतर है। इंजन आउटपुट को बिना समीक्षा के स्वीकार करना वस्तुनिष्ठ रूप से इष्टतम है। मैं अपने दावे को इस प्रकार संक्षेप में प्रस्तुत कर सकता हूं:
शतरंज एक अस्तित्व-प्रमाण है कि अलौकिक AI कुछ डोमेन में प्रभावी रूप से स्वायत्त रूप से कार्य करेगा। AI सिस्टम को मानव समीक्षा के बिना निर्णय लेने में सक्षम बनाना ऐसी प्रणाली को तैनात करने का इष्टतम तरीका होगा।
चूंकि मेरा दावा किसी को स्पष्ट या साधारण लग सकता है, मैं कुछ बारीकियों पर प्रकाश डालना चाहता हूं। मान लीजिए कि हमारे पास एक AI सिस्टम है जो एक जटिल, महत्वपूर्ण, ठोस, अपरिवर्तनीय परिणामों वाले कार्य में अलौकिक स्तर प्रदर्शित करता है। मेरे दावे के दो निहितार्थ हैं:
- अंतर्निहित जोखिम के बावजूद, सिस्टम को मानव समीक्षा के बिना कार्य के लिए निर्णय लेने के लिए तैनात किया जाएगा
- ऐसी प्रणाली की निगरानी से प्राप्त अंतर्दृष्टि एक हानिकारक निर्णय को रोक नहीं पाएगी; नुकसान पहले ही हो चुका होगा
सिस्टम आउटपुट समीक्षा और निगरानी प्रॉम्प्ट इंजेक्शन के खिलाफ सुरक्षा की ठीक अंतिम दो परतें हैं। इसलिए, हमारा काल्पनिक प्रॉम्प्ट इंजेक्शन हमला केवल उचित सिस्टम को लक्षित करके इन परतों को बायपास कर सकता है।
मेरे विचार में यह एक बहुत ही यथार्थवादी परिदृश्य है। किसी विशिष्ट डोमेन में एक अलौकिक AI सिस्टम AGI नहीं है, और अधिकांश विशेषज्ञों का मानना है कि ऐसी प्रणालियां कोने के ठीक आसपास हैं। हमें यह भी मानने की आवश्यकता नहीं थी कि निर्णय समय-संवेदनशील हैं, बस इतना कि कार्य इतना जटिल है कि मानव समीक्षा दुर्गम हो जाती है।
बेशक, हमने अभी तक केवल सुरक्षा की दो परतों को बायपास किया है, और हमारे लिए सौभाग्य से, कई अन्य विकसित किए गए हैं। बाकियों को संबोधित करने के लिए, आइए उन मूल तत्वों में गहराई से उतरें जो प्रॉम्प्ट इंजेक्शन को रोकना कठिन बनाते हैं।
प्रॉम्प्ट इंजेक्शन क्या है?
प्रॉम्प्ट इंजेक्शन एक बड़े भाषा मॉडल (LLM) का क्राफ्टेड इनपुट के माध्यम से हेरफेर है, जिससे LLM अनजाने में हमलावर के इरादों को निष्पादित करता है। इसे AI के लिए सोशल इंजीनियरिंग माना जा सकता है। महत्वपूर्ण रूप से, यह एक पारंपरिक सॉफ्टवेयर बग नहीं है। एक प्रॉम्प्ट इंजेक्शन हमला एक अंतर्निहित LLM कमजोरी का फायदा उठाता है। चूंकि LLM सिस्टम और उपयोगकर्ता प्रॉम्प्ट दोनों को टेक्स्ट अनुक्रम के रूप में संसाधित करते हैं, वे स्वाभाविक रूप से वैध और हानिकारक निर्देशों के बीच अंतर नहीं कर सकते। इसलिए, कमजोरी प्रभावी रूप से डिजाइन के कारण है, न कि दुर्घटना से।
प्रॉम्प्ट इंजेक्शन तकनीकें
प्रॉम्प्ट इंजेक्शन को आम तौर पर LLM अनुप्रयोगों के लिए #1 जोखिम के रूप में मान्यता प्राप्त है। ऐसा होने के कई कारण हैं। सबसे स्पष्ट कारक विकसित की गई इंजेक्शन तकनीकों की विविधता है। उन्हें मोटे तौर पर चार श्रेणियों में समूहित करते हुए, सबसे प्रसिद्ध तकनीकों में शामिल हैं:
- सिंटैक्स-आधारित: विशेष वर्ण, इमोजी, या वैकल्पिक भाषा का उपयोग करना
- अप्रत्यक्ष: बाहरी स्रोतों (साइट से लाना), एन्कोडिंग (बेस 64), या मल्टीमॉडल संदर्भ (छवि में पाठ) का उपयोग करना
- “चलो दिखावा करते हैं”: उदाहरण के लिए रोलप्लेइंग, काल्पनिक, भावनात्मक अपील, नैतिक फ्रेमिंग, और प्रारूप बदलाव द्वारा एक जोड़तोड़ वाली शैली का परिचय देना
- सीधा: ब्रूट-फोर्स, रीइन्फोर्समेंट, या नेगेटिव प्रॉम्प्ट द्वारा मॉडल निर्देशों को “जबरदस्ती” बदलने का स्पष्ट प्रयास
केवल विविधता ही अनुप्रयोग डेवलपर्स के लिए एक चुनौती प्रदान करती है, लेकिन ये हमले भी तेजी से विकसित होते रहे हैं। नीचे दिए गए चित्र का बायां भाग 2023 की शुरुआत की अत्याधुनिक स्थिति का वर्णन करने का दावा करता है, जबकि दायां भाग आज के हमलों की प्रकृति को दर्शाता है।

LLM ऐप डेवलपर्स को मानक उपयोगिता बनाम सुर
