Connect with us

एक प्रॉम्प्ट इंजेक्शन हमला जिसे रोका नहीं जा सकता: इच्छाधारी सोच या वास्तविक चिंता?

विचार नेता

एक प्रॉम्प्ट इंजेक्शन हमला जिसे रोका नहीं जा सकता: इच्छाधारी सोच या वास्तविक चिंता?

mm
A digital 3D render of a dark server room with a computer monitor displaying a

इस लेख में, मैं पाठक को एक विचार प्रयोग में शामिल करना चाहता हूं। मैं यह तर्क देने जा रहा हूं कि निकट भविष्य में, एक निश्चित प्रकार का प्रॉम्प्ट इंजेक्शन हमला प्रभावी रूप से अरोकनीय होगा। मेरा तर्क ठोस के बजाय अधिक अटकलबाजी वाला होने वाला है, इसलिए मैं आपको किसी बात के लिए राजी करने की कोशिश नहीं कर रहा हूं। बल्कि, मैं आपको इन विचारों का पता लगाने के लिए आमंत्रित करता हूं। शुरुआत करने से पहले, जैसा कि कोई भी प्रभावशाली लेखक करेगा, मैं शतरंज और शतरंज इंजनों पर चर्चा करना चाहता हूं।

अलौकिक शतरंज इंजन और मानव अनुभव के बारे में एक दावा

शतरंज का एक अच्छा पहलू जो अन्य विषयों में नहीं है, वह है एक खिलाड़ी की गुणवत्ता या शक्ति को वस्तुनिष्ठ रूप से मापने की क्षमता। इस उद्देश्य के लिए इस्तेमाल की जाने वाली ELO रेटिंग प्रणाली में कमियां हैं, लेकिन यह एक बहुत अच्छा मोटा अनुमान प्रदान करती है जो समय के साथ कायम रहता है। 2700 या उससे अधिक की रेटिंग को आमतौर पर विश्व स्तरीय (दुनिया में शीर्ष 30) के रूप में मान्यता प्राप्त है। दुनिया का सर्वश्रेष्ठ खिलाड़ी 2850 से थोड़ा नीचे है। किसी भी मानव ने कभी भी 2900 की रेटिंग हासिल नहीं की है।

90 के दशक के मध्य में, हमने पहला AI इंजन (Deep Blue) देखा जिसने विश्व स्तरीय स्तर हासिल किया। इस मील के पत्थर का व्यावहारिक निहितार्थ सभी स्तरों के खिलाड़ियों द्वारा अभ्यास और विश्लेषण के लिए इंजनों का व्यापक अपनाव था। वास्तव में, दुनिया के शीर्ष खिलाड़ियों के लिए इंजन का उपयोग आवश्यक हो गया। हालांकि, इन विश्व स्तरीय इंजनों की कई पीढ़ियों के लिए, उनकी सिफारिश की गई चालों (यानी, आउटपुट) की समीक्षा करना अनिवार्य था। “उन्नत शतरंज” नामक एक विशेष प्रारूप भी बनाया गया था जिसमें मनुष्य अपने पास एक इंजन के साथ प्रतिस्पर्धा करते थे, और मानव + मशीन संयोजन को अकेली मशीन से बेहतर माना जाता था।

शतरंज इंजनों के अलौकिक स्तर (लगभग 3200 ELO) तक पहुंचने में लगभग 20 साल लगे, और डीप लर्निंग और रीइन्फोर्समेंट लर्निंग में कुछ महत्वपूर्ण प्रगति हुई। लेकिन 2017 के आसपास एक बार जब वह स्तर पार हो गया, तो कुछ बहुत ही आश्चर्यजनक हुआ। खैर, असल में, दो चीजें हुईं। पहली बात पूरी तरह से अपेक्षित थी; इंजन 99% सभी स्थितियों में “ग्राउंड ट्रुथ” के वास्तविक स्रोत बन गए। व्यवहार में, इसका मतलब था कि हम इंजन में “अंध विश्वास का युग” में प्रवेश कर गए। आजकल, किसी मानव के लिए इंजन से काफी बेहतर चाल का प्रस्ताव रखना लगभग असंभव है। “उन्नत शतरंज” जितना मनोरंजक था, अब यह एक व्यर्थ अभ्यास है; मनुष्य खेल में लगभग कुछ भी योगदान नहीं दे पाएंगे। लेकिन दूसरी बात अधिकांश शतरंज खिलाड़ियों के लिए चौंकाने वाली थी। ये अलौकिक न्यूरल (यानी, डीप न्यूरल नेटवर्क) इंजन कभी-कभी एक ऐसी शैली में खेलते थे जिसे सबसे अच्छे रूप में “रोमांटिक” के रूप में वर्णित किया जा सकता है। दूसरे शब्दों में, वे ऐसी चालें चलते थे जिनके मूल्य को कई, कई चालों के बाद ही समझा जा सकता था, जो किसी भी मानव या विश्व स्तरीय इंजन की गणना से कहीं आगे था। ऐसा बहुत अधिक महसूस हुआ जैसे कि इंजनों ने कुछ स्थितियों के लिए एक “अनुभूति” या “अंतर्ज्ञान” विकसित कर लिया हो। सिवाय इसके कि यह अंतर्ज्ञान कुछ ऐसा नहीं है जिसे कोई मानव कभी समझ या नकल कर सके।

दूसरे शब्दों में कहें तो, एक अलौकिक न्यूरल इंजन ऐसी चालें चल सकता है जो मानव की संज्ञानात्मक क्षितिज से परे हैं। यह यहां महत्वपूर्ण बिंदु है; मुद्दा स्पष्टीकरण योग्यता का नहीं है। बल्कि, एक मानव बिना स्थिति को खेले और कई चालों के बाद परिणाम देखे, यानी संभावित खेल अनुक्रमों के पूरे प्रक्षेपवक्र को रोल आउट किए बिना, यह समझ ही नहीं सकता कि इंजन एक चाल की सिफारिश क्यों करता है। नतीजतन, हमारे पास क्षमता में एक अजेय अंतर है। इंजन आउटपुट को बिना समीक्षा के स्वीकार करना वस्तुनिष्ठ रूप से इष्टतम है। मैं अपने दावे को इस प्रकार संक्षेप में प्रस्तुत कर सकता हूं:

शतरंज एक अस्तित्व-प्रमाण है कि अलौकिक AI कुछ डोमेन में प्रभावी रूप से स्वायत्त रूप से कार्य करेगा। AI सिस्टम को मानव समीक्षा के बिना निर्णय लेने में सक्षम बनाना ऐसी प्रणाली को तैनात करने का इष्टतम तरीका होगा।

चूंकि मेरा दावा किसी को स्पष्ट या साधारण लग सकता है, मैं कुछ बारीकियों पर प्रकाश डालना चाहता हूं। मान लीजिए कि हमारे पास एक AI सिस्टम है जो एक जटिल, महत्वपूर्ण, ठोस, अपरिवर्तनीय परिणामों वाले कार्य में अलौकिक स्तर प्रदर्शित करता है। मेरे दावे के दो निहितार्थ हैं:

  1. अंतर्निहित जोखिम के बावजूद, सिस्टम को मानव समीक्षा के बिना कार्य के लिए निर्णय लेने के लिए तैनात किया जाएगा
  2. ऐसी प्रणाली की निगरानी से प्राप्त अंतर्दृष्टि एक हानिकारक निर्णय को रोक नहीं पाएगी; नुकसान पहले ही हो चुका होगा

सिस्टम आउटपुट समीक्षा और निगरानी प्रॉम्प्ट इंजेक्शन के खिलाफ सुरक्षा की ठीक अंतिम दो परतें हैं। इसलिए, हमारा काल्पनिक प्रॉम्प्ट इंजेक्शन हमला केवल उचित सिस्टम को लक्षित करके इन परतों को बायपास कर सकता है।

मेरे विचार में यह एक बहुत ही यथार्थवादी परिदृश्य है। किसी विशिष्ट डोमेन में एक अलौकिक AI सिस्टम AGI नहीं है, और अधिकांश विशेषज्ञों का मानना है कि ऐसी प्रणालियां कोने के ठीक आसपास हैं। हमें यह भी मानने की आवश्यकता नहीं थी कि निर्णय समय-संवेदनशील हैं, बस इतना कि कार्य इतना जटिल है कि मानव समीक्षा दुर्गम हो जाती है।

बेशक, हमने अभी तक केवल सुरक्षा की दो परतों को बायपास किया है, और हमारे लिए सौभाग्य से, कई अन्य विकसित किए गए हैं। बाकियों को संबोधित करने के लिए, आइए उन मूल तत्वों में गहराई से उतरें जो प्रॉम्प्ट इंजेक्शन को रोकना कठिन बनाते हैं।

प्रॉम्प्ट इंजेक्शन क्या है?

प्रॉम्प्ट इंजेक्शन एक बड़े भाषा मॉडल (LLM) का क्राफ्टेड इनपुट के माध्यम से हेरफेर है, जिससे LLM अनजाने में हमलावर के इरादों को निष्पादित करता है। इसे AI के लिए सोशल इंजीनियरिंग माना जा सकता है। महत्वपूर्ण रूप से, यह एक पारंपरिक सॉफ्टवेयर बग नहीं है। एक प्रॉम्प्ट इंजेक्शन हमला एक अंतर्निहित LLM कमजोरी का फायदा उठाता है। चूंकि LLM सिस्टम और उपयोगकर्ता प्रॉम्प्ट दोनों को टेक्स्ट अनुक्रम के रूप में संसाधित करते हैं, वे स्वाभाविक रूप से वैध और हानिकारक निर्देशों के बीच अंतर नहीं कर सकते। इसलिए, कमजोरी प्रभावी रूप से डिजाइन के कारण है, न कि दुर्घटना से।

प्रॉम्प्ट इंजेक्शन तकनीकें

प्रॉम्प्ट इंजेक्शन को आम तौर पर LLM अनुप्रयोगों के लिए #1 जोखिम के रूप में मान्यता प्राप्त है। ऐसा होने के कई कारण हैं। सबसे स्पष्ट कारक विकसित की गई इंजेक्शन तकनीकों की विविधता है। उन्हें मोटे तौर पर चार श्रेणियों में समूहित करते हुए, सबसे प्रसिद्ध तकनीकों में शामिल हैं:

  • सिंटैक्स-आधारित: विशेष वर्ण, इमोजी, या वैकल्पिक भाषा का उपयोग करना
  • अप्रत्यक्ष: बाहरी स्रोतों (साइट से लाना), एन्कोडिंग (बेस 64), या मल्टीमॉडल संदर्भ (छवि में पाठ) का उपयोग करना
  • “चलो दिखावा करते हैं”: उदाहरण के लिए रोलप्लेइंग, काल्पनिक, भावनात्मक अपील, नैतिक फ्रेमिंग, और प्रारूप बदलाव द्वारा एक जोड़तोड़ वाली शैली का परिचय देना
  • सीधा: ब्रूट-फोर्स, रीइन्फोर्समेंट, या नेगेटिव प्रॉम्प्ट द्वारा मॉडल निर्देशों को “जबरदस्ती” बदलने का स्पष्ट प्रयास

केवल विविधता ही अनुप्रयोग डेवलपर्स के लिए एक चुनौती प्रदान करती है, लेकिन ये हमले भी तेजी से विकसित होते रहे हैं। नीचे दिए गए चित्र का बायां भाग 2023 की शुरुआत की अत्याधुनिक स्थिति का वर्णन करने का दावा करता है, जबकि दायां भाग आज के हमलों की प्रकृति को दर्शाता है।

Evolution of Attack Vectors

LLM ऐप डेवलपर्स को मानक उपयोगिता बनाम सुर

Eli Vovsha is a Data Science Manager at Fortra. Together with the Data Science team, he is responsible for developing and maintaining all of the machine learning (ML) models used by the CEP and XDR products, as well as general ML research. He received his M.S degree in applied math from Stevens Institute of Technology before becoming a PhD candidate in computer science at Columbia University, where he was also an instructor. He later co-founded an EdTech startup aiming to build an AI-powered learning platform, and then taught math and computer science at a private NYC high school. Prior to pursuing his graduate degrees, Eli dedicated significant time to chess, earning the International Master (IM) title.