विचार नेता

चैटबॉट सुरक्षा उपाय गलत सुरक्षा सीमा हैं

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

एंटरप्राइज़ एआई प्रूफ-ऑफ-कॉन्सेप्ट चरण से आगे निकल गया है। 23% संगठन पहले से ही अपने एंटरप्राइज़ में कहीं न कहीं एजेंटिक एआई सिस्टम को स्केल कर रहे हैं, और 62% कम से कम एआई एजेंटों के साथ प्रयोग कर रहे हैं. वे अनुसंधान परियोजनाएं नहीं हैं। वे उत्पादन तैनाती हैं, जो कोड रिपॉजिटरी, ग्राहक डेटा, आंतरिक एपीआई और संचालन बुनियादी ढांचे को छूने वाले कार्यप्रवाह में निहित हैं।

उद्योग की इस वृद्धि के प्रति प्रतिक्रिया मुख्य रूप से यह देखने पर केंद्रित है कि एक एजेंट लाइव होने से पहले क्या होता है। विक्रेताओं और शोधकर्ताओं ने पूर्व-तैनाती सुरक्षा उपायों में ऊर्जा डाली है: स्केलिंग नीतियों को प्रकाशित करना, फाउंडेशन मॉडल को मजबूत करना, इनपुट को फिल्टर करना, एआई आपूर्ति श्रृंखला को सुरक्षित करना, और प्रशिक्षण समय में संरेखण को लागू करना। प्रमुख एआई प्रदाताओं ने विकासकर्ता-सामने की सुरक्षा टूलिंग में महत्वपूर्ण निवेश किया है, एक केंद्रीय धारणा को मजबूत किया है: यदि मॉडल और इसके इनपुट नियंत्रित हैं, तो डाउनस्ट्रीम जोखिम को नियंत्रित किया जा सकता है।

यह एक तर्कसंगत प्रवृत्ति है, लेकिन एक बढ़ती जटिलता है।

प्रॉम्प्ट सुरक्षा परिधि नहीं है

मॉडल इंटरफ़ेस पर काम करने वाले सुरक्षा उपाय मुख्य रूप से उन टीमों को लाभ पहुंचाते हैं जो अनुप्रयोग कोड, मॉडल कॉन्फ़िगरेशन और अंतर्निहित बुनियादी ढांचे को नियंत्रित करते हैं। वे उन रक्षकों को बहुत कम सुरक्षा प्रदान करते हैं जिन्हें उन एआई सिस्टम की सुरक्षा का काम सौंपा गया है जिन्हें वे नहीं बना सकते हैं और संशोधित नहीं कर सकते हैं। यह एक महत्वपूर्ण अंधा धब्बा है, और विरोधी इसे पहले ही पा चुके हैं।

ओपनएआई की नवीनतम खतरा खुफिया रिपोर्ट इसी गतिविधि का दस्तावेजीकरण करती है। खतरा अभिनेता उत्पादन वातावरण में चैटजीपीटी और समान उपकरणों का दुरुपयोग कर रहे हैं, नए हमले तकनीकों का आविष्कार करके नहीं, बल्कि मौजूदा कार्यप्रवाह में एआई को एम्बेड करके तेजी लाने के लिए। टोही अधिक कुशल हो जाती है। सामाजिक इंजीनियरिंग का पैमाना बढ़ जाता है। मैलवेयर विकास तेज हो जाता है। हमले की सतह में मूल रूप से परिवर्तन नहीं हुआ है; शोषण की गति और मात्रा है।

अधिक बताने वाला यह है कि जब उन उपकरणों ने पुशबैक किया तो हमलावरों ने कैसे प्रतिक्रिया दी। ओपनएआई ने खतरा अभिनेताओं को अपने प्रॉम्प्ट को तेजी से परिवर्तित करते हुए देखा, जबकि सतह-स्तर के भिन्नताओं को फ्रंट-एंड नियंत्रण से बचने के लिए चक्रीय रूप से प्रॉम्प्ट के मूल इरादे को संरक्षित करते हुए। यह एक पैटर्न है जिसे सुरक्षा पेशेवरों ने पहले देखा है। स्थिर रक्षा, चाहे वह हस्ताक्षर-आधारित एंटीवायरस हो या इनपुट फिल्टरिंग, उन विरोधियों के खिलाफ खड़े नहीं हो सकते जो नियम अद्यतन से अधिक तेजी से पुनरावृत्ति करते हैं।

चुनौती जटिल हो जाती है क्योंकि एजेंट स्वतंत्रता प्राप्त करते हैं। आधुनिक एआई एजेंट एकल आदान-प्रदान में काम नहीं करते हैं। वे बहु-चरण क्रिया अनुक्रम निष्पादित करते हैं, वैध उपकरण और अनुमतियों को अलगाव में पूरी तरह से सामान्य दिखने वाले तरीके से बुलाते हैं। एक एजेंट जो वैध प्रमाण-पत्र का उपयोग आंतरिक एपीआई को सूचीबद्ध करने के लिए करता है, वह कोई अलार्म नहीं उठाता है। एक एजेंट जो क्या दिखता है उस दौरान संवेदनशील डेटा स्टोर तक पहुंचता है जो एक नियमित कार्यप्रवाह की तरह लगता है, तो कोई तुरंत ध्वज नहीं बनाता है। प्रत्येक व्यक्तिगत क्रिया निरीक्षण पास करती है; खतरा संयोजन और अनुक्रम में रहता है।

जब खतरा डाउनस्ट्रीम जाता है

आज एआई तैनाती का बचाव करने वाली सुरक्षा टीमें एक संरचनात्मक मिलान का सामना करती हैं। उनके पास उपलब्ध उपकरण मुख्य रूप से यह सोचने के लिए बनाए गए हैं कि एक मॉडल क्या कह सकता है। वास्तविक जोखिम जिसे उन्हें प्रबंधित करने की आवश्यकता है वह यह है कि एक एजेंट क्या कर रहा है जब यह अनुमतियों के साथ ग्रांट किया जाता है और उत्पादन वातावरण में छोड़ दिया जाता है।

प्रॉम्प्ट-आधारित सुरक्षा उपाय पूर्व के नियम-चालित सुरक्षा दृष्टिकोणों की मूलभूत कमजोरियों को साझा करते हैं। वे नाजुक हैं क्योंकि वे पहले से हमले के पैटर्न की भविष्यवाणी करने पर निर्भर करते हैं। वे प्रतिक्रियाशील हैं क्योंकि उन्हें काम करने के लिए किसी को पहले खतरे का अवलोकन करने और इसका वर्णन करने की आवश्यकता होती है। और वे उन विरोधियों द्वारा पीछे छोड़ दिए जाते हैं जिन्होंने मानक अभ्यास के रूप में एआई-सहायता प्राप्त पुनरावृत्ति को अपनाया है। एक रक्षक जो एक खतरा अभिनेता को पकड़ने के लिए इनपुट फिल्टरिंग पर निर्भर करता है जो एक भाषा मॉडल का उपयोग ताज़ा प्रॉम्प्ट भिन्नताओं को उत्पन्न करने के लिए कर रहा है, एक मूल रूप से हार की स्थिति में है।

वास्तविक जोखिम तैनाती के बाद की सतह पर आता है। एजेंट-चालित क्रियाएं वातावरण में प्रसारित होती हैं जिस तरह से कोई पूर्व-लॉन्च परीक्षण पूरी तरह से पूर्वानुमान नहीं लगा सकता है। एजेंट एज केस का सामना करते हैं, डेटा स्रोतों के साथ बातचीत करते हैं जिन्हें वे संभालने के लिए डिज़ाइन नहीं किए गए थे, बाहरी वास्तुकला से बाहर के सिस्टम से इनपुट प्राप्त करते हैं और समय के साथ जटिल निर्णय लेते हैं। पूर्व-तैनाती परीक्षण एक स्नैपशॉट है; उत्पादन एक निरंतर धारा है। केवल स्नैपशॉट की रक्षा करने का अर्थ है स्वीकार करना कि धारा में हो रहा सब कुछ प्रभावी रूप से निगरानी से बाहर है।

एजेंट व्यवहार में सुरक्षा सीमा को स्थानांतरित करना

एआई लचीलापन बनाने के लिए एक अलग फ्रेम की आवश्यकता है, और लक्ष्य मॉडल इंटरफ़ेस की रक्षा नहीं करना चाहिए। इसका उद्देश्य एजेंट क्रियाओं के परिणामस्वरूप दिखाई देने वाले परिणामों के माध्यम से हमलावर के इरादे का पता लगाना चाहिए। यह एक महत्वपूर्ण अंतर है। इरादा हमेशा यह नहीं दिखता है कि एक एजेंट क्या कहता है या क्या इनपुट प्राप्त करता है।

एआई सिस्टम की सुरक्षा को मॉडल इंटरफ़ेस से परे बढ़ाने की आवश्यकता है ताकि एजेंट वास्तविक उपकरण, वास्तविक एपीआई और वास्तविक डेटा के साथ बातचीत करते समय उनके व्यवहार का निरंतर मूल्यांकन किया जा सके। तैनाती समय में स्थिर मूल्यांकन आवश्यक है लेकिन पर्याप्त नहीं है। एजेंट द्वारा संचालित खतरा वातावरण लगातार बदलता रहता है। एजेंट व्यवहार की निगरानी उसी निरंतरता के साथ की जानी चाहिए।

यह एक समस्या है जिसे प्रॉम्प्ट हार्डनिंग नहीं हल कर सकती। दुर्भावनापूर्ण इरादे का पता लगाने के लिए कि यह क्रिया अनुक्रम के माध्यम से कैसे उभरता है, क्रियात्मक व्यवहार को समझने में सक्षम मॉडल की आवश्यकता होती है जो संचालन वातावरण में। गहरी शिक्षा फाउंडेशन मॉडल जो व्यवहार विश्लेषण के लिए विशेष रूप से डिज़ाइन किए गए हैं, नियम-आधारित प्रणाली और पारंपरिक एसआईईएम टूलिंग के विपरीत ऐसा कर सकते हैं। वे सीखते हैं कि एजेंट गतिविधि के पूर्ण संदर्भ में सामान्य क्या दिखता है, और वे विचलन को उजागर करते हैं जो यह इंगित करता है कि कुछ बदल गया है, भले ही कोई व्यक्तिगत क्रिया पारंपरिक अलार्म को ट्रिगर नहीं करती है।

अंतर्निहित तर्क तैनाती संदर्भ की परवाह किए बिना रखता है: प्रॉम्प्ट परत में निहित सुरक्षा हमलावरों को कार्रवाई परत पर काम करने वाले हमलावरों से लगातार हार जाएगी। रक्षा को वास्तव में खतरा होने वाली जगह पर जाने की जरूरत है।

सुरक्षा टीमें अब क्या करें

सुरक्षा नेताओं के लिए जो इसके आगे रहने की कोशिश कर रहे हैं, कुछ व्यावहारिक बदलाव रक्षा और जहां उन्हें होने की आवश्यकता है उसके बीच के अंतर को बंद कर सकते हैं।

पूरे अनुप्रयोग स्टैक में एआई सुरक्षा का मूल्यांकन करें। फाउंडेशन मॉडल एक परत है। समान रूप से महत्वपूर्ण यह है कि एजेंट उत्पादन में तैनात होने के बाद कैसे व्यवहार करते हैं, वे किन उपकरणों को बुलाते हैं, वे किन अनुमतियों का उपयोग करते हैं और समय के साथ इन विकल्पों में कैसे परिवर्तन होता है। मॉडल सीमा पर रुकने वाले सुरक्षा मूल्यांकन ऑपरेशनल सतह को बड़े पैमाने पर अनदेखा करते हैं।

एजेंट स्तर पर न्यूनतम विशेषाधिकार लागू करें। एआई एजेंटों के पास केवल उनके निर्दिष्ट कार्य के लिए आवश्यक उपकरण, एपीआई और डेटा तक पहुंच होनी चाहिए। यह प्रतिबंध तब भी महत्वपूर्ण है जब एजेंट के आउटपुट निर्दोष दिखाई देते हैं। दायरे को सीमित करने से एक समझौता एजेंट के विस्फोट की तीव्रता कम हो जाती है और स्पष्ट व्यवहार基准 बनाई जाती है जो विचलन का पता लगाने को अधिक प्रभावी बनाती है।

एजेंटों को टेलीमेट्री उत्पन्न करने वाली पहचान के रूप में व्यवहार करें। एजेंट द्वारा की जाने वाली प्रत्येक क्रिया एक डेटा बिंदु है। सुरक्षा टीमें एजेंट-प्रारंभिक क्रिया श्रृंखला के चारों ओर पता लगाने वाले तर्क का निर्माण करनी चाहिए, न कि केवल उन प्रॉम्प्ट्स के बारे में जो उन्हें पहले ही बताए गए हैं। यह पुनरावृत्ति निगरानी को बदलती है कि किसी ने एजेंट से क्या पूछा था से लेकर एजेंट ने वास्तव में क्या किया था, जो हमलावर के इरादे को दिखाई देने वाली जगह है।

एजेंट व्यवहार की निरंतर निगरानी के लिए विशेष रूप से डिज़ाइन किए गए पता लगाने वाले मॉडल के साथ निवेश करें। दुर्भावनापूर्ण इरादे का पता लगाने के लिए जो क्रिया अनुक्रम के माध्यम से उभरता है, विशेषज्ञता की आवश्यकता होती है। पारंपरिक निगरानी उपकरण मानव-उत्पन्न गतिविधि पैटर्न के लिए बनाए गए थे। एजेंट व्यवहार, इसकी गति, मात्रा और बहु-चरण संरचना के साथ, निगरानी बुनियादी ढांचे की मांग करता है जो मूल रूप से इस संदर्भ में डिज़ाइन किया गया है।

सामूहिक रक्षा को प्राथमिकता दें। एआई-संचालित हमले तकनीकें किसी भी एक संगठन से तेजी से विकसित हो रही हैं जो उनका ट्रैक रख सकता है। साझा अनुसंधान, खुली सहयोग और सामुदायिक खतरा खुफिया एक एआई सुरक्षा रणनीति के लिए वैकल्पिक पूरक नहीं हैं; वे मूलभूत इनपुट हैं। जो रक्षक वर्तमान रहते हैं वे वही हैं जो सामूहिक ज्ञान में योगदान देते हैं और आकर्षित करते हैं।

व्यवहार सुरक्षा वास्तव में वितरित करती है

जो सुरक्षा टीमें इस बदलाव को बनाती हैं, व्यावहारिक भुगतान ठोस है। एजेंट व्यवहार में पता लगाने को लंगर डालने से दुर्भावनापूर्ण इरादे की पहले पहचान संभव हो जाती है, भले ही हमले छिपे हुए, अनुकूलन योग्य या एन्क्रिप्टेड हों। जो हमलावर अपने प्रॉम्प्ट को इनपुट फिल्टर से परे परिवर्तित करने में सफल होते हैं, उन्हें अभी भी कार्रवाई करनी होगी। वे क्रियाएं निशान छोड़ती हैं। व्यवहार पता लगाने वाला उन निशानों को पहले ही पाता है कि नुकसान फैल जाए।

शायद सबसे महत्वपूर्ण बात यह है कि यह दृष्टिकोण संगठनों को एक विश्वसनीय मार्ग प्रदान करता है जो एआई एजेंटों को बड़े पैमाने पर तैनात करते हैं जो सुरक्षा जोखिम को कम नहीं करते हैं। जो प्रश्न कई उद्यमों को रोके हुए है वह यह नहीं है कि क्या एआई एजेंट मूल्य प्रदान कर सकते हैं; यह है कि क्या वे पर्याप्त सुरक्षा मुद्रा के साथ तैनात किए जा सकते हैं जो यह सुनिश्चित करता है कि सुरक्षा मुद्रा तैनाती के रूप में खराब नहीं होती है। व्यवहार सुरक्षा, जो कि एजेंट के वास्तविक संचालन पर आधारित है, प्रॉम्प्ट-नियंत्रित नियंत्रणों के विपरीत ऐसा विश्वास प्रदान करती है जो संरचनात्मक रूप से नहीं कर सकती है।

सुरक्षा सीमा गलत स्थान पर खींची गई थी, और यह गलती तब समझ में आती है जब एआई एक उपकरण था जो इनपुट की प्रतीक्षा करता था। यह अब प्रतीक्षा नहीं करता है, एजेंटिक सिस्टम अभिनय करते हैं, श्रृंखला बनाते हैं, बढ़ाते हैं और पर्यावरण में जटिल होते हैं जिन्हें कोई पूर्व-तैनाती परीक्षण पूर्वानुमान नहीं लगा सकता है। जो संगठन इसे सबसे पहले पहचानते हैं वे वही होंगे जो वास्तव में एआई को आत्मविश्वास के साथ स्केल करते हैं। बाकी लोग अगले कुछ वर्षों में खोजते रहेंगे, प्रत्येक उल्लंघन से यह खोज करते हुए कि मॉडल को नियंत्रित करना जो यह कहता है वही है जो यह करता है।

Related Topics:chatbot chatbots DeepTempo

Mayank Kumar, Founding AI Engineer, DeepTempo

मयंक कुमार डीपटेम्पो में संस्थापक एआई इंजीनियर हैं, जहां वह कंपनी के मूल लॉग लैंग्वेज मॉडल (लॉगएलएम) के डिजाइन और विकास का नेतृत्व करते हैं। जनरेटिव और मल्टीमॉडल एआई में मजबूत अकादमिक और अनुसंधान पृष्ठभूमि के साथ, वह साइबर सुरक्षा वातावरण में खतरे का पता लगाने और प्रतिक्रिया में सुधार करने वाले डोमेन-विशिष्ट मॉडल बनाने में विशेषज्ञता लाते हैं।