साइबर सुरक्षा

HiddenLayer शोधकर्ताओं ने OpenAI के गार्डरेल्स को पार किया, AI स्व-नियंत्रण में गंभीर खामी उजागर की

Published October 12, 2025

Updated March 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

6 अक्टूबर, 2025 को, OpenAI ने AgentKit की घोषणा की, AI एजेंट बनाने, तैनात करने और प्रबंधित करने के लिए एक टूलकिट। इसका एक घटक गार्डरेल्स है—एक मॉड्यूलर सुरक्षा परत जिसे एजेंट इनपुट, आउटपुट और टूल इंटरैक्शन की निगरानी करने के लिए डिज़ाइन किया गया है ताकि दुरुपयोग, डेटा लीक या दुर्भावनापूर्ण व्यवहार को रोका जा सके। गार्डरेल्स PII को मास्क या फ्लैग कर सकता है, जेलब्रेक का पता लगा सकता है, और एजेंट निष्पादन के साथ नीति बाधाएं लागू कर सकता है।

हालांकि गार्डरेल्स OpenAI की एजेंट आर्किटेक्चर का एक नया सार्वजनिक टुकड़ा है, HiddenLayer के शोध से एक गहरी कमजोरी का पता चलता है: क्योंकि एजेंट के कार्य और सुरक्षा जांच दोनों समान मॉडल लॉजिक का उपयोग करते हैं, हमलावर ऐसे इनपुट तैयार कर सकते हैं जो दोनों को एक साथ कमजोर करते हैं—प्रभावी रूप से सुरक्षा परत को अंदर से तोड़ते हैं।

HiddenLayer ने क्या खोजा

OpenAI का डिज़ाइन एजेंटों की कल्पना करता है जो श्रृंखलाबद्ध लॉजिक के माध्यम से काम करते हैं: एक उपयोगकर्ता अनुरोध जारी करता है, एजेंट टूल या बाहरी संसाधनों को कॉल करता है, और प्रतिक्रियाओं को निष्पादन या आउटपुट से पहले गार्डरेल्स द्वारा फ़िल्टर या मान्य किया जाता है। इरादा यह है कि एजेंट जो भी करने की कोशिश करे—चाहे वह टेक्स्ट जनरेट करना हो, वेबपेज फ़ेच करना हो, या कोई फ़ंक्शन ट्रिगर करना हो—गार्डरेल्स एक प्रहरी के रूप में कार्य करे।

HiddenLayer का तर्क है कि यह प्रहरी संरचनात्मक रूप से दोषपूर्ण है जब इसे उसी वर्ग के मॉडल से बनाया जाता है जिसकी यह रक्षा कर रहा है। अपने प्रयोगों में, उन्होंने ऐसे प्रॉम्प्ट तैयार किए जो दोहरा काम करते हैं: वे एजेंट मॉडल को नीति का उल्लंघन करने वाली सामग्री जनरेट करने के लिए मजबूर करते हैं और गार्डरेल्स जज मॉडल को यह घोषित करने के लिए मनाते हैं कि सामग्री “सुरक्षित” है। प्रभावी रूप से, प्रॉम्प्ट जज के आंतरिक तर्क—उसके आत्मविश्वास सीमा, निर्णय शाखाओं—को ओवरराइड करने वाला एम्बेड करता है, ताकि जज दुर्भावनापूर्ण आउटपुट को गलत तरीके से पास कर दे। सिस्टम तब किसी भी अलर्ट को ट्रिगर किए बिना अवैध सामग्री उत्पन्न करता है।

उन्होंने अप्रत्यक्ष सामग्री इंजेक्शन को लक्षित करके हमले को और आगे बढ़ाया, जैसे कि टूल-आधारित फ़ेच कॉल। मान लीजिए एजेंट एक वेबपेज फ़ेच करता है जिसमें दुर्भावनापूर्ण निर्देश या छिपे हुए प्रॉम्प्ट होते हैं। गार्डरेल्स को इसे फ्लैग या ब्लॉक करना चाहिए, लेकिन HiddenLayer की तकनीक फ़ेच की गई सामग्री में ही एक जज ओवरराइड एम्बेड करती है। जब जज इसे प्रोसेस करता है, तो वह ओवरराइड देखता है और इसे “अनुमोदित” कर देता है, जिससे टूल कॉल—और उसके द्वारा लौटाई गई कोई भी दुर्भावनापूर्ण सामग्री—बिना जांच के पास हो जाती है।

गहरा सबक स्पष्ट है: जब आपकी सुरक्षा तंत्र उसी लॉजिक और कमजोरियों का उपयोग करके बनाई जाती है जिसकी वह रक्षा करती है, तो एक ही चतुर प्रॉम्प्ट दोनों को तोड़ सकता है।

यह क्यों महत्वपूर्ण है

HiddenLayer ने जो उजागर किया है वह केवल एक बग नहीं है—यह एक चेतावनी भरी कहानी है कि हम LLM सिस्टम में सुरक्षा को कैसे डिज़ाइन करते हैं। कोई भी आर्किटेक्चर जो जनरेशन और मूल्यांकन दोनों के लिए एक ही मॉडल क्लास पर निर्भर करता है, वह प्रतिकूल इनपुट के तहत साझा विफलताओं के जोखिम में है।

इसका मतलब है कि कई डिप्लॉयर जो मानते थे कि “हमने गार्डरेल्स लगा दिए हैं, इसलिए हम सुरक्षित हैं” वे जोखिम को कम आंक रहे होंगे। सौम्य, आकस्मिक उपयोग के मामलों में, उनके फ़िल्टर प्रभावी दिखाई दे सकते हैं, लेकिन प्रतिकूल परिदृश्यों में, वे चुपचाप विफल हो सकते हैं। स्वास्थ्य सेवा, वित्त, सरकार, या महत्वपूर्ण सिस्टम जैसे डोमेन में, ऐसी चुपचाप विफलताएं गंभीर नुकसान का कारण बन सकती हैं।

यह शोध पिछली प्रॉम्प्ट इंजेक्शन विधियों पर भी आधारित है। HiddenLayer की पहले की “पॉलिसी पपेट्री” तकनीक ने दिखाया कि कैसे हमलावर हानिकारक निर्देशों को नीति सामग्री के रूप में छिपा सकते हैं। अब, वे प्रदर्शित करते हैं कि ऐसे मास्क किए गए हमले सुरक्षा लॉजिक में ही फैल सकते हैं।

डिप्लॉयर और शोधकर्ताओं के लिए निहितार्थ

इस कमजोरी के प्रकाश में, एजेंटिक LLM सिस्टम का उपयोग या निर्माण करने वाले किसी भी व्यक्ति को सुरक्षा रणनीति पर पुनर्विचार करना चाहिए।

पहला: केवल आंतरिक मॉडल-आधारित जांच पर भरोसा न करें। सुरक्षा परतों में होनी चाहिए। इसका मतलब है नियम-आधारित फ़िल्टर, विसंगति डिटेक्टर, लॉगिंग सिस्टम, बाहरी निगरानी, मानवीय निगरानी और ऑडिट ट्रेल्स को मिलाना। यदि एक परत विफल होती है, तो अन्य उल्लंघन को पकड़ सकते हैं।

दूसरा: नियमित प्रतिकूल रेड-टीमिंग अनिवार्य है। मॉडलों को ऐसे प्रॉम्प्ट इंजेक्शन का सामना करना चाहिए जो उनकी अपनी गार्ड लॉजिक को ही ओवरराइड करने की कोशिश करते हैं—न कि केवल “खराब सामग्री” का। परीक्षण को विकसित होना चाहिए क्योंकि हमलावर नई तकनीकों का आविष्कार करते हैं।

तीसरा: विनियमित या सुरक्षा-महत्वपूर्ण क्षेत्रों में, पारदर्शिता और सत्यापन क्षमता आवश्यक है। डिप्लॉयर को इस बात का प्रमाण चाहिए कि एक सिस्टम प्रतिकूल हमलों का सामना कर सकता है, न कि केवल बुनियादी कार्यक्षमता। इससे पता चलता है कि तीसरे पक्ष के ऑडिट, औपचारिक सत्यापन, या सुरक्षा गारंटी आवश्यकताएं बन सकती हैं।

चौथा: मॉडल बिल्डरों के लिए, इस वर्ग की कमजोरी को ठीक करना मुश्किल है। क्योंकि यह इस बात से जुड़ा है कि मॉडल निर्देशों को कैसे पार्स और पालन करते हैं, केवल एक वर्ग के प्रॉम्प्ट को फ़िल्टर करना नए प्रॉम्प्ट के प्रति लचीलापन की गारंटी नहीं देता है। फाइन-ट्यूनिंग या फ़िल्टर-आधारित सुरक्षा मॉडल प्रदर्शन को खराब कर सकती है या हथियारों की दौड़ का कारण बन सकती है। अधिक मजबूत डिज़ाइन के लिए आर्किटेक्चरल अलगाव की आवश्यकता हो सकती है—गार्ड लॉजिक जनरेशन मॉडल से अलग मॉडल या सबसिस्टम में चल रहा हो।

सीमाएं और खुले प्रश्न

स्पष्ट होने के लिए: HiddenLayer का काम एक प्रूफ-ऑफ-कॉन्सेप्ट है, न कि हर सुरक्षा आर्किटेक्चर पर अंतिम फैसला। उनके सफल हमले गार्ड मॉडल की प्रॉम्प्ट संरचना और आंतरिक स्कोरिंग लॉजिक की गहरी जानकारी पर निर्भर करते हैं। अधिक प्रतिबंधित प्रॉम्प्ट वातावरण या ऐसे सिस्टम में जो रक्षा को यादृच्छिक करते हैं, हमला करना अधिक कठिन हो सकता है।

इसके अलावा, वे पूरी तरह से विश्लेषण नहीं करते हैं कि इन बाधाओं के तहत तैयार की गई दुर्भावनापूर्ण आउटपुट कितनी सुसंगत या उपयोगी हैं। कुछ जेलब्रेक या ओवरराइड आउटपुट की गुणवत्ता या विश्वसनीयता कम हो सकती है। इसलिए जोखिम वास्तविक है—लेकिन पर्यावरण, प्रॉम्प्ट बजट, इंटरफ़ेस बाधाओं और गार्ड यादृच्छिकता द्वारा सीमित है।

अंत में, कुछ गार्डरेल डिज़ाइन अलग मॉडल क्लास, एन्सेंबल विधियों, या यादृच्छिक मूल्यांकन का उपयोग करते हैं। यह निश्चित नहीं है कि हर ऐसा सिस्टम कमजोर है; क्या यह हमला व्यापक रूप से सामान्यीकृत होता है, यह एक खुला शोध प्रश्न है।

आगे देखते हुए: AI सुरक्षा का भविष्य

ऐसा लगता है कि हम एक नए चरण में प्रवेश कर रहे हैं: न केवल मॉडलों के खिलाफ, बल्कि उनकी सुरक्षा परतों के खिलाफ प्रॉम्प्ट हमले। <a href="https://arxiv.org/abs

Related Topics:cybersecurity Guardrails hiddenlayer

Antoine Tardif, CEO & Founder of Unite.AI

//www.futurist.ai">फ्यूचरिस्ट के रूप में, वे इस बात की खोज के प्रति समर्पित हैं कि ये नवाचार हमारी दुनिया को कैसे आकार देंगे। इसके अतिरिक्त, वे Securities.io के संस्थापक हैं, जो अत्याधुनिक प्रौद्योगिकियों में निवेश पर केंद्रित एक प्लेटफॉर्म है जो भविष्य को पुनः परिभाषित कर रही हैं और संपूर्ण क्षेत्रों को पुनः आकार दे रही हैं।