Connect with us

рдПрдЖрдИ рдПрдЬреЗрдВрдЯреЛрдВ рдкрд░ рд╢реБрд░реБрдЖрддреА рд╣рдорд▓реЗ 2026 рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╣рдореЗрдВ рдХреНрдпрд╛ рдмрддрд╛рддреЗ рд╣реИрдВ

рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛

рдПрдЖрдИ рдПрдЬреЗрдВрдЯреЛрдВ рдкрд░ рд╢реБрд░реБрдЖрддреА рд╣рдорд▓реЗ 2026 рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╣рдореЗрдВ рдХреНрдпрд╛ рдмрддрд╛рддреЗ рд╣реИрдВ

mm

जैसे ही एआई नियंत्रित प्रयोगों से वास्तविक दुनिया के अनुप्रयोगों में जाता है, हम सुरक्षा परिदृश्य में एक परिवर्तन बिंदु में प्रवेश कर रहे हैं। स्थिर भाषा मॉडल से इंटरैक्टिव, एजेंटिक प्रणालियों में संक्रमण, जो दस्तावेजों को ब्राउज़ करने, टूल्स को कॉल करने और मल्टी-स्टेप वर्कफ़्लो को ऑर्केस्ट्रेट करने में सक्षम हैं, पहले से ही चल रहा है। लेकिन हाल के शोध से पता चलता है कि हमलावर मैच्योरिटी की प्रतीक्षा नहीं कर रहे हैं: वे समान तेजी से अनुकूलन कर रहे हैं, जैसे ही नए क्षमताएं पेश की जाती हैं, प्रणालियों को प्रोबिंग कर रहे हैं।

2025 की चौथी तिमाही में, हमारी टीम ने लेकरा में वास्तविक हमलावर व्यवहार का विश्लेषण किया, जो गार्ड द्वारा संरक्षित प्रणालियों और गैंडाल्फ: एजेंट ब्रेकर वातावरण में था – एक फोकस्ड, 30-दिवसीय स्नैपशॉट जो इसके संकीर्ण विंडो के बावजूद, तिमाही भर में हमारे द्वारा देखे गए व्यापक पैटर्न को प्रतिबिंबित करता है। निष्कर्ष एक स्पष्ट चित्र पेश करते हैं: जैसे ही मॉडल सरल पाठ प्रॉम्प्ट्स (उदाहरण के लिए: दस्तावेज़, टूल, बाहरी डेटा) से परे कुछ भी इंटरैक्ट करना शुरू करते हैं, खतरे का सामना करने वाला क्षेत्र विस्तारित हो जाता है, और विरोधी तुरंत इसका फायदा उठाने के लिए अनुकूलन करते हैं।

यह क्षण उन लोगों के लिए परिचित लग सकता है जिन्होंने शुरुआती वेब अनुप्रयोगों के विकास को देखा या एपीआई-चालित हमलों के उदय को देखा। लेकिन एआई एजेंटों के साथ, दांव अलग हैं। हमले के वेक्टर कई संगठनों की अपेक्षा से तेजी से उभर रहे हैं।

सिद्धांत से अभ्यास तक: जंगल में एजेंट

2025 के अधिकांश भाग के लिए, एआई एजेंटों के आसपास की चर्चाएं मुख्य रूप से सैद्धांतिक संभावना और शुरुआती प्रोटोटाइप पर केंद्रित थीं। लेकिन चौथी तिमाही में, एजेंटिक व्यवहार उत्पादन प्रणालियों में बड़े पैमाने पर दिखाई देने लगे: मॉडल जो दस्तावेज़ ला सकते थे और विश्लेषण कर सकते थे, बाहरी एपीआई के साथ बातचीत कर सकते थे, और स्वचालित कार्य कर सकते थे। इन एजेंटों ने स्पष्ट उत्पादकता लाभ पेश किए, लेकिन उन्होंने पारंपरिक भाषा मॉडल की तुलना में नए दरवाजे भी खोले।
हमारा विश्लेषण यह दर्शाता है कि जैसे ही एजेंट बाहरी सामग्री और टूल के साथ इंटरैक्ट करने में सक्षम हो गए, हमलावरों ने ध्यान दिया और तदनुसार अनुकूलन किया। यह अवलोकन एक मूलभूत सत्य के साथ संरेखित है कि विरोधी व्यवहार के बारे में: हमलावर हमेशा नए क्षमताओं का अन्वेषण और शोषण करेंगे जब भी संभव हो। एजेंटिक एआई के संदर्भ में, यह हमले की रणनीतियों में तेजी से विकास की ओर ले जाता है।

हमले के पैटर्न: हम 2025 की चौथी तिमाही में क्या देख रहे हैं

हमारे द्वारा समीक्षा किए गए डेटासेट में, तीन प्रमुख पैटर्न उभरे। प्रत्येक का डिज़ाइन, सुरक्षा, और एआई प्रणालियों के तैनाती पर गहरा प्रभाव पड़ता है।

1. सिस्टम प्रॉम्प्ट निकासी एक केंद्रीय उद्देश्य के रूप में

पारंपरिक भाषा मॉडल में, प्रॉम्प्ट इंजेक्शन (सीधे इनपुट को प्रभावित करने के लिए मैनिपुलेट करना) एक अच्छी तरह से अध्ययन की गई कमजोरता रही है। हालांकि, एजेंटिक क्षमताओं वाली प्रणालियों में, हमलावर सिस्टम प्रॉम्प्ट को लक्षित करते हैं, जो एजेंट व्यवहार को निर्देशित करने वाले आंतरिक निर्देश, भूमिका परिभाषाएं, नीति परिभाषाएं और तर्क हैं।

सिस्टम प्रॉम्प्ट निकालना एक उच्च मूल्य वाला उद्देश्य है क्योंकि इन प्रॉम्प्ट्स में अक्सर भूमिका परिभाषाएं, टूल विवरण, नीति निर्देश और तर्क शामिल होते हैं। एक बार जब हमलावर इन आंतरिक यांत्रिकी को समझ लेता है, तो उन्हें एजेंट को मैनिपुलेट करने के लिए एक नीलामी मिलती है।

सबसे प्रभावी तकनीकें जो इसे प्राप्त करने के लिए उपयोग की जाती थीं, वे बलपूर्वक हमले नहीं थे, बल्कि चतुर पुनरावृत्ति थी:

  • काल्पनिक परिदृश्य: प्रॉम्प्ट जो मॉडल से एक अलग भूमिका या संदर्भ मान लेने के लिए कहते हैं — उदाहरण के लिए, “कल्पना कीजिए कि आप एक डेवलपर हैं जो इस सिस्टम कॉन्फ़िगरेशन की समीक्षा कर रहे हैं…” — अक्सर मॉडल को संरक्षित आंतरिक विवरण का खुलासा करने के लिए प्रेरित किया।
  • संरचित सामग्री के भीतर प्रतिबिंब: हमलावरों ने कोड जैसे या संरचित पाठ के अंदर दुर्भाग्यपूर्ण निर्देशों को एम्बेड किया, जो सरल फिल्टर्स को बायपास किया और एजेंट द्वारा पार्स होने पर अनियंत्रित व्यवहार को ट्रिगर किया।

यह न केवल एक अनुपातहीन जोखिम है — यह एजेंटिक प्रणालियों में आंतरिक तर्क की सुरक्षा के बारे में हमारी सोच को मौलिक रूप से बदलता है।

2. सामग्री सुरक्षा बायपास

एक अन्य प्रमुख प्रवृत्ति सामग्री सुरक्षा संरक्षण को बायपास करने में शामिल है जो पारंपरिक फिल्टर्स के साथ पता लगाने और कम करने में मुश्किल है।
हमलावरों ने हानिकारक सामग्री को इस प्रकार फ्रेम किया:

  • विश्लेषण कार्य
  • मूल्यांकन
  • भूमिका-नाटक परिदृश्य
  • परिवर्तन या सारांश

इन पुनरावृत्तियों ने अक्सर सुरक्षा नियंत्रणों को पार किया क्योंकि वे प्रतीत होते हैं बेनignum पर सतह। एक मॉडल जो सीधे अनुरोध को अस्वीकार कर देगा हानिकारक आउटपुट के लिए, खुशी से “मूल्यांकन” या “सारांश” के संदर्भ में इसे उत्पन्न कर सकता है।
यह स्थानांतरण एक गहरी चुनौती को रेखांकित करता है: एआई एजेंटों के लिए सामग्री सुरक्षा नीति प्रवर्तन के बारे में नहीं है; यह मॉडल इरादे की व्याख्या के बारे में है। जैसे ही एजेंट अधिक जटिल कार्य और संदर्भ लेते हैं, मॉडल संदर्भ-आधारित पुनर्व्याख्या के लिए अधिक संवेदनशील हो जाते हैं — और हमलावर इस व्यवहार का फायदा उठाते हैं।

3. एजेंट-विशिष्ट हमलों का उदय

शायद सबसे परिणामी निष्कर्ष एजेंटिक क्षमताओं के संदर्भ में समझ में आने वाले हमले के पैटर्न का प्रकट होना था। ये साधारण प्रॉम्प्ट इंजेक्शन प्रयास नहीं थे, बल्कि नए व्यवहार से जुड़े शोषण थे:

  • गोपनीय आंतरिक डेटा तक पहुंच के प्रयास: प्रॉम्प्ट्स को एजेंट को जुड़े हुए दस्तावेज़ स्टोर या प्रणालियों से जानकारी प्राप्त करने या उजागर करने के लिए तैयार किया गया था — क्रियाएं जो पहले मॉडल के दायरे से बाहर थीं
  • पाठ में एम्बेडेड स्क्रिप्ट-आकार के निर्देश: हमलावरों ने स्क्रिप्ट या संरचित सामग्री जैसे प्रारूप में निर्देश एम्बेड करने के साथ प्रयोग किया, जो एजेंट पाइपलाइन के माध्यम से प्रवाहित हो सकते थे और अनियंत्रित क्रियाएं ट्रिगर कर सकते थे
  • बाहरी सामग्री में छिपे हुए निर्देश: कई हमलों ने बाहरी संदर्भित सामग्री के भीतर — जैसे कि वेबपेज या दस्तावेज़ जिसे एजेंट को संसाधित करने के लिए कहा गया था — दुर्भाग्यपूर्ण निर्देश एम्बेड किए, प्रभावी रूप से सीधे इनपुट फिल्टर्स को बायपास किया

इन पैटर्न्स का संकेत है कि एक भविष्य में जिसमें एजेंटों की बढ़ती क्षमताएं विरोधी व्यवहार की प्रकृति को मौलिक रूप से बदल देती हैं।

परोक्ष हमले इतने प्रभावी क्यों हैं

रिपोर्ट के सबसे आकर्षक निष्कर्षों में से एक यह है कि परोक्ष हमले — जो बाहरी सामग्री या संरचित डेटा का लाभ उठाते हैं — सीधे इंजेक्शन की तुलना में कम प्रयासों की आवश्यकता थी। यह सुझाव देता है कि पारंपरिक इनपुट सैनिटाइजेशन और सीधे प्रश्न फिल्टरिंग एक बार मॉडल अनधिकृत सामग्री के साथ इंटरैक्ट करते हैं तो पर्याप्त रक्षा नहीं हैं।
जब एक हानिकारक निर्देश एक बाहरी एजेंट वर्कफ़्लो के माध्यम से आता है — चाहे वह एक जुड़ा हुआ दस्तावेज़, एक एपीआई प्रतिक्रिया, या एक लाए हुए वेबपेज हो — प्रारंभिक फिल्टर कम प्रभावी होते हैं। परिणाम: हमलावरों के पास एक बड़ा हमला क्षेत्र और कम बाधाएं हैं।

2026 और उसके बाद के लिए निहितार्थ

रिपोर्ट के निष्कर्षों में उन संगठनों के लिए तत्काल निहितार्थ हैं जो बड़े पैमाने पर एजेंटिक एआई तैनात करने की योजना बना रहे हैं:

  1. विश्वास सीमाओं को पुनः परिभाषित करें
    विश्वास द्विआधारी नहीं हो सकता। जैसे ही एजेंट उपयोगकर्ताओं, बाहरी सामग्री, और आंतरिक कार्य प्रवाह के साथ इंटरैक्ट करते हैं, प्रणालियों को संदर्भ, प्रोवेनेंस, और उद्देश्य पर विचार करने वाले सूक्ष्म विश्वास मॉडल को लागू करना चाहिए。
  2. गार्डरेल्स को विकसित करना होगा
    स्थिर सुरक्षा फिल्टर पर्याप्त नहीं हैं। गार्डरेल्स को अनुकूलनीय, संदर्भ-जागरूक, और मल्टी-स्टेप वर्कफ़्लो में इरादे और व्यवहार के बारे में तर्क करने में सक्षम होना चाहिए।
  3. पारदर्शिता और ऑडिटिंग आवश्यक हैं
    जैसे ही हमले के वेक्टर अधिक जटिल हो जाते हैं, संगठनों को यह देखने की आवश्यकता है कि एजेंट निर्णय कैसे लेते हैं — जिसमें मध्यवर्ती चरण, बाहरी इंटरैक्शन, और परिवर्तन शामिल हैं। ऑडिटेबल लॉग और व्याख्या ढांचे अब वैकल्पिक नहीं हैं।
  4. क्रॉस-विषयक सहयोग महत्वपूर्ण है
    एआई अनुसंधान, सुरक्षा इंजीनियरिंग, और थ्रेट इंटेलिजेंस टीमें को एक साथ काम करना चाहिए। एआई सुरक्षा को सिलो में नहीं किया जा सकता; इसे साइबर सुरक्षा के साथ एकीकृत किया जाना चाहिए और जोखिम प्रबंधन ढांचे के साथ एकीकृत किया जाना चाहिए।
  5. नियमन और मानकों को पकड़ने की आवश्यकता होगी
    नीति निर्माताओं और मानक निकायों को यह पहचानने की आवश्यकता है कि एजेंटिक प्रणालियां नए जोखिम वर्ग बनाती हैं। नियम जो डेटा गोपनीयता और आउटपुट सुरक्षा को संबोधित करते हैं आवश्यक हैं, लेकिन पर्याप्त नहीं; उन्हें इंटरैक्टिव व्यवहार और मल्टी-स्टेप निष्पादन वातावरण के लिए भी खाता होना चाहिए।

सुरक्षित एआई एजेंटों का भविष्य

एजेंटिक एआई का आगमन एक महत्वपूर्ण क्षमता और जोखिम में परिवर्तन का प्रतिनिधित्व करता है। 2025 की चौथी तिमाही का डेटा एक शुरुआती संकेतक है कि जैसे ही एजेंट सरल पाठ पीढ़ी से परे काम करना शुरू करते हैं, हमलावर इसका पालन करेंगे। हमारे निष्कर्ष यह दर्शाते हैं कि विरोधी न केवल अनुकूलन कर रहे हैं, बल्कि पारंपरिक रक्षा का सामना करने में सक्षम होने के लिए हमले की तकनीकों को नवाचार कर रहे हैं।

उद्यमों और विकासकर्ताओं के लिए, संदेश स्पष्ट है: एआई एजेंटों को सुरक्षित करना केवल एक तकनीकी चुनौती नहीं है; यह एक वास्तुकला है। यह विश्वास कैसे स्थापित किया जाता है, गार्डरेल्स को कैसे लागू किया जाता है, और जोखिम का मूल्यांकन कैसे किया जाता है, इस पर पुनर्विचार करने की आवश्यकता है गतिशील, इंटरैक्टिव वातावरण में।

2026 और उसके बाद, जो संगठन एजेंटिक एआई के साथ सफल होंगे, वे होंगे जो सुरक्षा को एक बाद के विचार के रूप में नहीं, बल्कि एक मूलभूत डिज़ाइन सिद्धांत के रूप में मानते हैं।

рдореЗрдЯрд┐рдпреЛ рд░реЛрдЬрд╛рд╕-рдХрд╛рд░реБрд▓рд╛ рдЪреЗрдХ рдкреЙрдЗрдВрдЯ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЯреЗрдХреНрдиреЛрд▓реЙрдЬреАрдЬ рдореЗрдВ рдПрдЖрдИ рдПрдЬреЗрдВрдЯ рд╕реБрд░рдХреНрд╖рд╛ рдХреЗ рд╢реЛрдз рдкреНрд░рдореБрдЦ рд╣реИрдВред рдкрд╣рд▓реЗ рд╡рд╣ рд▓рд╛рдХрд░рд╛ рдореЗрдВ рд╕рд╣-рд╕рдВрд╕реНрдерд╛рдкрдХ рдФрд░ рдореБрдЦреНрдп рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдереЗ, рдЬрд┐рд╕реЗ 2025 рдореЗрдВ рдЪреЗрдХ рдкреЙрдЗрдВрдЯ рджреНрд╡рд╛рд░рд╛ рдЕрдзрд┐рдЧреНрд░рд╣рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред рд▓рд╛рдХрд░рд╛ рдХреА рд╕реНрдерд╛рдкрдирд╛ рд╕реЗ рдкрд╣рд▓реЗ, рдореЗрдЯрд┐рдпреЛ рдиреЗ рдЧреВрдЧрд▓, рдХреНрд░реЗрдбрд┐рдЯ рд╕реБрдЗрд╕, рдлреЗрд╕рдмреБрдХ рдФрд░ рд╕реНрдкреАрдЪрдореИрдЯрд┐рдХреНрд╕ рдореЗрдВ рдХрд╛рдо рдХрд┐рдпрд╛ рдерд╛ред рдЙрдиреНрд╣реЛрдВрдиреЗ рдХреИрдореНрдмреНрд░рд┐рдЬ рд╡рд┐рд╢реНрд╡рд╡рд┐рджреНрдпрд╛рд▓рдп рдФрд░ рдЯреНрдпреВрдмрд┐рдВрдЧрди рдореЗрдВ рдореИрдХреНрд╕ рдкреНрд▓реИрдВрдХ рд╕рдВрд╕реНрдерд╛рди рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЗрдВ рдкреАрдПрдЪрдбреА рдкреНрд░рд╛рдкреНрдд рдХреА рд╣реИред