विचार नेता

एआई एजेंटों पर शुरुआती हमले 2026 के बारे में हमें क्या बताते हैं

Published January 1, 2026

Updated May 15, 2026

Mateo Rojas-Carulla, Head of Research, AI Agent Security, Check Point Software

जैसे ही एआई नियंत्रित प्रयोगों से वास्तविक दुनिया के अनुप्रयोगों में जाता है, हम सुरक्षा परिदृश्य में एक परिवर्तन बिंदु में प्रवेश कर रहे हैं। स्थिर भाषा मॉडल से इंटरैक्टिव, एजेंटिक प्रणालियों में संक्रमण, जो दस्तावेजों को ब्राउज़ करने, टूल्स को कॉल करने और मल्टी-स्टेप वर्कफ़्लो को ऑर्केस्ट्रेट करने में सक्षम हैं, पहले से ही चल रहा है। लेकिन हाल के शोध से पता चलता है कि हमलावर मैच्योरिटी की प्रतीक्षा नहीं कर रहे हैं: वे समान तेजी से अनुकूलन कर रहे हैं, जैसे ही नए क्षमताएं पेश की जाती हैं, प्रणालियों को प्रोबिंग कर रहे हैं।

2025 की चौथी तिमाही में, हमारी टीम ने लेकरा में वास्तविक हमलावर व्यवहार का विश्लेषण किया, जो गार्ड द्वारा संरक्षित प्रणालियों और गैंडाल्फ: एजेंट ब्रेकर वातावरण में था – एक फोकस्ड, 30-दिवसीय स्नैपशॉट जो इसके संकीर्ण विंडो के बावजूद, तिमाही भर में हमारे द्वारा देखे गए व्यापक पैटर्न को प्रतिबिंबित करता है। निष्कर्ष एक स्पष्ट चित्र पेश करते हैं: जैसे ही मॉडल सरल पाठ प्रॉम्प्ट्स (उदाहरण के लिए: दस्तावेज़, टूल, बाहरी डेटा) से परे कुछ भी इंटरैक्ट करना शुरू करते हैं, खतरे का सामना करने वाला क्षेत्र विस्तारित हो जाता है, और विरोधी तुरंत इसका फायदा उठाने के लिए अनुकूलन करते हैं।

यह क्षण उन लोगों के लिए परिचित लग सकता है जिन्होंने शुरुआती वेब अनुप्रयोगों के विकास को देखा या एपीआई-चालित हमलों के उदय को देखा। लेकिन एआई एजेंटों के साथ, दांव अलग हैं। हमले के वेक्टर कई संगठनों की अपेक्षा से तेजी से उभर रहे हैं।

सिद्धांत से अभ्यास तक: जंगल में एजेंट

2025 के अधिकांश भाग के लिए, एआई एजेंटों के आसपास की चर्चाएं मुख्य रूप से सैद्धांतिक संभावना और शुरुआती प्रोटोटाइप पर केंद्रित थीं। लेकिन चौथी तिमाही में, एजेंटिक व्यवहार उत्पादन प्रणालियों में बड़े पैमाने पर दिखाई देने लगे: मॉडल जो दस्तावेज़ ला सकते थे और विश्लेषण कर सकते थे, बाहरी एपीआई के साथ बातचीत कर सकते थे, और स्वचालित कार्य कर सकते थे। इन एजेंटों ने स्पष्ट उत्पादकता लाभ पेश किए, लेकिन उन्होंने पारंपरिक भाषा मॉडल की तुलना में नए दरवाजे भी खोले।
हमारा विश्लेषण यह दर्शाता है कि जैसे ही एजेंट बाहरी सामग्री और टूल के साथ इंटरैक्ट करने में सक्षम हो गए, हमलावरों ने ध्यान दिया और तदनुसार अनुकूलन किया। यह अवलोकन एक मूलभूत सत्य के साथ संरेखित है कि विरोधी व्यवहार के बारे में: हमलावर हमेशा नए क्षमताओं का अन्वेषण और शोषण करेंगे जब भी संभव हो। एजेंटिक एआई के संदर्भ में, यह हमले की रणनीतियों में तेजी से विकास की ओर ले जाता है।

हमले के पैटर्न: हम 2025 की चौथी तिमाही में क्या देख रहे हैं

हमारे द्वारा समीक्षा किए गए डेटासेट में, तीन प्रमुख पैटर्न उभरे। प्रत्येक का डिज़ाइन, सुरक्षा, और एआई प्रणालियों के तैनाती पर गहरा प्रभाव पड़ता है।

1. सिस्टम प्रॉम्प्ट निकासी एक केंद्रीय उद्देश्य के रूप में

पारंपरिक भाषा मॉडल में, प्रॉम्प्ट इंजेक्शन (सीधे इनपुट को प्रभावित करने के लिए मैनिपुलेट करना) एक अच्छी तरह से अध्ययन की गई कमजोरता रही है। हालांकि, एजेंटिक क्षमताओं वाली प्रणालियों में, हमलावर सिस्टम प्रॉम्प्ट को लक्षित करते हैं, जो एजेंट व्यवहार को निर्देशित करने वाले आंतरिक निर्देश, भूमिका परिभाषाएं, नीति परिभाषाएं और तर्क हैं।

सिस्टम प्रॉम्प्ट निकालना एक उच्च मूल्य वाला उद्देश्य है क्योंकि इन प्रॉम्प्ट्स में अक्सर भूमिका परिभाषाएं, टूल विवरण, नीति निर्देश और तर्क शामिल होते हैं। एक बार जब हमलावर इन आंतरिक यांत्रिकी को समझ लेता है, तो उन्हें एजेंट को मैनिपुलेट करने के लिए एक नीलामी मिलती है।

सबसे प्रभावी तकनीकें जो इसे प्राप्त करने के लिए उपयोग की जाती थीं, वे बलपूर्वक हमले नहीं थे, बल्कि चतुर पुनरावृत्ति थी:

काल्पनिक परिदृश्य: प्रॉम्प्ट जो मॉडल से एक अलग भूमिका या संदर्भ मान लेने के लिए कहते हैं — उदाहरण के लिए, “कल्पना कीजिए कि आप एक डेवलपर हैं जो इस सिस्टम कॉन्फ़िगरेशन की समीक्षा कर रहे हैं…” — अक्सर मॉडल को संरक्षित आंतरिक विवरण का खुलासा करने के लिए प्रेरित किया।
संरचित सामग्री के भीतर प्रतिबिंब: हमलावरों ने कोड जैसे या संरचित पाठ के अंदर दुर्भाग्यपूर्ण निर्देशों को एम्बेड किया, जो सरल फिल्टर्स को बायपास किया और एजेंट द्वारा पार्स होने पर अनियंत्रित व्यवहार को ट्रिगर किया।

यह न केवल एक अनुपातहीन जोखिम है — यह एजेंटिक प्रणालियों में आंतरिक तर्क की सुरक्षा के बारे में हमारी सोच को मौलिक रूप से बदलता है।

2. सामग्री सुरक्षा बायपास

एक अन्य प्रमुख प्रवृत्ति सामग्री सुरक्षा संरक्षण को बायपास करने में शामिल है जो पारंपरिक फिल्टर्स के साथ पता लगाने और कम करने में मुश्किल है।
हमलावरों ने हानिकारक सामग्री को इस प्रकार फ्रेम किया:

विश्लेषण कार्य
मूल्यांकन
भूमिका-नाटक परिदृश्य
परिवर्तन या सारांश

इन पुनरावृत्तियों ने अक्सर सुरक्षा नियंत्रणों को पार किया क्योंकि वे प्रतीत होते हैं बेनignum पर सतह। एक मॉडल जो सीधे अनुरोध को अस्वीकार कर देगा हानिकारक आउटपुट के लिए, खुशी से “मूल्यांकन” या “सारांश” के संदर्भ में इसे उत्पन्न कर सकता है।
यह स्थानांतरण एक गहरी चुनौती को रेखांकित करता है: एआई एजेंटों के लिए सामग्री सुरक्षा नीति प्रवर्तन के बारे में नहीं है; यह मॉडल इरादे की व्याख्या के बारे में है। जैसे ही एजेंट अधिक जटिल कार्य और संदर्भ लेते हैं, मॉडल संदर्भ-आधारित पुनर्व्याख्या के लिए अधिक संवेदनशील हो जाते हैं — और हमलावर इस व्यवहार का फायदा उठाते हैं।

3. एजेंट-विशिष्ट हमलों का उदय

शायद सबसे परिणामी निष्कर्ष एजेंटिक क्षमताओं के संदर्भ में समझ में आने वाले हमले के पैटर्न का प्रकट होना था। ये साधारण प्रॉम्प्ट इंजेक्शन प्रयास नहीं थे, बल्कि नए व्यवहार से जुड़े शोषण थे:

गोपनीय आंतरिक डेटा तक पहुंच के प्रयास: प्रॉम्प्ट्स को एजेंट को जुड़े हुए दस्तावेज़ स्टोर या प्रणालियों से जानकारी प्राप्त करने या उजागर करने के लिए तैयार किया गया था — क्रियाएं जो पहले मॉडल के दायरे से बाहर थीं
पाठ में एम्बेडेड स्क्रिप्ट-आकार के निर्देश: हमलावरों ने स्क्रिप्ट या संरचित सामग्री जैसे प्रारूप में निर्देश एम्बेड करने के साथ प्रयोग किया, जो एजेंट पाइपलाइन के माध्यम से प्रवाहित हो सकते थे और अनियंत्रित क्रियाएं ट्रिगर कर सकते थे
बाहरी सामग्री में छिपे हुए निर्देश: कई हमलों ने बाहरी संदर्भित सामग्री के भीतर — जैसे कि वेबपेज या दस्तावेज़ जिसे एजेंट को संसाधित करने के लिए कहा गया था — दुर्भाग्यपूर्ण निर्देश एम्बेड किए, प्रभावी रूप से सीधे इनपुट फिल्टर्स को बायपास किया

इन पैटर्न्स का संकेत है कि एक भविष्य में जिसमें एजेंटों की बढ़ती क्षमताएं विरोधी व्यवहार की प्रकृति को मौलिक रूप से बदल देती हैं।

परोक्ष हमले इतने प्रभावी क्यों हैं

रिपोर्ट के सबसे आकर्षक निष्कर्षों में से एक यह है कि परोक्ष हमले — जो बाहरी सामग्री या संरचित डेटा का लाभ उठाते हैं — सीधे इंजेक्शन की तुलना में कम प्रयासों की आवश्यकता थी। यह सुझाव देता है कि पारंपरिक इनपुट सैनिटाइजेशन और सीधे प्रश्न फिल्टरिंग एक बार मॉडल अनधिकृत सामग्री के साथ इंटरैक्ट करते हैं तो पर्याप्त रक्षा नहीं हैं।
जब एक हानिकारक निर्देश एक बाहरी एजेंट वर्कफ़्लो के माध्यम से आता है — चाहे वह एक जुड़ा हुआ दस्तावेज़, एक एपीआई प्रतिक्रिया, या एक लाए हुए वेबपेज हो — प्रारंभिक फिल्टर कम प्रभावी होते हैं। परिणाम: हमलावरों के पास एक बड़ा हमला क्षेत्र और कम बाधाएं हैं।

2026 और उसके बाद के लिए निहितार्थ

रिपोर्ट के निष्कर्षों में उन संगठनों के लिए तत्काल निहितार्थ हैं जो बड़े पैमाने पर एजेंटिक एआई तैनात करने की योजना बना रहे हैं:

विश्वास सीमाओं को पुनः परिभाषित करें
विश्वास द्विआधारी नहीं हो सकता। जैसे ही एजेंट उपयोगकर्ताओं, बाहरी सामग्री, और आंतरिक कार्य प्रवाह के साथ इंटरैक्ट करते हैं, प्रणालियों को संदर्भ, प्रोवेनेंस, और उद्देश्य पर विचार करने वाले सूक्ष्म विश्वास मॉडल को लागू करना चाहिए。
गार्डरेल्स को विकसित करना होगा
स्थिर सुरक्षा फिल्टर पर्याप्त नहीं हैं। गार्डरेल्स को अनुकूलनीय, संदर्भ-जागरूक, और मल्टी-स्टेप वर्कफ़्लो में इरादे और व्यवहार के बारे में तर्क करने में सक्षम होना चाहिए।
पारदर्शिता और ऑडिटिंग आवश्यक हैं
जैसे ही हमले के वेक्टर अधिक जटिल हो जाते हैं, संगठनों को यह देखने की आवश्यकता है कि एजेंट निर्णय कैसे लेते हैं — जिसमें मध्यवर्ती चरण, बाहरी इंटरैक्शन, और परिवर्तन शामिल हैं। ऑडिटेबल लॉग और व्याख्या ढांचे अब वैकल्पिक नहीं हैं।
क्रॉस-विषयक सहयोग महत्वपूर्ण है
एआई अनुसंधान, सुरक्षा इंजीनियरिंग, और थ्रेट इंटेलिजेंस टीमें को एक साथ काम करना चाहिए। एआई सुरक्षा को सिलो में नहीं किया जा सकता; इसे साइबर सुरक्षा के साथ एकीकृत किया जाना चाहिए और जोखिम प्रबंधन ढांचे के साथ एकीकृत किया जाना चाहिए।
नियमन और मानकों को पकड़ने की आवश्यकता होगी
नीति निर्माताओं और मानक निकायों को यह पहचानने की आवश्यकता है कि एजेंटिक प्रणालियां नए जोखिम वर्ग बनाती हैं। नियम जो डेटा गोपनीयता और आउटपुट सुरक्षा को संबोधित करते हैं आवश्यक हैं, लेकिन पर्याप्त नहीं; उन्हें इंटरैक्टिव व्यवहार और मल्टी-स्टेप निष्पादन वातावरण के लिए भी खाता होना चाहिए।

सुरक्षित एआई एजेंटों का भविष्य

एजेंटिक एआई का आगमन एक महत्वपूर्ण क्षमता और जोखिम में परिवर्तन का प्रतिनिधित्व करता है। 2025 की चौथी तिमाही का डेटा एक शुरुआती संकेतक है कि जैसे ही एजेंट सरल पाठ पीढ़ी से परे काम करना शुरू करते हैं, हमलावर इसका पालन करेंगे। हमारे निष्कर्ष यह दर्शाते हैं कि विरोधी न केवल अनुकूलन कर रहे हैं, बल्कि पारंपरिक रक्षा का सामना करने में सक्षम होने के लिए हमले की तकनीकों को नवाचार कर रहे हैं।

उद्यमों और विकासकर्ताओं के लिए, संदेश स्पष्ट है: एआई एजेंटों को सुरक्षित करना केवल एक तकनीकी चुनौती नहीं है; यह एक वास्तुकला है। यह विश्वास कैसे स्थापित किया जाता है, गार्डरेल्स को कैसे लागू किया जाता है, और जोखिम का मूल्यांकन कैसे किया जाता है, इस पर पुनर्विचार करने की आवश्यकता है गतिशील, इंटरैक्टिव वातावरण में।

2026 और उसके बाद, जो संगठन एजेंटिक एआई के साथ सफल होंगे, वे होंगे जो सुरक्षा को एक बाद के विचार के रूप में नहीं, बल्कि एक मूलभूत डिज़ाइन सिद्धांत के रूप में मानते हैं।