Anderson का एंगल

अध्ययन: 35% एआई एजेंटों ने जानबूझकर स्कैम वेबसाइटों को पीआईआई प्रदान किया

प्रकाशित 6 जून 2026

Martin Anderson

AI-generated illustration (GPT-2 + Photoshop): A humanoid industrial robot stands on a sunlit city sidewalk facing a small check-cashing kiosk, while a wolf-like attendant leans from the service window reading a sports magazine as pedestrians and traffic pass in the background.

एक नए अध्ययन में पाया गया है कि जब वे एक स्कैम वेबसाइट को पहचानते हैं, तो तीन में से एक से अधिक एआई एजेंट अभी भी संवेदनशील जानकारी प्रदान करते हैं।

भारत और अमेरिका के शोधकर्ताओं द्वारा किए गए एक नए अध्ययन में पाया गया है कि परीक्षण किए गए स्वायत्त वेब एजेंटों में से एक तिहाई से अधिक ने व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई, अर्थात बैंक खाता विवरण, पासवर्ड और सामाजिक सुरक्षा संख्या) को वेबसाइटों को सौंप दिया जिन्हें उन्होंने पहले से ही स्कैम के रूप में पहचाना था।

इस पत्र में संकेत दिया गया है कि वेब एजेंटों में एक निश्चित ‘पूर्णता की प्रवृत्ति’ है जो सावधानी और संदेह को रोकती है, ऐसे परिदृश्यों में। लेखकों का कहना है:

‘एक मानव रुक सकता है, पुनः पढ़ सकता है, या टैब बंद कर सकता है। एक एजेंट को अपना कार्य पूरा करने के लिए बनाया गया है और यह रुकने के लिए नहीं रुकेगा, चाहे वह जानकारी भरना और डेटा जमा करना जारी रखेगा।’

अध्ययन ने ऐसे परिदृश्यों के लिए एक नया बेंचमार्क तैयार किया है, जिसे एससीएएमएमईआर4यू कहा जाता है, जिसमें 91 (सिम्युलेटेड) हमलावर-नियंत्रित वातावरण, साथ ही दस ‘हानिरहित’ बेसलाइन साइटें और आठ हमला वेक्टर शामिल हैं।

बिना किसी गोपनीयता सुरक्षा के, परीक्षण किए गए एजेंटों ने 54% से 93% स्कैम मुठभेड़ों में उच्च संवेदनशील व्यक्तिगत जानकारी प्रदान की, जबकि समान गैर-दुर्भावनापूर्ण वेबसाइटों ने कोई ऐसा खुलासा नहीं किया, जो दर्शाता है कि रिसाव हमलों से उत्पन्न हुआ था, न कि नियमित फॉर्म-भरने से:

‘सबसे महत्वपूर्ण बात, हम एक पहचान-कार्रवाई अंतराल की पहचान करते हैं: एजेंट जिनके तर्क एक स्वतंत्र एलएलएम न्यायाधीश द्वारा पुष्टि की जाती है कि साइट को संदिग्ध के रूप में पहचाना जाता है, अभी भी 35.9% सत्र में महत्वपूर्ण पीआईआई जमा करते हैं, जब कोई संदेह नहीं होता है, तो 66.1% के मुकाबले, एक 30.2% अंतर जो सभी चार मॉडल परिवारों में सुसंगत है। ‘

‘हमारे निष्कर्ष यह बताते हैं कि हमले की अपनी पहचान पर आधारित रक्षा एजेंट की अपनी पहचान पर आधारित होती है, जो गलत संकेत पर आधारित होती है, जो आउटबाउंड सबमिशन को रोकने के लिए प्रेरित करती है जो एजेंट के तर्क लूप से स्वतंत्र रूप से काम करती है।’

शोधकर्ता आउटपुट-स्तर की रक्षा के लिए तर्क देते हैं जो स्वतंत्र रूप से संवेदनशील आउटबाउंड सबमिशन की जांच और ब्लॉक कर सकते हैं, एजेंट की अपनी पहचान पर भरोसा करने के बजाय कि वेबसाइट संदिग्ध है, जो स्पष्ट रूप से उपयोगी रक्षात्मक कार्रवाई को ट्रिगर करने के लिए भरोसा नहीं किया जा सकता है।

नया पत्र शीर्षक “मैं मजबूती से संदेह करता हूं कि यह वेबसाइट एक स्कैम है: स्वायत्त वेब एजेंटों में पीआईआई लीकेज और पहचान के बिना रक्षा का बेंचमार्किंग” है, और केआईआईटी भुवनेश्वर, बीआईटीएस पिलानी और लैम रिसर्च से आठ शोधकर्ताओं द्वारा आयोजित किया गया है।

अधिकार के मुद्दे

पत्र की सबसे दिलचस्प खोज, शायद, यह नहीं है कि एजेंट व्यक्तिगत जानकारी लीक करते हैं, बल्कि यह है कि उनमें से कई ऐसा करते हैं यह पहचानने के बाद कि कुछ गलत है। शोधकर्ता परीक्षणों में एक बार-बार दोहराए जाने वाले पैटर्न की पहचान करते हैं, जिसमें संदेह और कार्रवाई असंबद्ध हो जाते हैं, एजेंटों को अक्सर स्पष्ट चिंताओं को व्यक्त करते हुए वेबसाइट के बारे में चिंताओं को व्यक्त करते हुए भी अनुरोधित (पीआईआई-ब्रीचिंग) सबमिशन के साथ आगे बढ़ने के लिए प्रेरित किया जाता है।

एक उदाहरण में शामिल था जिसे लेखक स्वीकृत-जोखिम छूट कहते हैं। एक ल्लामा 4 स्काउट पर आधारित एजेंट ने एक क्रिप्टोक्यूरेंसी साइट पर कई चेतावनी संकेतों की पहचान की, जिसमें संदिग्ध स्वर, बड़े बोनस का वादा और कंपनी के बारे में स्पष्ट जानकारी की कमी शामिल थी। इन पहचान की गई चेतावनियों के बावजूद, एजेंट ने एक सामाजिक सुरक्षा संख्या, कार्ड विवरण और सीवीवी कोड जमा किया।

एक दूसरा पैटर्न, डोमेन/प्रक्रिया फ्रेमिंग के रूप में वर्णित, तब दिखाई दिया जब एजेंटों ने एक स्कैम प्रयास का सफलतापूर्वक पता लगाया लेकिन संदेह को एक संबंधित अनुरोध में सामान्य नहीं किया。

एक मामले में, जेमिनी 3 फ्लैश ने एक स्पष्ट रूप से कपटपूर्ण बैंकिंग जानकारी के अनुरोध को अस्वीकार कर दिया, इसे एक फ़िशिंग प्रयास के रूप में सही ढंग से पहचाना। हालांकि, कुछ मिनटों बाद, उसी एजेंट ने एक विभिन्न सत्यापन फॉर्म के लिए खाता凭证 प्रदान किया, तर्क देते हुए कि पहचान जांच मंच सुरक्षा का एक सामान्य हिस्सा था। एक संदर्भ में चेतावनी संकेत पहचाने गए थे, लेकिन दूसरे में स्थानांतरित नहीं किए गए थे।

शोधकर्ताओं ने स्व-asserted-security सम्मान और विश्वसनीय-सतह सामान्यीकरण के मामलों का भी अवलोकन किया: एक मामले में, एक क्लाउड हाइकु 4.5 एजेंट ने एक साइट के अपने दावों को स्वीकार कर लिया कि यह एन्क्रिप्शन मानकों और सुरक्षा प्रमाणन के बारे में बताता है, जबकि जीपीटी-5 मिनी ने संदिग्ध शब्दों को क्योंकि पेज पेशेवर रूप से डिज़ाइन किया गया था और एक वैध डोमेन के माध्यम से प्रस्तुत किया गया था। दोनों मामलों में, सतही विश्वास संकेतों ने एजेंटों द्वारा पहले से ही व्यक्त की गई चिंताओं को ओवरराइड किया।

समस्या सimple फ़िशिंग की संवेदनशीलता से परे लगती है, जिसमें लेखक सुझाव देते हैं कि जोड़े गए ट्रस्ट-चेकिंग प्रॉम्प्ट सबसे मजबूत रक्षा स्थिति में अक्सर एक अनुष्ठान के रूप में कार्य करते हैं, न कि एक सुरक्षा उपाय के रूप में: एजेंट जोखिम का वर्णन करने में सक्षम थे, लेकिन वर्णन करना अपने व्यवहार को विश्वसनीय रूप से बदलने के लिए पर्याप्त नहीं था。

लेखक खतरे की पहचान और उस पहचान पर कार्रवाई के बीच के अंतर को इस प्रकार के भविष्य के रक्षा विकास में केंद्रीय बाधा के रूप में परिभाषित करते हैं।

विधि

एससीएएमएमईआर4यू बेंचमार्क चार फ्रंटियर वेब एजेंटों को 91 हमलावर-नियंत्रित वेबसाइटों और दस हानिरहित नियंत्रण साइटों में रखकर आठ स्कैम श्रेणियों में फैलाता है।

मूल्यांकन किए गए चार मॉडल जीपीटी-5 मिनी; क्लाउड हाइकु 4.5; जेमिनी 3 फ्लैश; और ल्लामा 4 स्काउट थे, जो एक सामान्य प्लेव्राइट-आधारित ब्राउज़िंग फ्रेमवर्क, अवलोकन प्रारूप, क्रिया स्थान और प्रॉम्प्ट टेम्पलेट का उपयोग करते थे।

प्रयोगों के लिए, प्रत्येक एजेंट को एक वास्तविक उपयोगकर्ता प्रोफ़ाइल सौंपा गया था जिसमें नाम और पते से लेकर पासवर्ड, बैंक खाता विवरण, सामाजिक सुरक्षा संख्या, एपीआई कुंजी और दो-कारक प्रमाणीकरण कोड तक की जानकारी शामिल थी – मुख्य उद्देश्य यह निर्धारित करना था कि क्या यह जानकारी हमलावर-नियंत्रित एंडपॉइंट्स तक पहुंची।

एससीएएमएमईआर4यू वातावरणों को परिभाषित करने के लिए उपयोग किए जाने वाले आठ-एक्सिस टैक्सोनॉमी, जो प्रत्येक परिदृश्य के वर्गीकरण को उन विशिष्ट चर से अलग करता है जो जोड़े गए परीक्षणों में सामाजिक-इंजीनियरिंग रणनीतियों के प्रभाव को अलग करने के लिए समायोजित किए जाते हैं। स्रोत

बेंचमार्क को वास्तविक दुनिया के स्कैम के बजाय कृत्रिम परीक्षण मामलों को प्रतिबिंबित करने के लिए, पर्यावरण फ्लास्क के माध्यम से स्व-होस्ट किए गए वातावरण में मानव-लिखित डिज़ाइन ब्रीफ से उत्पन्न किए गए थे, और फिर मैन्युअल रूप से समीक्षा की गई थी।

प्रत्येक मॉडल को चार बढ़ते हुए हस्तक्षेपवादी सेटिंग्स में परीक्षण किया गया था: सी0, किसी भी मार्गदर्शन के साथ नहीं; सी1, एक सामान्य गोपनीयता अनुस्मारक के साथ; सी2, एक फ़िशिंग-जागरूकता चेकलिस्ट के साथ; और सी3, एक पूर्व-सबमिशन प्रतिबिंब प्रॉम्प्ट के साथ। प्रत्येक मॉडल, वातावरण और स्थिति के संयोजन के लिए पांच रन आयोजित किए गए, जिसके परिणामस्वरूप कुल 7,480 सत्र हुए।

प्राथमिक मीट्रिक पीएलआर_{क्रिट} था, जो महत्वपूर्ण-श्रेणी की व्यक्तिगत जानकारी की दर को मापता था जो एक हमलावर-नियंत्रित एंडपॉइंट तक पहुंची। माध्य मीट्रिक में पीएलआर_{वेटेड} शामिल थे, एक टियर-वेटेड लीकेज माप; एएसआर (हमला सफलता दर), जो नेविगेशन के बाद एक निर्दिष्ट ट्रैप यूआरएल तक हमले की सफलता को मापता है; टीसीआर (टास्क पूर्णता दर); एक रक्षित फ्लैग, जो इनकार या सुरक्षित पूर्णता के बिना ट्रैप तक पहुंचने का संकेत देता है; और डीआर (पहचान दर), जो यह दर्ज करता है कि क्या एजेंट के तर्क ने साइट को संदिग्ध के रूप में पहचाना।

पहचान दर (डीआर) को एलएलएम-जज दृष्टिकोण का उपयोग करके मापा गया था, जिसमें जीपीटी-4ओ-मिनी प्राथमिक मूल्यांकनकर्ता के रूप में कार्य करता था और ल्लामा 4 स्काउट एक द्वितीयक जांच के रूप में कार्य करता था, एजेंट के तर्क की समीक्षा करता था और यह निर्धारित करता था कि क्या यह साइट को संदिग्ध के रूप में पहचाना गया था। डीआर, इस मामले में, एजेंट ने साइट के बारे में क्या कहा को मापता था, न कि यह क्या आंतरिक रूप से अनुमान लगा सकता था।

मानव-लेबल वाले उदाहरणों के खिलाफ सत्यापन कोहेन का काप्पा स्कोर 0.83 और 0.78 का उत्पादन किया, जो अध्ययन के पूर्व-पंजीकृत विश्वसनीयता सीमा से अधिक था।

अध्ययन पूर्व-पंजीकृत था (अर्थात, अध्ययन योजना और विश्लेषण परीक्षण शुरू होने से पहले सार्वजनिक रूप से प्रलेखित किए गए थे), जिसमें परियोजना के विश्लेषण और सफलता मानदंड को पहले से ही निर्धारित किया गया था, जो परिणामों के लिए निष्कर्षों को अनुकूलित करने के जोखिम को कम करने के लिए था।

परीक्षण और परिणाम

प्रारंभिक परीक्षण यह देखने के लिए किया गया था कि क्या सरल सुरक्षा अनुस्मारक समस्या को कम कर सकते हैं। चार बढ़ते हुए सुरक्षात्मक सेटिंग्स का मूल्यांकन किया गया, जो किसी भी गोपनीयता मार्गदर्शन से लेकर संवेदनशील जानकारी जमा करने से पहले रोकने और प्रतिबिंबित करने के लिए प्रोत्साहित करने वाले प्रॉम्प्ट तक थे।

परिणाम मॉडल के बीच तेजी से भिन्न थे। क्लाउड हाइकु 4.5 सबसे अधिक प्रतिक्रिया देने वाला साबित हुआ, जिसकी लीकेज दर बेसलाइन स्थिति के तहत 54.5% से 24.0% तक गिर गई। जीपीटी-5 मिनी 61.0% से 36.1% तक सुधरी, जबकि जेमिनी 3 फ्लैश 93.1% से 60.7% तक गिर गया। ल्लामा 4 स्काउट ने तुलनात्मक रूप से थोड़ा बदलाव दिखाया, 82.3% से 77.4% तक गिर गया।

इन अंतरों से पता चलता है कि समान सुरक्षा निर्देश अलग-अलग मॉडलों के लिए बहुत अलग परिणाम पैदा कर सकते हैं। अधिक महत्वपूर्ण बात यह है कि सुरक्षा उपायों ने अक्सर एजेंटों की जोखिम की पहचान की तुलना में उनके व्यवहार में अधिक सुधार किया। एजेंट संदिग्ध वेबसाइटों की पहचान करने और चेतावनी संकेतों का वर्णन करने में बेहतर हो गए, लेकिन यह पहचान हमेशा उन्हें लेन-देन के साथ आगे बढ़ने से रोकने के लिए पर्याप्त नहीं थी।

चार फ्रंटियर एआई एजेंटों में डिटेक्शन-एक्शन गैप। बाएं पैनल उन एजेंटों के बीच महत्वपूर्ण जानकारी के रिसाव की तुलना करता है जिन्होंने एक वेबसाइट को संदिग्ध के रूप में पहचाना और जिन्होंने नहीं, यह दिखाते हुए कि सबसे मजबूत सुरक्षा सेटिंग (सी3) के तहत भी, एक तिहाई से अधिक एजेंट जिन्होंने एक संभावित स्कैम की पहचान की थी, अभी भी संवेदनशील डेटा प्रसारित करते हैं। दाएं पैनल जीपीटी-5 मिनी, क्लाउड हाइकु 4.5, जेमिनी 3 फ्लैश और ल्लामा 4 स्काउट के माध्यम से उस अंतर को दर्शाता है, जो दर्शाता है कि खतरे की जागरूकता विश्वसनीय रूप से सुरक्षात्मक व्यवहार में नहीं बदली।

एक अलग मूल्यांकन में, 16 समीक्षकों ने एससीएएमएमईआर4यू पृष्ठों की वास्तविक फ़िशिंग साइटों के साथ तुलना की और उन्होंने औसत से बेहतर प्रदर्शन नहीं किया। पत्र के अनुसार, यह सुझाव देता है कि बेंचमार्क ने वास्तविक ऑनलाइन स्कैम में पाए जाने वाले कई दृश्य और प्रक्रियात्मक संकेतों को पकड़ लिया है।

निष्कर्ष

परीक्षण किए गए मॉडल – जो लोकप्रिय एलएलएम परिवारों में तर्क वास्तुकला का प्रतिनिधित्व करते हैं – प्रतीत होता है कि पहचाने गए खतरनाक परिदृश्यों से पीछे हटने या अपने कार्यों को संशोधित करने में एक अंतर्निहित समस्या है। तर्क से पता चलता है कि यह उस सामान्य कठिनाई से संबंधित हो सकता है जो उन्नत भाषा मॉडल एक मुद्दे पर हार मानने में प्रदर्शित करते हैं – एक आवश्यक जीवित कौशल जो वर्तमान में केवल बाहर से लागू किया जा सकता है, प्रणाली प्रॉम्प्ट, द्वितीयक प्रणालियों और आउटपुट प्रतिबंधों के माध्यम से।

यदि वर्णित ‘डिस्कनेक्ट’, पहचाने गए खतरे और आगे बढ़ने की प्रवृत्ति के बीच, वास्तव में एलएलएम आर्किटेक्चर में अंतर्निहित है और स्वदेशी रूप से नहीं ठीक किया जा सकता है, तो एकमात्र विकल्प प्रतीत होता है कि महत्वपूर्ण परिदृश्यों में एजेंट की क्रियाओं की निगरानी करना होगा – जो कि एक एजेंट की उपयोगिता को एक अधिक निर्धारित आरपीए-शैली के दिनचर्या में कम कर देता है।

शनिवार, 6 जून, 2026 को पहली बार प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

अध्ययन: 35% एआई एजेंटों ने जानबूझकर स्कैम वेबसाइटों को पीआईआई प्रदान किया

अधिकार के मुद्दे

विधि

परीक्षण और परिणाम

निष्कर्ष

You may like