Anderson рдХрд╛ рдПрдВрдЧрд▓
рдХреИрдирд░реА рдЬреЛ рдПрдЖрдИ рдЯреНрд░реИрдлрд┐рдХ рдХрд╛ рдЦреБрд▓рд╛рд╕рд╛ рдХрд░рддрд╛ рд╣реИ

एक नए अध्ययन में, शोधकर्ताओं ने वेबसाइटों पर अद्वितीय वाक्यांश छिपाए और एआई चैटबॉट्स को उन्हें दोहराते हुए पकड़ा, छिपी हुई स्क्रैपिंग पाइपलाइनों को उजागर करते हुए, और कथित तौर पर कुछ सबसे बड़ी एआई कंपनियों से धोखाधड़ी की प्रथाओं को भी उजागर किया।
एआई कंपनियां एक दौड़ में प्रतिस्पर्धा कर रही हैं जो कटthroat होने की भविष्यवाणी की जा रही है; इसलिए वे वास्तव में अपने एआई मॉडलों को प्रशिक्षण डेटा के लिए अपनी वेबसाइट/वेबसाइटों को स्क्रैप करने के लिए बहुत, बहुत चाहते हैं। कभी-कभी लगातार; अक्सर अपनी घोषित इच्छाओं के उल्लंघन में; और अक्सर मास्क के रूप में मानव पाठकों के रूप में, या फिर ‘मित्रवत’ बॉट जैसे GoogleBot के रूप में, अपनी सच्ची पहचान के रूप में एआई डेटा-स्क्रेपर के रूप में नहीं।
वर्तमान में अनुमान है कि नए डेटा को हासिल करने के लिए डिज़ाइन किए गए स्वचालित एआई स्क्रेपर, और उपयोगकर्ताओं की तत्काल मांग के लिए नवीनतम समाचार वाया आरएजी के माध्यम से प्रतिक्रिया देंगे, एक वर्ष के भीतर मानवों से अधिक होंगे।
यह तीव्र, निरंतर और पुनरावृत्ति डेटा ग्रैब आंशिक रूप से इस तथ्य के कारण हो रहा है कि प्रत्येक एआई इकाई को अपनी वर्तमान प्रति इंटरनेट की आवश्यकता है, कॉमन क्रॉल जैसे बढ़ते जंग खाए भंडार के बजाय; और शायद, क्योंकि कंपनियां कानूनी प्रतिबंधों के आने से डरती हैं, और आईपी-वॉशिंग के साथ जल्द से जल्द शुरू करने की आवश्यकता है।
इसके अलावा, कई साइटों को संभावित रूप से स्कैन करके, एआई कंपनियां अपनी वर्तमान अभी तक महान नहीं क्षमता में सुधार करने की उम्मीद कर सकती हैं जो सूचनात्मक और सटीक रूप से प्रतिक्रिया देने में सक्षम हैं उभरती हुई स्थितियों में।
किसी भी मामले में, ऐसा लगता है कि इन प्रथाओं के बाहर नियंत्रण से और अव्यवस्थित होने के दावे में कुछ मेरिट है।
समस्या यह है कि यह साबित करना आसान नहीं है कि एआई कंपनियां अपने लिए नवीनतम डेटा की प्यास बुझाने के लिए क्या कर रही हैं।
डेटा का पालन करें
एक सुझाव, एक नए पत्र में प्रस्तावित, जासूसों, मुखबिरों, और अन्य माने जाने वाले दुर्भाग्यों की खोज के लिए एक पुराने तरीके का एक संस्करण प्रदान करता है: उन्हें कस्टम-टेलर्ड जानकारी के संपर्क में लाना जो किसी और को नहीं पता है, और देखना कि क्या और कहां वह जानकारी दिखाई देती है। यदि किसी और को वह जानकारी नहीं पता थी, तो रिसाव का स्रोत साबित हो गया है:

शोधकर्ताओं का मूल विचार, नए पत्र में रेखांकित, प्रत्येक दौरा करने वाले बॉट को एक ही पृष्ठ का थोड़ा अलग संस्करण देना है, फिर चैटबॉट्स से उस पृष्ठ के बारे में पूछें और देखें कि कौन सा संस्करण वापस आता है, जिससे यह पता लगाना संभव हो जाता है कि कौन से छिपे हुए वेब लुकअप ने उत्तर दिया।
यह लोकप्रिय दृष्टिकोण शायद सबसे अच्छी तरह से एंटी-पायरेसी उपायों के माध्यम से जाना जाता है जो अकादमी पुरस्कार समिति द्वारा 2000 के दशक में अपनाया गया था, जिसमें मतदान सदस्यों को दिए गए स्क्रीनर डीवीडी में डिजिटल रूप से अद्वितीय आईडी का निशान लगाया गया था जो कथित तौर पर मूल प्राप्तकर्ता को वापस दिया जा सकता था यदि फिल्म को कभी इंटरनेट पर लीक किया गया था। जासूसी में, इस तकनीक को बेरियम भोजन के रूप में जाना जाता है, जो एक रेडियोधर्मी आइसोटोप तरल का उपयोग करके रक्त वाहिकाओं को प्रकाशित करने और बाधाओं की पहचान करने के लिए एक चिकित्सा स्कैन में किया जाता है।
(वास्तव में, चुना गया ‘कैनरी’ रूपक इस दृश्य के लिए बहुत उपयुक्त नहीं है, जिसे पत्र संबोधित करता है, हालांकि यह उपरोक्त सभी रूपों से अधिक पहचानने योग्य है)
नए शोध के मामले में, लेखकों ने बीस ‘शहद के छत्ते’ वेब डोमेन बनाए और प्रत्येक अद्वितीय आगंतुक को अद्वितीय टोकन दिए, ताकि प्रत्येक को अलग-अलग तथ्य (ऊपर दिए गए चित्र में बाएं से दूसरे स्तंभ में देखें) परोसे जाएं।
उद्देश्य एलएलएम (एआई) स्क्रेपर की सच्ची पहचान और व्यवहार को उजागर करना था। 22 उत्पादन एलएलएम सिस्टम में, तकनीक एलएलएम को खिलाने वाले स्क्रेपर की पहचान करने में सक्षम थी, क्योंकि – थोड़ी देर के बाद ‘प्लांट’ किए गए अद्वितीय डेटा संकेतकों के साथ – केवल एआई से सही प्रश्न पूछना एक महीने या दो बाद अद्वितीय टोकन का उत्पादन करेगा।
गलत खेल
बिल्कुल, यह जरूरी नहीं होगा अगर हम एआई के ‘वाइल्ड वेस्ट’ चरण में नहीं होते, और अगर कंपनियां वास्तव में छोटे पाठ फ़ाइलों का पालन करती हैं जो डोमेन एआई कंपनियों को उनके डेटा को स्क्रैप न करने के लिए उपयोग कर सकते हैं।
जैसा कि शोधकर्ताओं के परीक्षणों में सामने आया, केवल एक एआई कंपनी अपने स्वयं के घोषित व्यवहार और सिद्धांतों का सम्मान करने के लिए दिखाई दी, और केवल डकडकगो का डकडकबॉट ही अपने आप को सटीक रूप से प्रस्तुत करने और लक्ष्य डोमेन बंद होने पर या डोमेन के रोबोट्स.txt फ़ाइल को बदलकर एआई स्क्रैपिंग से इनकार करने के लिए दिखाई दिया।
बड़े खिलाड़ियों ने इसके बजाय जेनेरिक ब्राउज़र आईडी की नकल की, और – पर्प्लेक्सिटी के 2025 के नेतृत्व के अनुसार – गूगलबॉट की नकल की, जिसे वेबसाइट डेटा के लिए ‘गोल्डन पास’ मिला है क्योंकि यह ट्रैफिक के बदले में डेटा लौटाता है (नोट करें कि यह बदल रहा है)।
सबसे खराब अपराधी, पत्र के अनुसार, किमी एआई इकोसिस्टम को खिलाने वाला स्क्रेपर था:
‘किमी इस व्यवहार का सबसे चरम मामला प्रतीत होता है: कई यूज़र-एजेंट किमी द्वारा आउटपुट किए गए डेटा से संबंधित प्रतीत होते हैं। हम यह निष्कर्ष निकालते हैं कि किमी स्क्रैपिंग करते समय यूज़र-एजेंट स्ट्रिंग्स की एक बड़ी सूची के माध्यम से घूमता है, संभवतः बॉट डिटेक्शन से बचने के लिए।’
जो इस समस्या को एक बड़ी चुनौती बनाता है वह यह है कि जब चैटजीपीटी या समान उपकरण ‘कुछ देखते हैं’, तो यह प्रक्रिया बड़े पैमाने पर अदृश्य है, कंपनियां केवल आंशिक या स्व-रिपोर्ट किए गए खातों की पेशकश करती हैं कि उनके सिस्टम लाइव जानकारी कैसे एकत्र करते हैं। यह साइट मालिकों को यह स्पष्ट तरीके से बताने के लिए कोई तरीका नहीं छोड़ता है कि कौन से बॉट वास्तव में उनके पृष्ठों पर जा रहे हैं, चाहे वे सीधे हों या खोज इंजनों के माध्यम से रूट किए गए हों, या उस डेटा का अंतिम उत्तर में कैसे समाप्त होता है।
नए अध्ययन के निष्कर्षों से पता चलता है कि एलएलएम अपने स्वयं के कैश्ड प्रविष्टियों का उपयोग एक डोमेन से, अपने स्वयं के आंतरिक एसईओ-शैली की सूची का उपयोग कर सकते हैं, और अक्सर उन कंपनियों के खोज परिणामों से जानकारी का उपयोग करते हैं जिनके साथ, कई मामलों में, उनका कोई सार्वजनिक संबंध नहीं है, और कोई स्पष्ट उपयोग समझौता नहीं है।
लेखकों का मानना है कि यह वेब-टू-एआई पाइपलाइन में एक अतिरिक्त परत की अस्पष्टता को दर्शाता है, जहां ज्ञात एआई क्रॉलर को ब्लॉक करना डेटा के उपयोग को रोकने के लिए पर्याप्त नहीं हो सकता है, और समावेश से बचने के लिए खोज इंडेक्सिंग से完全 बाहर निकलने की आवश्यकता हो सकती है – एक अवांछनीय विकल्प जब पारंपरिक एसईओ और एलएलएम-आधारित खोज के बीच तनाव अभी भी दूर से दूर है।
नए पत्र का शीर्षक कैनरी टोकन का उपयोग करके एआई वेब स्क्रेपर की पहचान है, और ड्यूक विश्वविद्यालय, पिट्सबर्ग विश्वविद्यालय, और कार्नेगी मेलन से छह शोधकर्ताओं द्वारा आता है।
विधि
शोधकर्ताओं ने सामान्य टेम्पलेट्स के तहत बीस .com डोमेन के साथ वेबसाइटें स्थापित कीं: एक कलात्मक पोर्टफोलियो या एक कंपनी की वेबसाइट। प्रत्येक टेम्प्लेट में 10 प्लेसहोल्डर थे जिन्हें अंततः प्रत्येक आगंतुक के अनुमानित प्रोफाइल (जैसे आईपी पते, कैनवास फिंगरप्रिंटिंग, और विभिन्न अन्य ‘सूंघने’ विधियों) के आधार पर अद्वितीय टोकन से भरा जाएगा:

प्रयोग में उपयोग किए जाने वाले टेम्पलेट और वेरिएबल प्लेसहोल्डर का एक उदाहरण। प्रत्येक अनुमानित अद्वितीय आगंतुक को स्थायी रूप से अनुकूलित कस्टम वेरिएबल प्राप्त होंगे।
प्रत्येक अनुमानित अद्वितीय आगंतुक को कस्टम वेरिएबल प्राप्त होंगे। यदि प्रणाली ने पहले से ही आगंतुक की वापसी का पता लगाया, तो पहले की तरह ही वेरिएबल प्रस्तुत किए जाएंगे। वेरिएबल पाइथन फ़ेकेर लाइब्रेरी का उपयोग करके उत्पन्न किए गए थे, साथ ही (अनिर्दिष्ट) यादृच्छिक संख्या जनरेटर।
शहद के छत्ते डोमेन विभिन्न इंडेक्स जैसे गूगल और बिंग में जमा किए गए थे, और अन्य पूर्व-मौजूदा डोमेन से लिंक किए गए थे जिन्हें लेखकों ने नियंत्रित किया था।
दो महीने की अनुमति दी गई, एक व्यापक स्कैनिंग आवृत्ति के लिए एक आवश्यक अंतराल के रूप में विभिन्न खोज इंजन और समान बॉट्स से, साथ ही साथ (संभावित रूप से) जैविक यात्राओं के लिए। इस बिंदु पर, शोधकर्ता अब लक्षित एआई चैटबॉट्स (नीचे सूचीबद्ध) को प्रश्न पूछने की स्थिति में थे:
|
|
स्क्रिप्ट बनाई गई थी ताकि प्रत्येक प्रणाली को एपीआई के माध्यम से प्रश्न पूछा जा सके। जब यह संभव नहीं था, और जब स्वचालित समाधान जैसे सेलेनियम को एआई पोर्टल के पता लगाने वाले द्वारा ब्लॉक किया गया था, तो एलएलएम के आधिकारिक जीयूआई के माध्यम से मैनुअल इंटरैक्शन किए गए थे।
प्रारंभिक टेम्पलेटेड एक्सचेंज (ऊपर दिए गए चित्र में देखें) के बाद, लेखकों ने एक द्वितीय प्रोम्प्ट का पालन किया जो एक संबद्ध टोकन में कंपनी या व्यक्ति के नाम को प्राप्त करने के लिए डिज़ाइन किया गया था।
प्रयोग तीन स्थितियों में किए गए थे: एक पूरी तरह से सुलभ वेबसाइट; वेबसाइट ऑफलाइन ले जाया गया; और वेबसाइट के साथ एक रोबोट्स.टेक्सट प्रतिबंध जो स्क्रैपिंग को प्रतिबंधित करता है। ये प्रयोग क्रमिक रूप से एक के बाद एक किए गए थे, क्योंकि बाद के चरण पहले के चरणों पर निर्भर करते थे।
अंत में, सभी साइटों को ऑनलाइन वापस लाने के साथ, अंतिम चरण एलएलएम आउटपुट का परीक्षण सप्ताह के अंतराल पर करेगा।
परिणाम
चार लक्ष्य एलएलएम शोधकर्ताओं की विधियों के लिए पूरी तरह से प्रतिरोधी साबित हुए, और डीपसीक, हुन्युआन, जीएलएम, और लिक्विड के लिए कोई परिणाम प्राप्त नहीं किया जा सका।
एआई बॉट्स की प्रवृत्ति के संबंध में जो गैर-एआई ट्रैफिक की नकल करते हैं, लेखकों का कहना है:
‘पहले पार्टी के घोषित एजेंटों के अलावा, कई एआई सिस्टम ने जेनेरिक ब्राउज़र यूज़र-एजेंट स्ट्रिंग्स से जुड़े सामग्री लौटाई। हमने 18 एआई सिस्टम में से छह के लिए यह व्यवहार देखा, जिनके लिए हमें यूज़र-एजेंट जानकारी मिली। ‘
‘यह परिणाम सुझाव देता है कि कुछ एआई सिस्टम वेबसाइट सामग्री प्राप्त कर सकते हैं जो सामान्य ब्राउज़र ट्रैफिक के समान अनुरोधों के माध्यम से होता है, जो यूज़र-एजेंट-आधारित ब्लॉकिंग को कठिन बना देता है।’
अर्नी ने बaiduस्पाइडर और एक क्रोम पहचान लौटाई; ग्रोक ने गूगलबॉट के साथ दो ब्राउज़र एजेंटों को जोड़ा; सोलर ने केवल ब्राउज़र पहचान का उपयोग किया; क्वेन ने गूगलबॉट के साथ क्रोम को मिलाया; और किमी को कई ब्राउज़र-शैली के एजेंटों से जोड़ा गया था।
कई सिस्टम तीसरे पक्ष के खोज इंजन स्क्रेपर पर निर्भर प्रतीत होते हैं, जिन संबंधों का अक्सर खुलासा नहीं किया जाता है। गूगलबॉट, बिंगबॉट, और ब्रेवबॉट से जुड़ी सामग्री 18 विश्लेषण किए गए सिस्टम में से दस द्वारा लौटाई गई थी, अक्सर ऐसे मामलों में जहां एआई प्रदाता और खोज इंजन के बीच कोई सार्वजनिक संबंध नहीं था – हालांकि कुछ लिंक, जैसे क्लाउड का ब्रेव का उपयोग, दस्तावेज हैं।
लेखकों का तर्क है कि यह खोज परिणामों के उपभोग को दर्शाता है, सीधे स्क्रैपिंग के बजाय, क्योंकि एएसएन जांच संकेत देती है कि ट्रैफिक अपेक्षित खोज इंजन नेटवर्क से आया था, न कि नकली पहचान से।
यह सुझाव देता है, पत्र का दावा है, वेब-टू-एआई पाइपलाइन में एक अतिरिक्त परत की अस्पष्टता, जहां ज्ञात एआई क्रॉलर को ब्लॉक करना डेटा के उपयोग को रोकने के लिए पर्याप्त नहीं हो सकता है, और समावेश से बचने के लिए खोज इंडेक्सिंग से पूरी तरह से बाहर निकलने की आवश्यकता हो सकती है – एक अवांछनीय विकल्प जब पारंपरिक एसईओ और एलएलएम-आधारित खोज के बीच तनाव अभी भी दूर से दूर है।
कैश केवल
लेखकों ने तब परीक्षण किया कि स्रोत को हटाने से चैटबॉट्स के आउटपुट पर क्या प्रभाव पड़ेगा, साइटों को ऑफलाइन ले जाकर और एक सप्ताह के अंतराल के बाद प्रणालियों को फिर से प्रश्न पूछकर। पत्र के अनुसार, कई चैटबॉट्स ने एक सप्ताह की डाउनटाइम के बाद भी ‘प्लांट’ की गई सामग्री का पुन: उत्पादन जारी रखा, जिससे पता चलता है कि प्रतिक्रियाएं लाइव पुनर्प्राप्ति के बजाय कैश्ड डेटा से आ रही थीं।
यह दृढ़ता सबसे अधिक स्पष्ट थी जो खोज इंजन क्रॉलर से जुड़े सिस्टम में, जहां पहले से इंडेक्स की गई सामग्री स्रोत पृष्ठों के अधिक उपलब्ध होने के बावजूद उपलब्ध रही, हालांकि समान व्यवहार भी ब्राउज़र-जैसे एजेंटों से जुड़े सिस्टम में देखा गया था, जो दर्शाता है कि कैशिंग खोज-वापसी वाली पाइपलाइनों से परे हो सकती है।
पत्र सुझाव देता है कि एक बार सामग्री कैश में प्रवेश कर जाती है, चाहे वह चैटबॉट द्वारा बनाए रखा गया हो या खोज इंडेक्स के माध्यम से एक्सेस किया गया हो, मूल पृष्ठ को हटाने से सामग्री को बाद के आउटपुट से विश्वसनीय रूप से हटाया नहीं जा सकता है।
निष्कर्ष
लेखक स्वीकार करते हैं कि इस ‘सिलो’ दृष्टिकोण से कुछ ‘रिसाव’ होगा, क्योंकि एक एलएलएम को निर्देशित किए गए अद्वितीय टोकन कभी-कभी खोज परिणामों में समाप्त हो सकते हैं (जो टोकन के वास्तविक मालिक द्वारा उत्पन्न किए जाते हैं), जो तब दूसरे एलएलएम द्वारा उपभोग किए जाते हैं। हालांकि, इस तरह की योजनाओं में, इस तरह के प्रसार की अपरिहार्यता है, और पहली बार होने का क्षण महत्वपूर्ण और बताने वाला है।
जो देखने की बात है वह यह है कि इस तरह की योजना को बड़े पैमाने पर कितनी अच्छी तरह से लागू किया जा सकता है, खासकर जब लेखकों का अवलोकन है कि आप बहुत जल्दी संदर्भ-युक्त टोकन से बाहर निकल जाएंगे।
हालांकि, यह थोड़ा बिंदु चूक जाता है, क्योंकि एआई कंपनियों की अपनी झूठी स्क्रैपिंग नीतियों के स्पष्ट प्रमाण के माध्यम से अपनी हिम्मत से गुजरने की क्षमता में सीमा भी हो सकती है। इसके अलावा, जब तक कि ऐसी कंपनियां अपनी पहचान को मास्क करने के लिए घरेलू आईपी पते के माध्यम से घूमने के संभावित रूप से महंगे मार्ग पर नहीं जाती हैं, तो यह केवल एक संगठन को पहचानने और प्रकाशित करने के लिए पर्याप्त होगा एक स्पैमहाउस-शैली की ब्लैकलिस्ट मेंदाची एआई-बॉट आईपी या एएसएन; प्रक्रिया को औद्योगिक बनाने की आवश्यकता नहीं है ताकि यह प्रभावी हो।
पहली बार गुरुवार, 14 मई, 2026 को प्रकाशित












