Anderson का एंगल

एआई प्रदूषण खोज परिणामों में ‘पुनर्प्राप्ति पतन’ के जोखिम को बढ़ाता है

Published February 19, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

जैसे ही एआई सामग्री वेब को प्रदूषित करती है, एक नया हमला वेक्टर सांस्कृतिक सहमति के लिए लड़ाई में खुलता है।

कोरियाई खोज कंपनी द्वारा किए गए शोध का तर्क है कि जैसे ही एआई-जनित पृष्ठ खोज परिणामों में प्रवेश करते हैं, वे खोज और रैंकिंग पाइपलाइनों की स्थिरता को कमजोर करते हैं और उन प्रणालियों को कमजोर करते हैं – जैसे कि पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) – जो रैंकिंग पर निर्भर करती हैं ताकि यह तय किया जा सके कि कौन सी जानकारी सतह पर है और विश्वसनीय है, जिससे भ्रामक या असटीक सामग्री को प्राधिकृत माना जाने का जोखिम बढ़ जाता है।

शोधकर्ताओं द्वारा इस सिंड्रोम के लिए गढ़ा गया शब्द पुनर्प्राप्ति पतन है, जो ज्ञात खतरे से अलग है मॉडल पतन (जहां एआई अपने स्वयं के आउटपुट पर प्रशिक्षित होता है प्रगतिशील रूप से खराब हो जाता है)।

एक पुनर्प्राप्ति पतन परिदृश्य में, एआई-जनित सामग्री प्रगतिशील रूप से खोज इंजन परिणामों को प्रभावित करती है, जिससे यहां तक कि जब उत्तर सतही रूप से सटीक रहते हैं, तो भी मूल मानव स्रोतों से साक्ष्य आधार विच्छिन्न हो जाता है। फिर भी, यह ‘मूल रहित’ डेटा खोज परिणामों में उच्च स्थान प्राप्त करने के लिए तैयार लगता है:

‘एआई-जनित पाठ के प्रसार के साथ, प्रसार के साथ, चुनौतियाँ में अट्रिब्यूशन और प्री-प्रशिक्षण डेटा गुणवत्ता की गुणवत्ता में तेजी से वृद्धि हुई है। पारंपरिक कीवर्ड स्पैम के विपरीत, आधुनिक सिंथेटिक सामग्री सेमेंटिक रूप से सुसंगत है, जिससे यह रैंकिंग प्रणालियों में मिल जाती है और प्राधिकृत साक्ष्य के रूप में पाइपलाइनों के माध्यम से प्रसारित होती है।’

लेख का तर्क है कि यह एक ‘संरचनात्मक रूप से भंगुर’ वातावरण बनाएगा, जिसमें रैंकिंग संकेत एआई-उत्पादित, एसईओ-अनुकूलित पृष्ठों को पसंद करते हैं, मानव-लिखित स्रोतों को समय के साथ एक गुप्त तरीके से विस्थापित करते हैं, अर्थात्, स्पष्ट रूप से उत्तर की गुणवत्ता में गिरावट के बिना:

‘वेब पर एआई-जनित सामग्री की वृद्धि जानकारी पुनर्प्राप्ति के लिए एक संरचनात्मक जोखिम प्रस्तुत करती है, क्योंकि खोज इंजन और पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) प्रणालियां बड़े भाषा मॉडल (एलएलएम) द्वारा उत्पादित साक्ष्य का उपभोग करती हैं।’

‘हम इस पारिस्थितिकी-स्तरीय विफलता मोड को पुनर्प्राप्ति पतन के रूप में वर्णित करते हैं, जो एक दो-चरणीय प्रक्रिया है जहां (1) एआई-जनित सामग्री खोज परिणामों को प्रभावित करती है, स्रोत विविधता को कमजोर करती है, और (2) कम गुणवत्ता वाली या विरोधी सामग्री पुनर्प्राप्ति पाइपलाइन में प्रवेश करती है।’

शोधकर्ताओं का तर्क है कि एक बार ‘प्रभुत्व’ चरण स्थापित हो जाने के बाद,同 पुनर्प्राप्ति पाइपलाइन जानबूझकर प्रदूषण के लिए अधिक संवेदनशील हो जाती है, क्योंकि विरोधी पृष्ठ समान अनुकूलन तंत्र का फायदा उठाकर दृश्यता प्राप्त कर सकते हैं:

‘पुनर्प्राप्ति पतन के ढांचे को स्थापित करके, यह काम जानकारी पुनर्प्राप्ति को फिर से आकार देने वाली सिंथेटिक सामग्री को समझने के लिए आधार तैयार करता है। इन जोखिमों को कम करने के लिए, हम प्रासंगिकता, तथ्यात्मकता और प्रोवेनेंस को संयुक्त रूप से अनुकूलित करने वाली रक्षात्मक रैंकिंग रणनीतियों की ओर बढ़ने का प्रस्ताव करते हैं।’

पुनर्प्राप्ति पतन को संभावित रूप से मॉडल पतन को बढ़ा सकता है, क्योंकि यह ‘फोटोकॉपी प्रभाव’ के ऊपर दुर्भावनापूर्ण इरादे की एक परत जोड़ता है, जहां एआई प्रगतिशील रूप से एआई-जनित आउटपुट पर खिलाता है। वास्तविक समय के खोज परिणामों में ‘सच्चाई’ पर स्पष्ट सहमति को प्रभावित करने के अलावा, असटीकताएं और हमले बाद में प्रशिक्षित एलएलएम में प्राधिकृत स्रोतों के रूप में स्थापित हो सकते हैं।

इस नए कार्य का शीर्षक पुनर्प्राप्ति पतन जब एआई वेब को प्रदूषित करता है है, और यह नेवर कॉर्पोरेशन के तीन शोधकर्ताओं से आता है।

विधि

पुनर्प्राप्ति प्रणालियों के माध्यम से एआई-जनित सामग्री कैसे प्रसारित होती है, इसका परीक्षण करने के लिए, शोधकर्ताओं ने एमएस मार्को डेटासेट और बेंचमार्क से 1000 प्रश्न/उत्तर जोड़े को यादृच्छिक रूप से नमूना लिया, जो खुले डोमेन प्रश्नों के साथ मानव-मान्य संदर्भ उत्तरों के जोड़े से बना है। इन्हें पुनर्प्राप्ति को आधार बनाने और उत्पन्न प्रतिक्रियाओं की तथ्यात्मक सही ढंग से मूल्यांकन करने के लिए उपयोग किया गया था।

प्रत्येक एमएस मार्को प्रश्न के लिए परीक्षणों में, प्रत्येक शब्द के लिए शीर्ष-रैंकिंग एसईओ परिणामों के आधार पर गूगल खोज से दस वेब दस्तावेज़ पुनर्प्राप्त किए गए, जिससे अंततः 10,000 दस्तावेजों का एक पूल तैयार हुआ।

दस्तावेजों की तथ्यात्मक वैधता का मूल्यांकन प्रत्येक की तुलना एमएस मार्को मूल सत्य के खिलाफ करते हुए किया गया था, जीपीटी-5 मिनी को निर्णायक के रूप में उपयोग किया गया था।

सामग्री फार्म सिमुलेशन

सामग्री फार्म से जुड़े सामान्य, गैर-विरोधी लेखों की गुणवत्ता स्तर को अनुकरण करने के लिए, लेखकों ने वास्तव में नई सिंथेटिक लेख बनाने के लिए जीपीटी-5 नैनो ओपनएआई मॉडल का उपयोग किया, क्योंकि यह सामग्री मिलों द्वारा उपयोग की जाने वाली एआई का ‘सस्ता’ स्तर है।

इसके विपरीत, विरोधी पोस्ट (अर्थात्, भ्रामक जानकारी फैलाने वाली सामग्री या जिसमें भ्रामक जानकारी होती है) का अनुकरण करने के लिए, वास्तविक दुनिया के संदर्भों का उपयोग नहीं किया गया था। इसके बजाय, नमूनों के पहले मसौदे को एक पारंपरिक क्लिकबेट/एसईओ जनरेटर के साथ बनाया गया था, और फिर जीपीटी-5 नैनो को यह कार्य सौंपा गया था कि वह कुछ तथ्यों को विश्वसनीय लेकिन असत्य विकल्पों से बदल दे। जीपीटी-5 नैनो ने प्रायोगिक संदर्भ के लिए सेमेंटिक पुनर्मूल्यांकन भी किया।

एआई संतृप्ति को समय के साथ अनुकरण करने के लिए, एक 20-राउंड दूषण प्रक्रिया चलाई गई, जिसमें प्रति प्रश्न एक सिंथेटिक दस्तावेज़ एक निश्चित सेट के दस मूल दस्तावेजों में जोड़ा गया, एआई हिस्सेदारी को 0% से 66.7% तक बढ़ाया गया।

एसईओ-शैली पूल के लिए, जनरेटर को ‘एक एसईओ विशेषज्ञ के रूप में अभिनय करने’ और मूल दस्तावेजों से उच्च-आईडीएफ कीवर्ड एकीकृत करने के लिए प्रेरित किया गया था, जिससे पुनर्प्राप्ति की संभावना बढ़ जाती है।

विरोधी पूल के लिए, प्रेरणा को इस तरह डिज़ाइन किया गया था कि यह प्रवाहपूर्ण, प्राकृतिक-सounding गद्य को बनाए रखे, जबकि नामित संस्थाओं और संख्यात्मक विवरण को सूक्ष्म रूप से बदल दे, जिससे दस्तावेज़ बनते हैं जो सांख्यिकीय फिल्टर को झंडा नहीं दिखाते हैं, जबकि तथ्यात्मक सटीकता को चुपचाप कमजोर करते हैं।

मीट्रिक

प्रयोगों के लिए तीन मीट्रिक अपनाई गई: पूल दूषण दर (पीसीआर), जो यह निर्धारित करने के लिए कि कितना दस्तावेज़ पूल एआई-जनित था; एक्सपोजर दूषण दर (ईसीआर), जो मापती है कि शीर्ष दस खोज परिणामों में से कितने एआई स्रोतों से आए थे (जो वास्तव में पुनर्प्राप्ति पाइपलाइन में प्रवेश करते हैं); और उद्धरण दूषण दर (सीसीआर), जो यह रिकॉर्ड करती है कि अंतिम उत्तर में कितने सिंथेटिक साक्ष्य उद्धृत किए गए थे।

व्यावहारिक प्रभाव की जांच के लिए, पुनर्प्राप्त स्रोतों की गुणवत्ता और अंतिम उत्तर की अखंडता दोनों का परीक्षण किया गया था। सटीकता@10 (पी@10) ने यह कैप्चर किया कि शीर्ष दस परिणामों में से कितने वास्तव में सही थे जब एमएस मार्को मूल सत्य के खिलाफ जांचा गया; और उत्तर सटीकता (एए) ने यह मापा कि क्या उत्पन्न प्रतिक्रिया उसी संदर्भ उत्तर से मेल खाती थी, जीपीटी-5 मिनी का उपयोग यह निर्धारित करने के लिए किया गया था कि अर्थ संगत था या नहीं।

Related Topics:Advanced LLMs Large Language Models (LLMs)model collapse

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai