Connect with us

рдПрдЖрдИ рдкреНрд░рджреВрд╖рдг рдЦреЛрдЬ рдкрд░рд┐рдгрд╛рдореЛрдВ рдореЗрдВ ‘рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдкрддрди’ рдХреЗ рдЬреЛрдЦрд┐рдо рдХреЛ рдмрдврд╝рд╛рддрд╛ рд╣реИ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдПрдЖрдИ рдкреНрд░рджреВрд╖рдг рдЦреЛрдЬ рдкрд░рд┐рдгрд╛рдореЛрдВ рдореЗрдВ ‘рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдкрддрди’ рдХреЗ рдЬреЛрдЦрд┐рдо рдХреЛ рдмрдврд╝рд╛рддрд╛ рд╣реИ

mm
AI-generated image (GPT-1.5) depicting sewer workers shining their torches on a huge fatberg blocking the sewer, in which is embedded multiple extruded texts saying 'AI'.

जैसे ही एआई सामग्री वेब को प्रदूषित करती है, एक नया हमला वेक्टर सांस्कृतिक सहमति के लिए लड़ाई में खुलता है।

 

कोरियाई खोज कंपनी द्वारा किए गए शोध का तर्क है कि जैसे ही एआई-जनित पृष्ठ खोज परिणामों में प्रवेश करते हैं, वे खोज और रैंकिंग पाइपलाइनों की स्थिरता को कमजोर करते हैं और उन प्रणालियों को कमजोर करते हैं – जैसे कि पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) – जो रैंकिंग पर निर्भर करती हैं ताकि यह तय किया जा सके कि कौन सी जानकारी सतह पर है और विश्वसनीय है, जिससे भ्रामक या असटीक सामग्री को प्राधिकृत माना जाने का जोखिम बढ़ जाता है।

शोधकर्ताओं द्वारा इस सिंड्रोम के लिए गढ़ा गया शब्द पुनर्प्राप्ति पतन है, जो ज्ञात खतरे से अलग है मॉडल पतन (जहां एआई अपने स्वयं के आउटपुट पर प्रशिक्षित होता है प्रगतिशील रूप से खराब हो जाता है)।

एक पुनर्प्राप्ति पतन परिदृश्य में, एआई-जनित सामग्री प्रगतिशील रूप से खोज इंजन परिणामों को प्रभावित करती है, जिससे यहां तक कि जब उत्तर सतही रूप से सटीक रहते हैं, तो भी मूल मानव स्रोतों से साक्ष्य आधार विच्छिन्न हो जाता है। फिर भी, यह ‘मूल रहित’ डेटा खोज परिणामों में उच्च स्थान प्राप्त करने के लिए तैयार लगता है:

‘एआई-जनित पाठ के प्रसार के साथ, प्रसार के साथ, चुनौतियाँ में अट्रिब्यूशन और प्री-प्रशिक्षण डेटा गुणवत्ता की गुणवत्ता में तेजी से वृद्धि हुई है। पारंपरिक कीवर्ड स्पैम के विपरीत, आधुनिक सिंथेटिक सामग्री सेमेंटिक रूप से सुसंगत है, जिससे यह रैंकिंग प्रणालियों में मिल जाती है और प्राधिकृत साक्ष्य के रूप में पाइपलाइनों के माध्यम से प्रसारित होती है।’

लेख का तर्क है कि यह एक ‘संरचनात्मक रूप से भंगुर’ वातावरण बनाएगा, जिसमें रैंकिंग संकेत एआई-उत्पादित, एसईओ-अनुकूलित पृष्ठों को पसंद करते हैं, मानव-लिखित स्रोतों को समय के साथ एक गुप्त तरीके से विस्थापित करते हैं, अर्थात्, स्पष्ट रूप से उत्तर की गुणवत्ता में गिरावट के बिना:

‘वेब पर एआई-जनित सामग्री की वृद्धि जानकारी पुनर्प्राप्ति के लिए एक संरचनात्मक जोखिम प्रस्तुत करती है, क्योंकि खोज इंजन और पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) प्रणालियां बड़े भाषा मॉडल (एलएलएम) द्वारा उत्पादित साक्ष्य का उपभोग करती हैं।’

‘हम इस पारिस्थितिकी-स्तरीय विफलता मोड को पुनर्प्राप्ति पतन के रूप में वर्णित करते हैं, जो एक दो-चरणीय प्रक्रिया है जहां (1) एआई-जनित सामग्री खोज परिणामों को प्रभावित करती है, स्रोत विविधता को कमजोर करती है, और (2) कम गुणवत्ता वाली या विरोधी सामग्री पुनर्प्राप्ति पाइपलाइन में प्रवेश करती है।’

शोधकर्ताओं का तर्क है कि एक बार ‘प्रभुत्व’ चरण स्थापित हो जाने के बाद,同 पुनर्प्राप्ति पाइपलाइन जानबूझकर प्रदूषण के लिए अधिक संवेदनशील हो जाती है, क्योंकि विरोधी पृष्ठ समान अनुकूलन तंत्र का फायदा उठाकर दृश्यता प्राप्त कर सकते हैं:

‘पुनर्प्राप्ति पतन के ढांचे को स्थापित करके, यह काम जानकारी पुनर्प्राप्ति को फिर से आकार देने वाली सिंथेटिक सामग्री को समझने के लिए आधार तैयार करता है। इन जोखिमों को कम करने के लिए, हम प्रासंगिकता, तथ्यात्मकता और प्रोवेनेंस को संयुक्त रूप से अनुकूलित करने वाली रक्षात्मक रैंकिंग रणनीतियों की ओर बढ़ने का प्रस्ताव करते हैं।’

पुनर्प्राप्ति पतन को संभावित रूप से मॉडल पतन को बढ़ा सकता है, क्योंकि यह ‘फोटोकॉपी प्रभाव’ के ऊपर दुर्भावनापूर्ण इरादे की एक परत जोड़ता है, जहां एआई प्रगतिशील रूप से एआई-जनित आउटपुट पर खिलाता है। वास्तविक समय के खोज परिणामों में ‘सच्चाई’ पर स्पष्ट सहमति को प्रभावित करने के अलावा, असटीकताएं और हमले बाद में प्रशिक्षित एलएलएम में प्राधिकृत स्रोतों के रूप में स्थापित हो सकते हैं।

इस नए कार्य का शीर्षक पुनर्प्राप्ति पतन जब एआई वेब को प्रदूषित करता है है, और यह नेवर कॉर्पोरेशन के तीन शोधकर्ताओं से आता है।

विधि

पुनर्प्राप्ति प्रणालियों के माध्यम से एआई-जनित सामग्री कैसे प्रसारित होती है, इसका परीक्षण करने के लिए, शोधकर्ताओं ने एमएस मार्को डेटासेट और बेंचमार्क से 1000 प्रश्न/उत्तर जोड़े को यादृच्छिक रूप से नमूना लिया, जो खुले डोमेन प्रश्नों के साथ मानव-मान्य संदर्भ उत्तरों के जोड़े से बना है। इन्हें पुनर्प्राप्ति को आधार बनाने और उत्पन्न प्रतिक्रियाओं की तथ्यात्मक सही ढंग से मूल्यांकन करने के लिए उपयोग किया गया था।

प्रत्येक एमएस मार्को प्रश्न के लिए परीक्षणों में, प्रत्येक शब्द के लिए शीर्ष-रैंकिंग एसईओ परिणामों के आधार पर गूगल खोज से दस वेब दस्तावेज़ पुनर्प्राप्त किए गए, जिससे अंततः 10,000 दस्तावेजों का एक पूल तैयार हुआ।

दस्तावेजों की तथ्यात्मक वैधता का मूल्यांकन प्रत्येक की तुलना एमएस मार्को मूल सत्य के खिलाफ करते हुए किया गया था, जीपीटी-5 मिनी को निर्णायक के रूप में उपयोग किया गया था।

सामग्री फार्म सिमुलेशन

सामग्री फार्म से जुड़े सामान्य, गैर-विरोधी लेखों की गुणवत्ता स्तर को अनुकरण करने के लिए, लेखकों ने वास्तव में नई सिंथेटिक लेख बनाने के लिए जीपीटी-5 नैनो ओपनएआई मॉडल का उपयोग किया, क्योंकि यह सामग्री मिलों द्वारा उपयोग की जाने वाली एआई का ‘सस्ता’ स्तर है।

इसके विपरीत, विरोधी पोस्ट (अर्थात्, भ्रामक जानकारी फैलाने वाली सामग्री या जिसमें भ्रामक जानकारी होती है) का अनुकरण करने के लिए, वास्तविक दुनिया के संदर्भों का उपयोग नहीं किया गया था। इसके बजाय, नमूनों के पहले मसौदे को एक पारंपरिक क्लिकबेट/एसईओ जनरेटर के साथ बनाया गया था, और फिर जीपीटी-5 नैनो को यह कार्य सौंपा गया था कि वह कुछ तथ्यों को विश्वसनीय लेकिन असत्य विकल्पों से बदल दे। जीपीटी-5 नैनो ने प्रायोगिक संदर्भ के लिए सेमेंटिक पुनर्मूल्यांकन भी किया।

एआई संतृप्ति को समय के साथ अनुकरण करने के लिए, एक 20-राउंड दूषण प्रक्रिया चलाई गई, जिसमें प्रति प्रश्न एक सिंथेटिक दस्तावेज़ एक निश्चित सेट के दस मूल दस्तावेजों में जोड़ा गया, एआई हिस्सेदारी को 0% से 66.7% तक बढ़ाया गया।

एसईओ-शैली पूल के लिए, जनरेटर को ‘एक एसईओ विशेषज्ञ के रूप में अभिनय करने’ और मूल दस्तावेजों से उच्च-आईडीएफ कीवर्ड एकीकृत करने के लिए प्रेरित किया गया था, जिससे पुनर्प्राप्ति की संभावना बढ़ जाती है।

विरोधी पूल के लिए, प्रेरणा को इस तरह डिज़ाइन किया गया था कि यह प्रवाहपूर्ण, प्राकृतिक-सounding गद्य को बनाए रखे, जबकि नामित संस्थाओं और संख्यात्मक विवरण को सूक्ष्म रूप से बदल दे, जिससे दस्तावेज़ बनते हैं जो सांख्यिकीय फिल्टर को झंडा नहीं दिखाते हैं, जबकि तथ्यात्मक सटीकता को चुपचाप कमजोर करते हैं।

मीट्रिक

प्रयोगों के लिए तीन मीट्रिक अपनाई गई: पूल दूषण दर (पीसीआर), जो यह निर्धारित करने के लिए कि कितना दस्तावेज़ पूल एआई-जनित था; एक्सपोजर दूषण दर (ईसीआर), जो मापती है कि शीर्ष दस खोज परिणामों में से कितने एआई स्रोतों से आए थे (जो वास्तव में पुनर्प्राप्ति पाइपलाइन में प्रवेश करते हैं); और उद्धरण दूषण दर (सीसीआर), जो यह रिकॉर्ड करती है कि अंतिम उत्तर में कितने सिंथेटिक साक्ष्य उद्धृत किए गए थे।

व्यावहारिक प्रभाव की जांच के लिए, पुनर्प्राप्त स्रोतों की गुणवत्ता और अंतिम उत्तर की अखंडता दोनों का परीक्षण किया गया था। सटीकता@10 (पी@10) ने यह कैप्चर किया कि शीर्ष दस परिणामों में से कितने वास्तव में सही थे जब एमएस मार्को मूल सत्य के खिलाफ जांचा गया; और उत्तर सटीकता (एए) ने यह मापा कि क्या उत्पन्न प्रतिक्रिया उसी संदर्भ उत्तर से मेल खाती थी, जीपीटी-5 मिनी का उपयोग यह निर्धारित करने के लिए किया गया था कि अर्थ संगत था या नहीं।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai