Anderson का एंगल

आर्टिफ़िशियल इंटेलिजेंस वेब सर्च को तीन अलग-अलग वास्तविकताओं में विभाजित कर रहा है

Published May 13, 2026

Martin Anderson

AI-generated image (GPT-2): Three very different library staff members, a traditional librarian, a friendly service robot, and a salesman-like attendant, compete for a visitor's attention at a public library help desk.

नई रिसर्च में पाया गया है कि गूगल अब अपने खुद के सर्च साम्राज्य के भीतर तीन अलग-अलग जानकारी प्रणालियों का उपयोग कर रहा है, जिसमें नियमित सर्च, एआई ओवरव्यू और जेमिनी सभी अलग-अलग स्रोतों, रैंकिंग और सामग्री को पसंद करते हैं।

रेडुक्टिविज़्म नियमों का पालन करता है। पिछले बारह महीनों में, ‘मुझे यह गूगल पर सर्च करने दो’ मीम को एक नए ‘मुझे यह गूगल सर्च का सारांश दो’ रुझान द्वारा प्रतिस्थापित किया गया है, जिसमें एआई ओवरव्यू सर्च परिणामों में पाठकों को सर्च लिंक पर क्लिक करने की परेशानी से बचाते हुए, पूरे सर्च परिणामों को कुछ उत्पन्न किए गए अनुच्छेदों में संक्षेपित कर देते हैं (संभावित रूप से स्रोत साइटों को वित्तपोषित करने की प्रक्रिया में)।

कोई यह सोच सकता है कि जो मूल ज्ञान सामने आया है, और ज्ञान प्राप्त करने के लिए साइटों का चयन, तीन सबसे लोकप्रिय तरीकों में से प्रत्येक के लिए अपेक्षाकृत समान होगा: पारंपरिक वेब सर्च में; एआई ओवरव्यू (एआईओ) में जो अब अधिकांश वेब सर्च परिणामों को सिर करते हैं; और एलएलएम जैसे एलएलएम का उपयोग करके जो वेब-ओरेकल के रूप में कार्य करते हैं (बाहरी आरएजी कॉल के साथ या उसके बिना)।

हालांकि, हाल के शोध से संकेत मिलता है कि यह आश्चर्यजनक रूप से दूर की बात है; और यहां तक कि गूगल के अपने त्रिमूर्ति के मंदिरों में – एसईआरपीएस*, एआई सारांश, और जेमिनी एलएलएम श्रृंखला के साथ सीधे इंटरैक्शन – प्रत्येक मार्ग के लिए महत्वपूर्ण और दिलचस्प विसंगतियां दिखाई देती हैं।

तीन-तरफ़ा विभाजन

एक स्पष्ट और विस्तृत नया पत्र में, जिसका शीर्षक कैसे जेनरेटिव एआई सर्च को बाधित करता है: गूगल सर्च, जेमिनी और एआई ओवरव्यू का एक अनुभवजन्य अध्ययन है, न्यू जर्सी इंस्टीट्यूट ऑफ टेक्नोलॉजी के छह शोधकर्ता तीन सर्च तरीकों के विचलन के तरीकों को रेखांकित करते हैं और इन फ्रैक्चर्स के लिए कुछ संभावित सिद्धांत प्रदान करते हैं।

इस पत्र में कहा गया है:

‘[पहले, हम] पाते हैं कि 51.5% प्रतिनिधि वास्तविक उपयोगकर्ता प्रश्नों के लिए, एआईओ उत्पन्न किए जाते हैं और जैविक सर्च परिणामों के ऊपर प्रदर्शित किए जाते हैं। विवादास्पद प्रश्न अक्सर एक एआईओ का परिणाम होते हैं।

‘दूसरा, हम दिखाते हैं कि प्रत्येक सर्च इंजन के लिए पुनर्प्राप्त स्रोतों में काफी अंतर है (<0.2 औसत जैकार्ड समानता). पारंपरिक गूगल सर्च सरकार या शिक्षा में लोकप्रिय या संस्थागत वेबसाइटों से जानकारी प्राप्त करने की संभावना अधिक है, जबकि जेनरेटिव सर्च इंजन गूगल के स्वामित्व वाली सामग्री को पुनर्प्राप्त करने की संभावना अधिक है।

‘तीसरा, हम देखते हैं कि वे वेबसाइटें जो गूगल के एआई क्रॉलर को ब्लॉक करती हैं, एआईओ द्वारा पुनर्प्राप्त होने की संभावना काफी कम है,尽管 उन्हें सामग्री तक पहुंच है। ‘

चूंकि यह पत्र एक स्मोर्गासबोर्ड है जो आकर्षक अंतर्दृष्टि प्रदान करता है, इसलिए हम इनमें से कुछ और इसके सबसे आश्चर्यजनक और प्रकाशमान अंतर्दृष्टि पर एक नज़दीकी नज़र डालेंगे।

पुराना ‘दो-एक’

अध्ययन में एक दिलचस्प निष्कर्ष यह है कि गूगल के एआई ओवरव्यू अचानक ब्रेकिंग न्यूज़ इवेंट्स के लिए दबाए जाते हैं, क्योंकि सबसे पहले और सबसे उपलब्ध स्रोत सबसे सटीक नहीं हो सकते हैं।

यह प्रणाली हमेशा काम नहीं करती है: शोधकर्ताओं द्वारा उल्लिखित उदाहरण में, गूगल एआई ओवरव्यू ने एक बॉक्सिंग मैच के परिणाम को गलत मुक्केबाज को जीत का श्रेय दिया,尽管 यह (गलत) परिणाम केवल एक व्यंग्यात्मक खेल फीड पर फेसबुक पर कहा गया था:

गूगल के एआई ओवरव्यू समय-समय पर समय-critical सारांश से बचते हैं क्योंकि शुरुआती जानकारी अधूरी या पूरी तरह से गलत हो सकती है। इस मामले में, मुक्केबाज जेक पॉल वास्तव में मैच हार गए। स्रोत

लेखकों का उल्लेख है कि एआईओ अक्सर तब उत्पन्न होते हैं जब एक घटना कम से कम पांच दिन पुरानी होती है, जो इसे एक असामान्यता के रूप में योग्य बनाती है – लेकिन फिर भी, एक ऐसा जो शोधकर्ता आसानी से उत्पन्न कर सकते हैं।

एआईओ को तब उत्पन्न होने की संभावना अधिक होती है जब प्रश्न एक प्रश्न चिह्न के साथ बंद होता है, और प्रश्न इरादा एक कारक है कि क्या एक एआईओ प्रस्तुत किया जाएगा:

एक एआई सर्च सारांश का उत्पादन होने वाली घटनाओं का प्रतिशत शोधकर्ताओं के एक दौर के परीक्षण में। यहाँ ‘सूचनात्मक’ सीधे प्रश्नों को इंगित करता है, जो अन्य प्रकार के इंटरैक्शन की तुलना में एआईओ का उत्पादन करने की संभावना अधिक है।

इसके अलावा, पत्र यह भी दावा करता है कि लंबे प्रश्न एआई सारांश के बजाय सीधे सर्च परिणामों के उत्पादन की संभावना अधिक होती है, हालांकि लेखक अभी तक इसके लिए कोई सिद्धांत प्रदान नहीं करते हैं।

एक विभाजित राज्य

शायद इस नए काम से सबसे आश्चर्यजनक परिणाम यह है कि गूगल के तीन सर्च प्लेटफ़ॉर्मों के बीच परिणामों की गुणवत्ता/प्रकार में अपेक्षाकृत छोटा ओवरलैप है।

पत्र बार-बार दिखाता है कि नियमित गूगल सर्च, एआई ओवरव्यू और जेमिनी (एलएलएम) एक ही प्रश्न के लिए अलग-अलग स्रोतों को पुनर्प्राप्त करते हैं, जिसमें ओवरलैप स्कोर इतने कम होते हैं कि यह सुझाव देते हैं कि एक कंपनी के भीतर तीन प्रतिस्पर्धी पुनर्प्राप्ति तर्क हैं; जबकि उपयोगकर्ता यह मान सकते हैं कि गूगल के पास एक अधिकारिक सूचकांक है और एक रैंकिंग दर्शन है।

<img class=" wp-image-422089" src="https://www.unite.ai/wp-content/uploads/2026/05/table-2.jpg" alt="गूगल के अपने पारिस्थितिकी तंत्र में, पारंपरिक सर्च, एआई ओवरव्यू और जेमिनी के बीच ओवरलैप आश्चर्यजनक रूप से छोटा साबित हुआ, जिसमें एक ही प्रश्न के लिए अक्सर अलग-अलग स्रोत सूचियां उत्पन्न होती हैं। इस तुलना में, हम देखते हैं कि तीन प्रणालियों ने हज़ारों सर्च प्रश्नों के लिए एक दूसरे के साथ कितनी अच्छी तरह मेल खाती हैं, जिसमें शॉपिंग और वाद-विवाद विषयों से लेकर स्थानीय सर्च और सामान्य ज्ञान प्रश्नों तक, जिसमें कम स्कोर कम सहमति को इंगित करते हैं।

इस विश्लेषण के इस खंड के बारे में, लेखकों का उल्लेख है:

‘[ऊपर दी गई तालिका] प्रत्येक प्रश्न के लिए एआईओ, जेमिनी और पारंपरिक एसईआरपी द्वारा पुनर्प्राप्त स्रोतों की सूची के बीच औसत समानता प्रस्तुत करती है।

‘मुख्य बात यह है कि प्रश्न उपसेट और तुलना की जाने वाली सर्च इंजनों की जोड़ी की परवाह किए बिना, पुनर्प्राप्त सूचियां असमान हैं,尽管 वे सभी गूगल द्वारा विकसित की गई हैं.’

शोधकर्ता आगे कहते हैं कि कोई भी सर्च तरीका परीक्षण में 0.27 से अधिक रैंक-बायस्ड ओवरलैप (आरबीओ) नहीं दिखाता है, जो एक बहुत ही कम स्कोर है। वे आगे बताते हैं कि अमेज़ॅन रिटेल और स्थानीयकृत प्रश्न (यानी, ‘मेरे पास दुकानें’) में सर्च तरीकों के बीच सबसे कम समानता थी।

वे इस कम सहमति को ‘सर्च इंजनों के बीच असंगति’ के कारण बताते हैं, यह दावा करते हुए कि न तो यादृच्छिकता और न ही कोई अन्य स्पष्ट कारक इस विसंगति के लिए जिम्मेदार हो सकते हैं।

एक स्पष्ट व्याख्या यह हो सकती है कि प्रशिक्षण डेटा बिंदु गूगल के पेजरैंक और इसके उत्तराधिकारियों के लिए विकसित तरीकों से बहुत अलग तरीके से रैंक किए जाते हैं। इसके अलावा, यदि गूगल सर्च का एल्गोरिदम एक गुप्त एजेंडा है, तो इस तरह की हस्तक्षेप या ‘गेमिंग’ को जेमिनी जैसे डिफ्यूजन-आधारित एआई में लगातार लागू करना मुश्किल होगा, यहां तक कि फिल्टरिंग, सिस्टम प्रॉम्प्ट और विभिन्न अन्य तरीकों के माध्यम से भी जो व्यावसायिक मॉडलों पर लगाए जाते हैं।

स्व-सेवा..?

कुछ वेबसाइटें या वेबसाइटों की श्रेणियां एआई सारांशों के आगमन और एलएलएम-आधारित सर्च के पारंपरिक सर्च स्थान में प्रवेश से प्रभावित हुई हैं – दोनों नकारात्मक और सकारात्मक रूप से, मामले के अनुसार:

पारंपरिक गूगल सर्च की तुलना में, एआई ओवरव्यू और जेमिनी दोनों ने कई प्रमुख वेबसाइटों से उद्धरण कम कर दिए, जबकि कुछ चुनिंदा डोमेन के लिए दृश्यता बढ़ा दी। यूट्यूब दोनों प्रणालियों में सबसे बड़े लाभार्थियों में से एक साबित हुआ, जबकि रेडिट, विकिपीडिया, फेसबुक और कई संस्थागत स्रोत एआई-उत्पन्न पुनर्प्राप्ति में कम बार दिखाई दिए।

लेखकों का उल्लेख है कि तीन तरीकों में से कुछ अप्रत्याशित प्राथमिकताएं सामने आती हैं:

‘हमारे पास तीन मुख्य निष्कर्ष हैं [उपरोक्त ग्राफ से। पहला, बड़ी और प्रसिद्ध वेबसाइटें सबसे अधिक प्रभावित हैं (दोनों सकारात्मक और नकारात्मक रूप से। यह स्वाभाविक है क्योंकि बड़ी वेबसाइटों में प्रतिष्ठा और सामग्री में विविधता होती है जो कई अलग-अलग प्रश्नों के लिए प्रासंगिक हो सकती है।

‘दूसरा, इन वेबसाइटों के बहुमत को जेनरेटिव सर्च इंजनों द्वारा कम समग्र और शीर्ष तीन उद्धरण प्राप्त होते हैं (उपरोक्त ग्राफ में लाल बार और नकारात्मक संख्याएं। यह सुझाव देता है कि जेनरेटिव सर्च अधिक निचे स्रोतों से जानकारी प्राप्त करने की प्रवृत्ति रखता है।

‘तीसरा, गूगल के एआईओ गूगल वेबसाइटों (गूगल.कॉम और यूट्यूब.कॉम डोमेन) को पसंद करते हैं।

‘जेमिनी भी यूट्यूब को पारंपरिक गूगल सर्च की तुलना में पसंद करता है, लेकिन tuyệtक अंतर छोटा है। ‘

कोई ‘ब्लॉकर्स’..?

अध्ययन में यह भी पाया गया कि जो प्रकाशक गूगल के एआई वेब क्रॉलर को ब्लॉक करते हैं – स्वचालित वेब-बॉट जो आपकी साइट से डेटा स्क्रैप करता है जब तक कि आप इसे रोबोट्स.टेक्सट फ़ाइल के साथ नहीं रोकते – वे एआई सारांश में दिखाई नहीं देते हैं।

यह ऐसा लगता है जैसे यह एक स्पष्ट रूप से स्व-निर्धारित चोट है, लेकिन वास्तव में गूगल ने सार्वजनिक रूप से घोषणा की है कि एआई क्रॉलर को ब्लॉक करने वाले प्लेटफ़ॉर्मों की सामग्री एआई सारांश में दिखाई देने से नहीं रोकी जाएगी; बल्कि, प्रकाशकों को अपना डेटा स्क्रैप नहीं किया जाएगा, इसे एक संग्रह में क्यूरेट नहीं किया जाएगा, और जेमिनी और अन्य गूगल एआई परियोजनाओं के लिए अगले दौर के एआई प्रशिक्षण के लिए नहीं चलाया जाएगा।

हालांकि, यह निष्कर्ष mới पत्र के शोधकर्ताओं द्वारा पहुंचाया गया निष्कर्ष नहीं था, जिन्होंने इसके बजाय पाया कि लोकप्रिय एआई-प्रतिबंधित प्रकाशक जेमिनी द्वारा बहुत ही कम उद्धृत किए गए थे, चाहे वह एलएलएम या अधिक चुस्त और तेज़ सर्च-परिणाम संस्करण में। ‘प्रभावी रूप से प्रतिबंधित’ प्रकाशकों को एनवाईटाइम्स, सीएनएन, बीबीसी, साइंसडायरेक्ट, रॉयटर्स, विले, नेचर, ईएसपीएन, बिजनेस इनसाइडर, सीएनबीसी, एनपीआर, वायर्ड, यूएसए टुडे, एनबीसी न्यूज़, जीनियस, नेशनल ज्योग्राफिक, द कॉन्वर्सेशन, यू.एस. न्यूज़ एंड वर्ल्ड रिपोर्ट, साइंटिफिक अमेरिकन, कंज्यूमर रिपोर्ट्स और स्टेट के रूप में सूचीबद्ध किया गया था।

उपरोक्त सूचीबद्ध प्रकाशकों द्वारा किए गए कुछ रोबोट्स.टेक्सट एआई-स्क्रैपिंग ब्लॉक। क्या इससे गूगल द्वारा व्यापक निंदा हुई है?

लेखकों का उल्लेख है:

‘हमारे विश्लेषण में, हम पाते हैं कि 21 लोकप्रिय [प्रकाशक] (जो गूगल सर्च और एआईओ दोनों द्वारा कम से कम 20 अद्वितीय प्रश्नों के लिए पुनर्प्राप्त किए जाते हैं) जेमिनी द्वारा कभी उद्धृत नहीं किए गए।

‘कई लोकप्रिय सोशल मीडिया (फेसबुक, इंस्टाग्राम, टिकटॉक) और समीक्षा वेबसाइटें (आईएमडीबी, येल्प, ट्रिपएडवाइजर) भी जेमिनी से कोई उद्धरण प्राप्त नहीं किए। आगे की जांच में, हम पाते हैं कि इन सभी वेबसाइटों ने अपने रोबोट्स.टेक्सट फ़ाइलों में गूगल-एक्सटेंडेड बॉट को ब्लॉक कर दिया है। ‘

यदि यह खोज अन्य स्थानों पर सत्यापित हो जाती है और लंबे समय तक रहती है, तो कोई यह अनुमान लगा सकता है कि इन कंपनियों पर गूगल द्वारा अपने एआई संचालन के साथ सहयोग करने के लिए दबाव डाला जा रहा है, आंशिक रूप से डी-लिस्टिंग के माध्यम से। एक नज़र में, परिणाम दंडात्मक लगते हैं; हालांकि, नए काम के निष्कर्ष अधिक अव्यवस्था की तुलना में पूर्वनिर्धारित की तुलना में अधिक सुझाव देते हैं; इसलिए, यह टिप्पणी करना तर्कसंगत है कि ये परिणाम ‘सpiteful’ लगते हैं, जो वास्तव में कारण हो सकता है।

निष्कर्ष

राय यह एक स्पष्ट और सुविचारित ज़िप-बम है, जिसके दस मुख्य पृष्ठ एक लगभग अभिभूत करने वाले कैस्केड में खुलते हैं जो अतिरिक्त खोजों से भरे हुए हैं। चूंकि हमने केवल एक छोटे से खंड को कवर किया है, इसलिए मैं स्रोत पीडीएफ की सिफारिश करता हूं, यहां तक कि एक आकस्मिक पाठक के लिए भी (एक दुर्लभ घटना)।

हालांकि तीन सर्च तरीकों की जांच की जाती है, वास्तविक विवाद पारंपरिक सर्च इंजन परिणामों और जेनरेटिव एआई द्वारा प्रभावित डेटा चयन तरीकों के बीच है, जो डेटा क्यूरेशन को नियंत्रित करते हैं।

एआई जैसे 1999

गूगल के आगमन से, यह संभव था कि ‘गेम’ सर्च परिणामों को मात्रा के माध्यम से, और इस तरह, अक्सर न्यूनतम (अक्सर स्वचालित) प्रयास के साथ फ्रंट-पेज एसईआरपीएस प्लेसमेंट प्राप्त की जा सकती थी। यह ‘संख्या खेल’ को 2002 के आसपास गूगल के अधिक परिष्कृत और गुप्त सर्च रैंकिंग एल्गोरिदम द्वारा प्रभावी रूप से समाप्त कर दिया गया था। लेकिन चूंकि दांव महत्वपूर्ण थे, उच्च-मात्रा और कम-गुणवत्ता वाली सामग्री किसी भी अर्थपूर्ण तरीके से कभी नहीं गई।

इसलिए, जब कॉमन क्रॉल जैसे हाइपरस्केल संग्रह आधुनिक एआई क्रांति की नींव रखते हैं, तो डेटा-प्रमुखता स्वचालित प्रक्रियाओं की सीमा से निर्धारित होने वाली थी जो फिल्टर और रैंक आ रहे थे डेटा गुणवत्ता, और (बहुत कम संभावना है), जितना पैसा उपलब्ध था लोगों को उस डेटा को रैंक करने के लिए भुगतान करने के लिए।

इन विशाल और असंगत संग्रहों में बहुत सारा खराब या कम गुणवत्ता वाला डेटा था; डेटा जो अश्लीलता, शपथ या नस्लवादी रूढ़िवादिता जैसी चीजों से मुक्त हो सकता है, या किसी अन्य चीज़ को फ़िल्टर आउट करना आसान है, लेकिन फिर भी आत्म-सेवा और मात्रा में था, जैसे कि इंटरनेट सर्च के परिणाम 1999-2001 के आसपास।

क्योंकि ये डेटा इंडक्शन प्रक्रियाएं अभी भी बहुत अच्छी नहीं हैं, यहां तक कि गूगल के लिए भी एआई को व्यावसायिक तरीके से कार्य करना मुश्किल है, क्योंकि जेमिनी के पेजरैंक-शैली के निर्णय गूगल के नीति इंजीनियरों द्वारा निर्देशित नहीं हैं, बल्कि एक एआई मॉडल के प्रशिक्षण के दौरान हाइपरस्केल डेटा के रूपांतरण और लेटेंट एम्बेडिंग की एक अपूर्ण समझ से निर्देशित होते हैं।

* सर्च इंजन परिणाम पृष्ठ।

^†लेखकों का जोर, मेरा नहीं। हालांकि, मैंने उद्धरणों में इटैलिक जोर के लिए बोल्ड का प्रतिस्थापन किया है, क्योंकि इटैलिक जोर उद्धरणों में अच्छी तरह से काम नहीं करता है।

पहली बार बुधवार, 13 मई, 2026 को प्रकाशित