Connect with us

рдЖрд░реНрдЯрд┐рдлрд╝рд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕ рд╡реЗрдм рд╕рд░реНрдЪ рдХреЛ рддреАрди рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╡рд╛рд╕реНрддрд╡рд┐рдХрддрд╛рдУрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░ рд░рд╣рд╛ рд╣реИ

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдЖрд░реНрдЯрд┐рдлрд╝рд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕ рд╡реЗрдм рд╕рд░реНрдЪ рдХреЛ рддреАрди рдЕрд▓рдЧ-рдЕрд▓рдЧ рд╡рд╛рд╕реНрддрд╡рд┐рдХрддрд╛рдУрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░ рд░рд╣рд╛ рд╣реИ

mm
AI-generated image (GPT-2): Three very different library staff members, a traditional librarian, a friendly service robot, and a salesman-like attendant, compete for a visitor's attention at a public library help desk.

नई रिसर्च में पाया गया है कि गूगल अब अपने खुद के सर्च साम्राज्य के भीतर तीन अलग-अलग जानकारी प्रणालियों का उपयोग कर रहा है, जिसमें नियमित सर्च, एआई ओवरव्यू और जेमिनी सभी अलग-अलग स्रोतों, रैंकिंग और सामग्री को पसंद करते हैं।

 

रेडुक्टिविज़्म नियमों का पालन करता है। पिछले बारह महीनों में, ‘मुझे यह गूगल पर सर्च करने दो’ मीम को एक नए ‘मुझे यह गूगल सर्च का सारांश दो’ रुझान द्वारा प्रतिस्थापित किया गया है, जिसमें एआई ओवरव्यू सर्च परिणामों में पाठकों को सर्च लिंक पर क्लिक करने की परेशानी से बचाते हुए, पूरे सर्च परिणामों को कुछ उत्पन्न किए गए अनुच्छेदों में संक्षेपित कर देते हैं (संभावित रूप से स्रोत साइटों को वित्तपोषित करने की प्रक्रिया में)।

कोई यह सोच सकता है कि जो मूल ज्ञान सामने आया है, और ज्ञान प्राप्त करने के लिए साइटों का चयन, तीन सबसे लोकप्रिय तरीकों में से प्रत्येक के लिए अपेक्षाकृत समान होगा: पारंपरिक वेब सर्च में; एआई ओवरव्यू (एआईओ) में जो अब अधिकांश वेब सर्च परिणामों को सिर करते हैं; और एलएलएम जैसे एलएलएम का उपयोग करके जो वेब-ओरेकल के रूप में कार्य करते हैं (बाहरी आरएजी कॉल के साथ या उसके बिना)।

हालांकि, हाल के शोध से संकेत मिलता है कि यह आश्चर्यजनक रूप से दूर की बात है; और यहां तक कि गूगल के अपने त्रिमूर्ति के मंदिरों में – एसईआरपीएस*, एआई सारांश, और जेमिनी एलएलएम श्रृंखला के साथ सीधे इंटरैक्शन – प्रत्येक मार्ग के लिए महत्वपूर्ण और दिलचस्प विसंगतियां दिखाई देती हैं।

तीन-तरफ़ा विभाजन

एक स्पष्ट और विस्तृत नया पत्र में, जिसका शीर्षक कैसे जेनरेटिव एआई सर्च को बाधित करता है: गूगल सर्च, जेमिनी और एआई ओवरव्यू का एक अनुभवजन्य अध्ययन है, न्यू जर्सी इंस्टीट्यूट ऑफ टेक्नोलॉजी के छह शोधकर्ता तीन सर्च तरीकों के विचलन के तरीकों को रेखांकित करते हैं और इन फ्रैक्चर्स के लिए कुछ संभावित सिद्धांत प्रदान करते हैं।

इस पत्र में कहा गया है:

‘[पहले, हम] पाते हैं कि 51.5% प्रतिनिधि वास्तविक उपयोगकर्ता प्रश्नों के लिए, एआईओ उत्पन्न किए जाते हैं और जैविक सर्च परिणामों के ऊपर प्रदर्शित किए जाते हैं। विवादास्पद प्रश्न अक्सर एक एआईओ का परिणाम होते हैं।

‘दूसरा, हम दिखाते हैं कि प्रत्येक सर्च इंजन के लिए पुनर्प्राप्त स्रोतों में काफी अंतर है (<0.2 औसत जैकार्ड समानता). पारंपरिक गूगल सर्च सरकार या शिक्षा में लोकप्रिय या संस्थागत वेबसाइटों से जानकारी प्राप्त करने की संभावना अधिक है, जबकि जेनरेटिव सर्च इंजन गूगल के स्वामित्व वाली सामग्री को पुनर्प्राप्त करने की संभावना अधिक है।

‘तीसरा, हम देखते हैं कि वे वेबसाइटें जो गूगल के एआई क्रॉलर को ब्लॉक करती हैं, एआईओ द्वारा पुनर्प्राप्त होने की संभावना काफी कम है,尽管 उन्हें सामग्री तक पहुंच है। ‘

चूंकि यह पत्र एक स्मोर्गासबोर्ड है जो आकर्षक अंतर्दृष्टि प्रदान करता है, इसलिए हम इनमें से कुछ और इसके सबसे आश्चर्यजनक और प्रकाशमान अंतर्दृष्टि पर एक नज़दीकी नज़र डालेंगे।

पुराना ‘दो-एक’

अध्ययन में एक दिलचस्प निष्कर्ष यह है कि गूगल के एआई ओवरव्यू अचानक ब्रेकिंग न्यूज़ इवेंट्स के लिए दबाए जाते हैं, क्योंकि सबसे पहले और सबसे उपलब्ध स्रोत सबसे सटीक नहीं हो सकते हैं।

यह प्रणाली हमेशा काम नहीं करती है: शोधकर्ताओं द्वारा उल्लिखित उदाहरण में, गूगल एआई ओवरव्यू ने एक बॉक्सिंग मैच के परिणाम को गलत मुक्केबाज को जीत का श्रेय दिया,尽管 यह (गलत) परिणाम केवल एक व्यंग्यात्मक खेल फीड पर फेसबुक पर कहा गया था:

рдЧреВрдЧрд▓ рдХреЗ рдПрдЖрдИ рдУрд╡рд░рд╡реНрдпреВ рд╕рдордп-рд╕рдордп рдкрд░ рд╕рдордп-critical рд╕рд╛рд░рд╛рдВрд╢ рд╕реЗ рдмрдЪрддреЗ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рд╢реБрд░реБрдЖрддреА рдЬрд╛рдирдХрд╛рд░реА рдЕрдзреВрд░реА рдпрд╛ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдЧрд▓рдд рд╣реЛ рд╕рдХрддреА рд╣реИред рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ, рдореБрдХреНрдХреЗрдмрд╛рдЬ рдЬреЗрдХ рдкреЙрд▓ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдореИрдЪ рд╣рд╛рд░ рдЧрдПред рд╕реНрд░реЛрдд - https://arxiv.org/pdf/2604.27790

गूगल के एआई ओवरव्यू समय-समय पर समय-critical सारांश से बचते हैं क्योंकि शुरुआती जानकारी अधूरी या पूरी तरह से गलत हो सकती है। इस मामले में, मुक्केबाज जेक पॉल वास्तव में मैच हार गए। स्रोत

लेखकों का उल्लेख है कि एआईओ अक्सर तब उत्पन्न होते हैं जब एक घटना कम से कम पांच दिन पुरानी होती है, जो इसे एक असामान्यता के रूप में योग्य बनाती है – लेकिन फिर भी, एक ऐसा जो शोधकर्ता आसानी से उत्पन्न कर सकते हैं।

एआईओ को तब उत्पन्न होने की संभावना अधिक होती है जब प्रश्न एक प्रश्न चिह्न के साथ बंद होता है, और प्रश्न इरादा एक कारक है कि क्या एक एआईओ प्रस्तुत किया जाएगा:

рдПрдХ рдПрдЖрдИ рд╕рд░реНрдЪ рд╕рд╛рд░рд╛рдВрд╢ рдХрд╛ рдЙрддреНрдкрд╛рджрди рд╣реЛрдиреЗ рд╡рд╛рд▓реА рдШрдЯрдирд╛рдУрдВ рдХрд╛ рдкреНрд░рддрд┐рд╢рдд рд╢реЛрдзрдХрд░реНрддрд╛рдУрдВ рдХреЗ рдПрдХ рджреМрд░ рдХреЗ рдкрд░реАрдХреНрд╖рдг рдореЗрдВред рдпрд╣рд╛рдБ 'рд╕реВрдЪрдирд╛рддреНрдордХ' рд╕реАрдзреЗ рдкреНрд░рд╢реНрдиреЛрдВ рдХреЛ рдЗрдВрдЧрд┐рдд рдХрд░рддрд╛ рд╣реИ, рдЬреЛ рдЕрдиреНрдп рдкреНрд░рдХрд╛рд░ рдХреЗ рдЗрдВрдЯрд░реИрдХреНрд╢рди рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдПрдЖрдИрдУ рдХрд╛ рдЙрддреНрдкрд╛рджрди рдХрд░рдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдЕрдзрд┐рдХ рд╣реИред

एक एआई सर्च सारांश का उत्पादन होने वाली घटनाओं का प्रतिशत शोधकर्ताओं के एक दौर के परीक्षण में। यहाँ ‘सूचनात्मक’ सीधे प्रश्नों को इंगित करता है, जो अन्य प्रकार के इंटरैक्शन की तुलना में एआईओ का उत्पादन करने की संभावना अधिक है।

इसके अलावा, पत्र यह भी दावा करता है कि लंबे प्रश्न एआई सारांश के बजाय सीधे सर्च परिणामों के उत्पादन की संभावना अधिक होती है, हालांकि लेखक अभी तक इसके लिए कोई सिद्धांत प्रदान नहीं करते हैं।

एक विभाजित राज्य

शायद इस नए काम से सबसे आश्चर्यजनक परिणाम यह है कि गूगल के तीन सर्च प्लेटफ़ॉर्मों के बीच परिणामों की गुणवत्ता/प्रकार में अपेक्षाकृत छोटा ओवरलैप है।

पत्र बार-बार दिखाता है कि नियमित गूगल सर्च, एआई ओवरव्यू और जेमिनी (एलएलएम) एक ही प्रश्न के लिए अलग-अलग स्रोतों को पुनर्प्राप्त करते हैं, जिसमें ओवरलैप स्कोर इतने कम होते हैं कि यह सुझाव देते हैं कि एक कंपनी के भीतर तीन प्रतिस्पर्धी पुनर्प्राप्ति तर्क हैं; जबकि उपयोगकर्ता यह मान सकते हैं कि गूगल के पास एक अधिकारिक सूचकांक है और एक रैंकिंग दर्शन है।

<img class=" wp-image-422089" src="https://www.unite.ai/wp-content/uploads/2026/05/table-2.jpg" alt="गूगल के अपने पारिस्थितिकी तंत्र में, पारंपरिक सर्च, एआई ओवरव्यू और जेमिनी के बीच ओवरलैप आश्चर्यजनक रूप से छोटा साबित हुआ, जिसमें एक ही प्रश्न के लिए अक्सर अलग-अलग स्रोत सूचियां उत्पन्न होती हैं। इस तुलना में, हम देखते हैं कि तीन प्रणालियों ने हज़ारों सर्च प्रश्नों के लिए एक दूसरे के साथ कितनी अच्छी तरह मेल खाती हैं, जिसमें शॉपिंग और वाद-विवाद विषयों से लेकर स्थानीय सर्च और सामान्य ज्ञान प्रश्नों तक, जिसमें कम स्कोर कम सहमति को इंगित करते हैं।

इस विश्लेषण के इस खंड के बारे में, लेखकों का उल्लेख है:

‘[ऊपर दी गई तालिका] प्रत्येक प्रश्न के लिए एआईओ, जेमिनी और पारंपरिक एसईआरपी द्वारा पुनर्प्राप्त स्रोतों की सूची के बीच औसत समानता प्रस्तुत करती है।

‘मुख्य बात यह है कि प्रश्न उपसेट और तुलना की जाने वाली सर्च इंजनों की जोड़ी की परवाह किए बिना, पुनर्प्राप्त सूचियां असमान हैं,尽管 वे सभी गूगल द्वारा विकसित की गई हैं.’

शोधकर्ता आगे कहते हैं कि कोई भी सर्च तरीका परीक्षण में 0.27 से अधिक रैंक-बायस्ड ओवरलैप (आरबीओ) नहीं दिखाता है, जो एक बहुत ही कम स्कोर है। वे आगे बताते हैं कि अमेज़ॅन रिटेल और स्थानीयकृत प्रश्न (यानी, ‘मेरे पास दुकानें’) में सर्च तरीकों के बीच सबसे कम समानता थी।

वे इस कम सहमति को ‘सर्च इंजनों के बीच असंगति’ के कारण बताते हैं, यह दावा करते हुए कि न तो यादृच्छिकता और न ही कोई अन्य स्पष्ट कारक इस विसंगति के लिए जिम्मेदार हो सकते हैं।

एक स्पष्ट व्याख्या यह हो सकती है कि प्रशिक्षण डेटा बिंदु गूगल के पेजरैंक और इसके उत्तराधिकारियों के लिए विकसित तरीकों से बहुत अलग तरीके से रैंक किए जाते हैं। इसके अलावा, यदि गूगल सर्च का एल्गोरिदम एक गुप्त एजेंडा है, तो इस तरह की हस्तक्षेप या ‘गेमिंग’ को जेमिनी जैसे डिफ्यूजन-आधारित एआई में लगातार लागू करना मुश्किल होगा, यहां तक कि फिल्टरिंग, सिस्टम प्रॉम्प्ट और विभिन्न अन्य तरीकों के माध्यम से भी जो व्यावसायिक मॉडलों पर लगाए जाते हैं।

स्व-सेवा..?

कुछ वेबसाइटें या वेबसाइटों की श्रेणियां एआई सारांशों के आगमन और एलएलएम-आधारित सर्च के पारंपरिक सर्च स्थान में प्रवेश से प्रभावित हुई हैं – दोनों नकारात्मक और सकारात्मक रूप से, मामले के अनुसार:

рдкрд╛рд░рдВрдкрд░рд┐рдХ рдЧреВрдЧрд▓ рд╕рд░реНрдЪ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ, рдПрдЖрдИ рдУрд╡рд░рд╡реНрдпреВ рдФрд░ рдЬреЗрдорд┐рдиреА рджреЛрдиреЛрдВ рдиреЗ рдХрдИ рдкреНрд░рдореБрдЦ рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рд╕реЗ рдЙрджреНрдзрд░рдг рдХрдо рдХрд░ рджрд┐рдП, рдЬрдмрдХрд┐ рдХреБрдЫ рдЪреБрдирд┐рдВрджрд╛ рдбреЛрдореЗрди рдХреЗ рд▓рд┐рдП рджреГрд╢реНрдпрддрд╛ рдмрдврд╝рд╛ рджреАред рдпреВрдЯреНрдпреВрдм рджреЛрдиреЛрдВ рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдореЗрдВ рд╕рдмрд╕реЗ рдмрдбрд╝реЗ рд▓рд╛рднрд╛рд░реНрдерд┐рдпреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рд╕рд╛рдмрд┐рдд рд╣реБрдЖ, рдЬрдмрдХрд┐ рд░реЗрдбрд┐рдЯ, рд╡рд┐рдХрд┐рдкреАрдбрд┐рдпрд╛, рдлреЗрд╕рдмреБрдХ рдФрд░ рдХрдИ рд╕рдВрд╕реНрдерд╛рдЧрдд рд╕реНрд░реЛрдд рдПрдЖрдИ-рдЙрддреНрдкрдиреНрди рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдореЗрдВ рдХрдо рдмрд╛рд░ рджрд┐рдЦрд╛рдИ рджрд┐рдПред

पारंपरिक गूगल सर्च की तुलना में, एआई ओवरव्यू और जेमिनी दोनों ने कई प्रमुख वेबसाइटों से उद्धरण कम कर दिए, जबकि कुछ चुनिंदा डोमेन के लिए दृश्यता बढ़ा दी। यूट्यूब दोनों प्रणालियों में सबसे बड़े लाभार्थियों में से एक साबित हुआ, जबकि रेडिट, विकिपीडिया, फेसबुक और कई संस्थागत स्रोत एआई-उत्पन्न पुनर्प्राप्ति में कम बार दिखाई दिए।

लेखकों का उल्लेख है कि तीन तरीकों में से कुछ अप्रत्याशित प्राथमिकताएं सामने आती हैं:

‘हमारे पास तीन मुख्य निष्कर्ष हैं [उपरोक्त ग्राफ से। पहला, बड़ी और प्रसिद्ध वेबसाइटें सबसे अधिक प्रभावित हैं (दोनों सकारात्मक और नकारात्मक रूप से। यह स्वाभाविक है क्योंकि बड़ी वेबसाइटों में प्रतिष्ठा और सामग्री में विविधता होती है जो कई अलग-अलग प्रश्नों के लिए प्रासंगिक हो सकती है।

‘दूसरा, इन वेबसाइटों के बहुमत को जेनरेटिव सर्च इंजनों द्वारा कम समग्र और शीर्ष तीन उद्धरण प्राप्त होते हैं (उपरोक्त ग्राफ में लाल बार और नकारात्मक संख्याएं। यह सुझाव देता है कि जेनरेटिव सर्च अधिक निचे स्रोतों से जानकारी प्राप्त करने की प्रवृत्ति रखता है।

‘तीसरा, गूगल के एआईओ गूगल वेबसाइटों (गूगल.कॉम और यूट्यूब.कॉम डोमेन) को पसंद करते हैं।

‘जेमिनी भी यूट्यूब को पारंपरिक गूगल सर्च की तुलना में पसंद करता है, लेकिन tuyệtक अंतर छोटा है। ‘

कोई ‘ब्लॉकर्स’..?

अध्ययन में यह भी पाया गया कि जो प्रकाशक गूगल के एआई वेब क्रॉलर को ब्लॉक करते हैं – स्वचालित वेब-बॉट जो आपकी साइट से डेटा स्क्रैप करता है जब तक कि आप इसे रोबोट्स.टेक्सट फ़ाइल के साथ नहीं रोकते – वे एआई सारांश में दिखाई नहीं देते हैं।

यह ऐसा लगता है जैसे यह एक स्पष्ट रूप से स्व-निर्धारित चोट है, लेकिन वास्तव में गूगल ने सार्वजनिक रूप से घोषणा की है कि एआई क्रॉलर को ब्लॉक करने वाले प्लेटफ़ॉर्मों की सामग्री एआई सारांश में दिखाई देने से नहीं रोकी जाएगी; बल्कि, प्रकाशकों को अपना डेटा स्क्रैप नहीं किया जाएगा, इसे एक संग्रह में क्यूरेट नहीं किया जाएगा, और जेमिनी और अन्य गूगल एआई परियोजनाओं के लिए अगले दौर के एआई प्रशिक्षण के लिए नहीं चलाया जाएगा।

हालांकि, यह निष्कर्ष mới पत्र के शोधकर्ताओं द्वारा पहुंचाया गया निष्कर्ष नहीं था, जिन्होंने इसके बजाय पाया कि लोकप्रिय एआई-प्रतिबंधित प्रकाशक जेमिनी द्वारा बहुत ही कम उद्धृत किए गए थे, चाहे वह एलएलएम या अधिक चुस्त और तेज़ सर्च-परिणाम संस्करण में। ‘प्रभावी रूप से प्रतिबंधित’ प्रकाशकों को एनवाईटाइम्स, सीएनएन, बीबीसी, साइंसडायरेक्ट, रॉयटर्स, विले, नेचर, ईएसपीएन, बिजनेस इनसाइडर, सीएनबीसी, एनपीआर, वायर्ड, यूएसए टुडे, एनबीसी न्यूज़, जीनियस, नेशनल ज्योग्राफिक, द कॉन्वर्सेशन, यू.एस. न्यूज़ एंड वर्ल्ड रिपोर्ट, साइंटिफिक अमेरिकन, कंज्यूमर रिपोर्ट्स और स्टेट के रूप में सूचीबद्ध किया गया था।

рдЙрдкрд░реЛрдХреНрдд рд╕реВрдЪреАрдмрджреНрдз рдкреНрд░рдХрд╛рд╢рдХреЛрдВ рджреНрд╡рд╛рд░рд╛ рдХрд┐рдП рдЧрдП рдХреБрдЫ рд░реЛрдмреЛрдЯреНрд╕.рдЯреЗрдХреНрд╕рдЯ рдПрдЖрдИ-рд╕реНрдХреНрд░реИрдкрд┐рдВрдЧ рдмреНрд▓реЙрдХред рдХреНрдпрд╛ рдЗрд╕рд╕реЗ рдЧреВрдЧрд▓ рджреНрд╡рд╛рд░рд╛ рд╡реНрдпрд╛рдкрдХ рдирд┐рдВрджрд╛ рд╣реБрдИ рд╣реИ?

उपरोक्त सूचीबद्ध प्रकाशकों द्वारा किए गए कुछ रोबोट्स.टेक्सट एआई-स्क्रैपिंग ब्लॉक। क्या इससे गूगल द्वारा व्यापक निंदा हुई है?

लेखकों का उल्लेख है:

‘हमारे विश्लेषण में, हम पाते हैं कि 21 लोकप्रिय [प्रकाशक] (जो गूगल सर्च और एआईओ दोनों द्वारा कम से कम 20 अद्वितीय प्रश्नों के लिए पुनर्प्राप्त किए जाते हैं) जेमिनी द्वारा कभी उद्धृत नहीं किए गए।

‘कई लोकप्रिय सोशल मीडिया (फेसबुक, इंस्टाग्राम, टिकटॉक) और समीक्षा वेबसाइटें (आईएमडीबी, येल्प, ट्रिपएडवाइजर) भी जेमिनी से कोई उद्धरण प्राप्त नहीं किए। आगे की जांच में, हम पाते हैं कि इन सभी वेबसाइटों ने अपने रोबोट्स.टेक्सट फ़ाइलों में गूगल-एक्सटेंडेड बॉट को ब्लॉक कर दिया है। ‘

यदि यह खोज अन्य स्थानों पर सत्यापित हो जाती है और लंबे समय तक रहती है, तो कोई यह अनुमान लगा सकता है कि इन कंपनियों पर गूगल द्वारा अपने एआई संचालन के साथ सहयोग करने के लिए दबाव डाला जा रहा है, आंशिक रूप से डी-लिस्टिंग के माध्यम से। एक नज़र में, परिणाम दंडात्मक लगते हैं; हालांकि, नए काम के निष्कर्ष अधिक अव्यवस्था की तुलना में पूर्वनिर्धारित की तुलना में अधिक सुझाव देते हैं; इसलिए, यह टिप्पणी करना तर्कसंगत है कि ये परिणाम ‘सpiteful’ लगते हैं, जो वास्तव में कारण हो सकता है।

निष्कर्ष

राय यह एक स्पष्ट और सुविचारित ज़िप-बम है, जिसके दस मुख्य पृष्ठ एक लगभग अभिभूत करने वाले कैस्केड में खुलते हैं जो अतिरिक्त खोजों से भरे हुए हैं। चूंकि हमने केवल एक छोटे से खंड को कवर किया है, इसलिए मैं स्रोत पीडीएफ की सिफारिश करता हूं, यहां तक कि एक आकस्मिक पाठक के लिए भी (एक दुर्लभ घटना)।

हालांकि तीन सर्च तरीकों की जांच की जाती है, वास्तविक विवाद पारंपरिक सर्च इंजन परिणामों और जेनरेटिव एआई द्वारा प्रभावित डेटा चयन तरीकों के बीच है, जो डेटा क्यूरेशन को नियंत्रित करते हैं।

एआई जैसे 1999

गूगल के आगमन से, यह संभव था कि ‘गेम’ सर्च परिणामों को मात्रा के माध्यम से, और इस तरह, अक्सर न्यूनतम (अक्सर स्वचालित) प्रयास के साथ फ्रंट-पेज एसईआरपीएस प्लेसमेंट प्राप्त की जा सकती थी। यह ‘संख्या खेल’ को 2002 के आसपास गूगल के अधिक परिष्कृत और गुप्त सर्च रैंकिंग एल्गोरिदम द्वारा प्रभावी रूप से समाप्त कर दिया गया था। लेकिन चूंकि दांव महत्वपूर्ण थे, उच्च-मात्रा और कम-गुणवत्ता वाली सामग्री किसी भी अर्थपूर्ण तरीके से कभी नहीं गई।

इसलिए, जब कॉमन क्रॉल जैसे हाइपरस्केल संग्रह आधुनिक एआई क्रांति की नींव रखते हैं, तो डेटा-प्रमुखता स्वचालित प्रक्रियाओं की सीमा से निर्धारित होने वाली थी जो फिल्टर और रैंक आ रहे थे डेटा गुणवत्ता, और (बहुत कम संभावना है), जितना पैसा उपलब्ध था लोगों को उस डेटा को रैंक करने के लिए भुगतान करने के लिए।

इन विशाल और असंगत संग्रहों में बहुत सारा खराब या कम गुणवत्ता वाला डेटा था; डेटा जो अश्लीलता, शपथ या नस्लवादी रूढ़िवादिता जैसी चीजों से मुक्त हो सकता है, या किसी अन्य चीज़ को फ़िल्टर आउट करना आसान है, लेकिन फिर भी आत्म-सेवा और मात्रा में था, जैसे कि इंटरनेट सर्च के परिणाम 1999-2001 के आसपास।

क्योंकि ये डेटा इंडक्शन प्रक्रियाएं अभी भी बहुत अच्छी नहीं हैं, यहां तक कि गूगल के लिए भी एआई को व्यावसायिक तरीके से कार्य करना मुश्किल है, क्योंकि जेमिनी के पेजरैंक-शैली के निर्णय गूगल के नीति इंजीनियरों द्वारा निर्देशित नहीं हैं, बल्कि एक एआई मॉडल के प्रशिक्षण के दौरान हाइपरस्केल डेटा के रूपांतरण और लेटेंट एम्बेडिंग की एक अपूर्ण समझ से निर्देशित होते हैं।

 

* सर्च इंजन परिणाम पृष्ठ।

लेखकों का जोर, मेरा नहीं। हालांकि, मैंने उद्धरणों में इटैलिक जोर के लिए बोल्ड का प्रतिस्थापन किया है, क्योंकि इटैलिक जोर उद्धरणों में अच्छी तरह से काम नहीं करता है।

पहली बार बुधवार, 13 मई, 2026 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai