कृत्रिम बुद्धिमत्ता

नए शोध में पाया गया कि RAG सिस्टम में पर्प्लेक्सिटी सहित सोलह प्रमुख समस्याएं हैं

Published November 4, 2024

Updated April 27, 2026

Martin Anderson

Image generated by ChatGPT-4o, with prompt ' Create a highly photorealistic panoramic image of a robot frantically searching the internet on a laptop. Do not stylize this image so that it looks like a false or AI-created image'

अमेरिका से एक हालिया अध्ययन में पाया गया है कि लोकप्रिय रिट्रीवल ऑगमेंटेड जेनरेशन (RAG) शोध प्रणालियों जैसे पर्प्लेक्सिटी और बिंग कोपायलट का वास्तविक दुनिया का प्रदर्शन पिछले 12 महीनों में हेडलाइंस हासिल करने वाले विपणन हYPE और लोकप्रिय अपनाने से बहुत कम है।

इस परियोजना में, जिसमें 21 विशेषज्ञ आवाजों की व्यापक सर्वेक्षण भागीदारी शामिल थी, पाया गया कि अध्ययन किए गए RAG प्रणालियों (यू चैट, बिंग कोपायलट और पर्प्लेक्सिटी) ने चिंता के कम से कम 16 क्षेत्रों में उत्पादन किया:

1: उत्पन्न उत्तरों में वस्तुनिष्ठ विवरण की कमी, जिसमें सामान्य सारांश और कम संदर्भ गहराई या सूक्ष्मता शामिल है।

2. प्राप्त उपयोगकर्ता पूर्वाग्रह की पुष्टि, जहां एक RAG इंजन अक्सर विभिन्न दृष्टिकोण प्रस्तुत करने में विफल रहता है, लेकिन इसके बजाय उपयोगकर्ता पूर्वाग्रह को अंतर्निहित करता है और पुष्टि करता है, जो उपयोगकर्ता द्वारा एक प्रश्न को शब्दों में प्रस्तुत करने के तरीके पर आधारित होता है।

3. अत्यधिक आत्मविश्वासी भाषा, विशेष रूप से विषयगत प्रतिक्रियाओं में जो सिद्धांत रूप से स्थापित नहीं की जा सकती है, जो उपयोगकर्ता को उत्तर पर अधिक विश्वास करने के लिए प्रेरित कर सकती है जितना वह योग्य है।

4: सरल भाषा और महत्वपूर्ण सोच और रचनात्मकता की कमी, जहां प्रतिक्रियाएं प्रभावी रूप से उपयोगकर्ता को ‘दिमागी’ और ‘सहमत’ जानकारी के साथ पितृत्व करती हैं, इसके बजाय सोचा हुआ विचार और विश्लेषण के बजाय।

5: स्रोतों को गलत तरीके से जिम्मेदार ठहराना और गलत तरीके से उद्धृत करना, जहां उत्तर इंजन स्रोतों का उपयोग करता है जो इसकी प्रतिक्रिया का समर्थन नहीं करते हैं, विश्वसनीयता का भ्रम पैदा करते हैं।

6: अनुमानित संदर्भ से जानकारी चुनना, जहां RAG एजेंट अपने उत्पन्न दावे और उपयोगकर्ता को सुनने के लिए क्या चाहता है, इसके बजाय विश्वसनीय स्रोतों के उद्देश्य विश्लेषण पर आधारित उत्तर देने की कोशिश करता है (संभवतः प्रणाली के ‘बेक्ड’ एलएलएम डेटा और इंटरनेट से प्राप्त डेटा के बीच संघर्ष को इंगित करता है) एक प्रश्न के जवाब में)।

7: बयानों का समर्थन करने वाले उद्धरणों को छोड़ना, जहां प्रतिक्रियाओं के लिए स्रोत सामग्री अनुपस्थित है।

8: इसकी प्रतिक्रियाओं के लिए कोई तर्कसंगत योजना प्रदान नहीं करना, जहां उपयोगकर्ता यह नहीं पूछ सकते कि प्रणाली ने कुछ स्रोतों को अन्य स्रोतों पर क्यों प्राथमिकता दी।

9: स्रोतों की सीमित संख्या, जहां अधिकांश RAG प्रणालियां आमतौर पर एक बयान के लिए तीन समर्थन स्रोत प्रदान करती हैं, भले ही एक बड़ी विविधता लागू हो।

10: अनाथ स्रोत, जहां प्रणाली के समर्थन उद्धरणों से डेटा पूरी तरह से या आंशिक रूप से शामिल नहीं है।

11: अविश्वसनीय स्रोतों का उपयोग, जहां प्रणाली ने तथ्यात्मक रूप से सही होने के बजाय लोकप्रिय (अर्थात, एसईओ शब्दों में) स्रोत को पसंद किया है।

12: अतिरिक्त स्रोत, जहां प्रणाली कई उद्धरण प्रस्तुत करती है जिनमें स्रोत पत्र मूल रूप से एक ही सामग्री में होते हैं।

13: अफिल्टर्ड स्रोत, जहां प्रणाली उपयोगकर्ता को प्रस्तुत उद्धरणों का मूल्यांकन या फिल्टर करने का कोई तरीका प्रदान नहीं करती है, जिससे उपयोगकर्ता को चयन मानदंड पर विश्वास करने के लिए मजबूर होना पड़ता है।

14: इंटरैक्टिविटी या अन्वेषण की कमी, जहां कई उपयोगकर्ता-अध्ययन प्रतिभागियों को यह देखकर निराशा हुई कि RAG प्रणालियों ने स्पष्ट करने वाले प्रश्न नहीं पूछे, लेकिन पहले प्रश्न से उपयोगकर्ता-इरादे को माना।

15: बाहरी सत्यापन की आवश्यकता, जहां उपयोगकर्ता प्रदान की गई प्रतिक्रिया का स्वतंत्र रूप से सत्यापन करने के लिए मजबूर महसूस करते हैं, जो RAG के सुपposed सुविधा को ‘खोज के प्रतिस्थापन’ के रूप में कम करता है।

16: शैक्षणिक उद्धरण विधियों का उपयोग, जैसे [1] या [34]; यह शैक्षणिक हलकों में मानक अभ्यास है, लेकिन कई उपयोगकर्ताओं के लिए अस्पष्ट हो सकता है।

इस काम के लिए, शोधकर्ताओं ने कृत्रिम बुद्धिमत्ता, स्वास्थ्य सेवा और चिकित्सा, अनुप्रयुक्त विज्ञान और शिक्षा और सामाजिक विज्ञान में 21 विशेषज्ञों को इकट्ठा किया, जो सभी पोस्ट-डॉक्टरेट शोधकर्ता या पीएचडी उम्मीदवार थे। प्रतिभागियों ने जबकि अपनी सोच प्रक्रिया को जोर से बोलते हुए परीक्षण किए गए RAG प्रणालियों के साथ बातचीत की, ताकि शोधकर्ताओं के लिए अपनी तर्कसंगत योजना को स्पष्ट किया जा सके।

कागज़ में प्रतिभागियों की शंकाओं और चिंताओं को व्यापक रूप से उद्धृत किया गया है तीनों प्रणालियों के प्रदर्शन के बारे में।

उपयोगकर्ता-अध्ययन की विधि को तब एक स्वचालित अध्ययन में संगठित किया गया था जिसमें ब्राउज़र नियंत्रण सूट का उपयोग करके RAG प्रणालियों का मूल्यांकन किया गया था:

‘You.com, Perplexity.ai, और BingChat जैसी प्रणालियों का एक बड़े पैमाने पर स्वचालित मूल्यांकन दिखाया गया कि कोई भी अधिकांश मेट्रिक्स में स्वीकार्य प्रदर्शन हासिल नहीं कर पाया, जिसमें हॉलुसिनेशन, असमर्थित बयान, और उद्धरण सटीकता से संबंधित महत्वपूर्ण पहलुओं सहित।’

लेखक तर्क देते हैं कि नए और अनुभवी उपयोगकर्ताओं दोनों को अध्ययन में पाए गए कमियों के आधार पर भविष्य में अधिक तकनीकी पर्यवेक्षण के लिए एक नई प्रणाली के मेट्रिक्स के आधार पर RAG प्रणालियों का उपयोग करते समय सावधानी बरतनी चाहिए।

हालांकि, RAG प्रणालियों का बढ़ता सार्वजनिक उपयोग लेखकों को भी उपयुक्त विधायी और एजेंट-एडेड एआई खोज इंटरफेस के संबंध में अधिक प्रवर्तनीय सरकारी नीति के लिए वकालत करने के लिए प्रेरित करता है।

अध्ययन पेन्सिलवेनिया स्टेट यूनिवर्सिटी और सेल्सफोर्स के पांच शोधकर्ताओं से आता है, और इसका शीर्षक एआई युग में खोज इंजन: तथ्यात्मक और सत्यापन योग्य स्रोत-उद्धृत प्रतिक्रियाओं का झूठा वादा है। काम अगस्त 2024 में RAG प्रणालियों की वर्तमान स्थिति को कवर करता है

आरएजी ट्रेड-ऑफ

लेखक अपने काम को चार ज्ञात कमियों को दोहराकर शुरू करते हैं जहां बड़े भाषा मॉडल (एलएलएम) को उत्तर इंजन में उपयोग किया जाता है।

सबसे पहले, वे जानकारी को हॉलुसिनेट करने के लिए प्रवण होते हैं, और तथ्यात्मक असंगतियों का पता लगाने की क्षमता की कमी है। दूसरा, उन्हें एक उद्धरण की सटीकता का मूल्यांकन करने में कठिनाई होती है जो एक उत्पन्न उत्तर के संदर्भ में। तीसरा, वे डेटा को पसंद करते हैं अपने स्वयं के पूर्व-प्रशिक्षित वजन से, और बाहरी पुनर्प्राप्ति प्रलेखन से डेटा का विरोध कर सकते हैं, भले ही ऐसा डेटा अधिक हाल का या अधिक सटीक हो।

अंत में, RAG प्रणालियां अक्सर लोगों को खुश करने की प्रवृत्ति रखती हैं, स्य्कोफेंटिक व्यवहार, अक्सर सटीकता की लागत पर अपनी प्रतिक्रियाओं में जानकारी की।

इन सभी प्रवृत्तियों को अध्ययन के दोनों पहलुओं में पुष्टि की गई, साथ ही RAG के पिटफॉल के बारे में कई नए अवलोकन किए गए।

कागज़ ओपनएआई के सर्चजीपीटी RAG उत्पाद को देखता है (ग्राहकों को जारी पिछले सप्ताह, नए कागज़ जमा करने के बाद), RAG-आधारित खोज प्रणालियों के उपयोगकर्ता-ग्रहण को प्रोत्साहित करने के लिए संभावित रूप से:

‘ओपनएआई के ‘सर्चजीपीटी’ को ‘गूगल खोज किलर’ के रूप में विपणन किया जाता है, जो चिंताओं को और बढ़ाता है। जैसे ही इन उपकरणों पर निर्भरता बढ़ती है, तो उनके प्रभाव को समझने की तत्परता भी बढ़ती है। लिंडेमन सील्ड नॉलेज की अवधारणा को पेश करता है, जो यह आलोचना करता है कि ये प्रणालियां खोज प्रश्नों को एकल, अधिकारिक प्रतिक्रियाओं में कैसे संकुचित करती हैं, प्रभावी रूप से संदर्भ से जानकारी को डिकॉन्टेक्स्चुअलाइज़ करती हैं और उपयोगकर्ता दृष्टिकोण को सीमित करती हैं।

‘यह ‘ज्ञान को सील’ करना चयन पूर्वाग्रहों को बढ़ावा देता है और हाशिए पर खड़े दृष्टिकोण को प्रतिबंधित करता है।’

अध्ययन

लेखकों ने पहले अपनी अध्ययन प्रक्रिया का परीक्षण तीन में से 24 चुने हुए प्रतिभागियों पर किया, जिन्हें लिंक्डइन या ईमेल जैसे साधनों द्वारा आमंत्रित किया गया था।

पहले चरण में, शेष 21 के लिए, विशेषज्ञता सूचना पुनर्प्राप्ति शामिल थी, जहां प्रतिभागियों ने लगभग 40 मिनट के सत्र में छह खोज प्रश्नों का औसत निकाला। इस खंड ने तथ्यात्मक प्रश्नों और उत्तरों की खोज और सत्यापन पर केंद्रित किया, साथ ही साथ संभावित सांविधिक समाधानों पर भी।

दूसरे चरण में वाद-विवाद सूचना पुनर्प्राप्ति शामिल था, जो विषयगत मामलों से संबंधित था, जिनमें पारिस्थितिकी, शाकाहारी और राजनीति शामिल थे।

[कैप्शन id=”attachment_208219″ align=”alignnone” width=”938″] पर्प्लेक्सिटी (बाएं) और यू चैट (दाएं) से उत्पन्न अध्ययन उत्तर। स्रोत: https://arxiv.org/pdf/2410.22349 पर्प्लेक्सिटी (बाएं) और यू चैट (दाएं) से उत्पन्न अध्ययन उत्तर। स्रोत: https://arxiv.org/pdf/2410.22349[/caption]

चूंकि सभी प्रणालियों ने कम से कम कुछ स्तर की अंतर्क्रियाशीलता की अनुमति दी थी जो उत्पन्न उत्तरों के लिए समर्थन के रूप में प्रदान की गई उद्धरणों के साथ, अध्ययन विषयों को इंटरफ़ेस के साथ यथासंभव बातचीत करने के लिए प्रोत्साहित किया गया था।

दोनों मामलों में, प्रतिभागियों को अपने प्रश्नों को एक RAG प्रणाली और एक पारंपरिक खोज इंजन (इस मामले में, गूगल) के माध्यम से формूलेट करने के लिए कहा गया था।

तीन उत्तर इंजन – यू चैट, बिंग कोपायलट, और पर्प्लेक्सिटी – चुने गए क्योंकि वे सार्वजनिक रूप से सुलभ हैं।

प्रतिभागियों के अधिकांश पहले से ही RAG प्रणालियों के उपयोगकर्ता थे, जो विभिन्न आवृत्तियों पर थे।

स्थान सीमाओं के कारण, हम अध्ययन में पाए गए सोलह प्रमुख कमियों में से प्रत्येक को विस्तार से तोड़ नहीं सकते हैं, लेकिन यहां कुछ सबसे दिलचस्प और प्रेरक उदाहरण प्रस्तुत किए गए हैं:

वस्तुनिष्ठ विवरण की कमी

कागज़ में यह उल्लेख किया गया है कि उपयोगकर्ता पाया कि प्रणालियों की प्रतिक्रियाएं अक्सर वस्तुनिष्ठ विवरण की कमी के साथ-साथ विषयगत प्रतिक्रियाओं में भी कमी थी। एक ने टिप्पणी की:

‘यह बस उत्तर देने की कोशिश कर रहा था बिना मुझे एक ठोस उत्तर दिए या एक अधिक सोचा हुआ उत्तर, जो मैं कई गूगल खोजों के साथ प्राप्त कर सकता हूं।’

एक और ने观察 किया:

‘यह बहुत कम है और सब कुछ बहुत सारांशित है। [मॉडल] को मुझे दावे के लिए अधिक डेटा देने की आवश्यकता है, लेकिन यह बहुत सारांशित है।’

संपूर्ण दृष्टिकोण की कमी

लेखक इस कमी और विशिष्टता के बारे में चिंता व्यक्त करते हैं, और यह कहते हैं कि उत्तर इंजन अक्सर एक तर्क के कई दृष्टिकोण प्रस्तुत करने में विफल रहते हैं, उपयोगकर्ता के प्रश्न के शब्दों से अनुमानित पूर्वाग्रह के साथ पक्ष लेते हैं।

एक प्रतिभागी ने कहा:

‘मैं तर्क के दूसरे पक्ष के बारे में और जानना चाहता हूं… यह एक नमक के दाने के साथ है क्योंकि हम नहीं जानते कि दूसरा पक्ष और साक्ष्य और तथ्य क्या हैं।’

एक और ने टिप्पणी की:

‘यह आपको दोनों पक्षों को नहीं दे रहा है; यह आपके साथ तर्क नहीं कर रहा है। इसके बजाय, [मॉडल] बस आपको बता रहा है कि ‘आप सही हैं… और यहाँ कारण हैं।’

आत्मविश्वासी भाषा

लेखकों का मानना है कि तीनों परीक्षण की गई प्रणालियों ने विषयगत विषयों सहित अत्यधिक आत्मविश्वासी भाषा का प्रदर्शन किया। वे तर्क देते हैं कि यह स्वर उपयोगकर्ता को प्रतिक्रिया पर अनुचित विश्वास करने के लिए प्रेरित कर सकता है।

एक प्रतिभागी ने कहा:

‘यह इतनी आत्मविश्वास से लिखता है कि मुझे स्रोत देखने की जरूरत नहीं है। लेकिन जब आप स्रोत देखते हैं, तो यह खराब है और इससे मुझे फिर से संदेह होता है।’

एक और ने कहा:

‘यदि कोई सही उत्तर नहीं जानता है, तो वे इसके प्रति विश्वास करेंगे, भले ही यह गलत हो।’

गलत उद्धरण

एक और बार-बार समस्या यह थी कि स्रोतों को उत्तरों के लिए प्राधिकरण के रूप में उद्धृत किया गया था, जिसमें एक अध्ययन विषय यह दावा करता है:

‘[यह] बयान स्रोत में नहीं लगता है। मेरा मतलब है कि बयान सच है; यह वैध है… लेकिन मुझे नहीं पता कि यह जानकारी कहां से मिल रही है।’

नई कागज़ के लेखक टिप्पणी करते हैं:

‘प्रतिभागियों को लगता है कि प्रणालियां उद्धरणों का उपयोग अपने उत्तर को वैध बनाने के लिए कर रही हैं, विश्वसनीयता का भ्रम पैदा कर रही हैं। यह सामने आया जब कुछ उपयोगकर्ताओं ने स्रोतों की जांच की।’

प्रश्न के अनुरूप जानकारी चुनना

RAG प्रतिक्रियाओं में लोगों को खुश करने वाले स्य्कोफेंटिक व्यवहार पर लौटते हुए, अध्ययन में पाया गया कि कई उत्तरों ने एक विशिष्ट बिंदु को रेखांकित किया, इसके बजाय विषय का एक व्यापक सारांश प्रस्तुत किया:

‘मुझे लगता है [सिस्टम] मुझे मैनिप्युलेट करने की कोशिश कर रहा है। यह केवल कुछ जानकारी लेता है और मुझे लगता है कि मैं केवल एक पक्ष को देख रहा हूं।’

एक और ने कहा:

‘[स्रोत] में वास्तव में पेशेवरों और विपक्ष हैं, और यह केवल तर्क के लिए आवश्यक तर्कों का चयन करता है इस लिंक से बिना पूरी तस्वीर के।’
अधिक गहन उदाहरणों (और सर्वेक्षण प्रतिभागियों के कई महत्वपूर्ण उद्धरणों) के लिए, हम पाठक को मूल कागज़ को संदर्भित करते हैं।

स्वचालित RAG

अध्ययन के दूसरे चरण में, शोधकर्ताओं ने ब्राउज़र नियंत्रण सूट का उपयोग करके तीन परीक्षण की गई RAG इंजनों से प्रश्नों का स्वचालित रूप से मूल्यांकन किया।

बयानों के प्रश्न प्रासंगिकता और प्रो और कॉन स्टेटमेंट (अर्थात, प्रतिक्रिया प्रश्न के स्पष्ट पूर्वाग्रह के संबंध में क्या है, इसके लिए, इसके खिलाफ या तटस्थ है) का विश्लेषण किया गया था।

एक उत्तर विश्वास स्कोर भी इस स्वचालित चरण में मूल्यांकन किया गया था, जो लिकर्ट स्केल मनोवैज्ञानिक परीक्षण विधि पर आधारित था। यहां एलएलएम निर्णायक को दो मानव अनोटेटरों द्वारा बढ़ाया गया था।

एक तीसरा संचालन वेब-स्क्रैपिंग का उपयोग करके उद्धृत वेब-पेजों की पूर्ण-पाठ सामग्री प्राप्त करने के लिए किया गया था, जिना के रीडर टूल के माध्यम से। हालांकि, जैसा कि कागज़ के अन्य地方 में उल्लेख किया गया है, अधिकांश वेब-स्क्रैपिंग टूल पेवाल्ड साइटों तक पहुंच प्राप्त नहीं कर सकते हैं जितना कि अधिकांश लोग (हालांकि लेखकों का उल्लेख है कि पर्प्लेक्सिटी.ai इस बाधा को पार करने के लिए जाना जाता है)।

अतिरिक्त विचार यह थे कि क्या उत्तरों ने एक स्रोत का उद्धरण दिया (एक ‘उद्धरण मैट्रिक्स’ के रूप में गणना की गई), साथ ही साथ एक ‘तथ्यात्मक समर्थन मैट्रिक्स’ – एक मीट्रिक जो चार मानव अनोटेटरों की मदद से सत्यापित की गई थी।

इस प्रकार 8 सर्वोच्च मीट्रिक प्राप्त किए गए: एक तरफा उत्तर; अत्यधिक आत्मविश्वासी उत्तर; प्रासंगिक बयान; अनुद्धृत स्रोत; असमर्थित बयान; स्रोत आवश्यकता; उद्धरण सटीकता; और उद्धरण पूर्णता।

जिस सामग्री के खिलाफ इन मीट्रिक्स का परीक्षण किया गया था, वह उपयोगकर्ता-अध्ययन चरण से 303 क्यूरेटेड प्रश्नों पर आधारित थी, जिसके परिणामस्वरूप तीन परीक्षण की गई प्रणालियों में से 909 उत्तर प्राप्त हुए।

आठ मीट्रिक्स पर आधारित तीन परीक्षण की गई RAG प्रणालियों का मात्रात्मक मूल्यांकन।

परिणामों के संबंध में, कागज़ में कहा गया है:

‘उत्तर पाठ से संबंधित तीन मेट्रिक्स पर देखा, हम पाते हैं कि मूल्यांकन की गई उत्तर इंजन सभी अक्सर (50-80%) एक तरफा उत्तर उत्पन्न करते हैं, एक बहस प्रश्न के एक चार्ज किए गए फॉर्मूलेशन के साथ सहमत होने की तुलना में कई दृष्टिकोण प्रस्तुत करने के लिए, पर्प्लेक्सिटी अन्य दो इंजनों की तुलना में खराब प्रदर्शन करती है।’

‘यह निष्कर्ष हमारे गुणात्मक परिणामों के अनुरूप है। आश्चर्यजनक रूप से, हालांकि पर्प्लेक्सिटी सबसे अधिक एक तरफा उत्तर उत्पन्न करने की संभावना है, यह सबसे लंबे उत्तर (18.8 बयान प्रति उत्तर के औसत) भी उत्पन्न करता है, जो यह सुझाव देता है कि उत्तर विविधता की कमी उत्तर संक्षिप्तता के कारण नहीं है। ‘

‘दूसरे शब्दों में, उत्तर लंबाई में वृद्धि उत्तर विविधता में सुधार नहीं करती है।’

लेखक यह भी उल्लेख करते हैं कि पर्प्लेक्सिटी सबसे अधिक आत्मविश्वासी भाषा (90% उत्तर) का उपयोग करती है, और इसके विपरीत, अन्य दो प्रणालियां विषयगत सामग्री के प्ले में अधिक सावधानी से और कम आत्मविश्वासी भाषा का उपयोग करती हैं।

यू चैट एकमात्र RAG फ्रेमवर्क था जिसने एक उत्तर के लिए शून्य अनुद्धृत स्रोत हासिल किया, पर्प्लेक्सिटी 8% और बिंग चैट 36% पर थी।

सभी मॉडल ने एक ‘महत्वपूर्ण अनुपात’ असमर्थित बयानों का प्रदर्शन किया, और कागज़ घोषित करता है:

‘आरएजी फ्रेमवर्क को एलएलएम के हॉलुसिनेटरी व्यवहार को हल करने के लिए विज्ञापित किया जाता है जो एक एलएलएम को एक उत्तर उत्पन्न करने के लिए मजबूर करता है जो स्रोत दस्तावेजों पर आधारित है, फिर भी परिणाम दिखाते हैं कि आरएजी आधारित उत्तर इंजन अभी भी उत्तर उत्पन्न करते हैं जिनमें स्रोतों द्वारा समर्थित एक बड़ा अनुपात शामिल है।‘

इसके अलावा, सभी परीक्षण की गई प्रणालियों ने अपने बयानों का समर्थन करने वाले उद्धरण प्रदान करने में कठिनाई का सामना किया:

‘You.Com और [Bing Chat] पर्प्लेक्सिटी की तुलना में थोड़ा बेहतर प्रदर्शन करते हैं, जिसमें लगभग दो-तिहाई उद्धरण एक स्रोत की ओर इशारा करते हैं जो उद्धृत बयान का समर्थन करता है, और पर्प्लेक्सिटी खराब प्रदर्शन करता है जिसमें इसके अधिकांश उद्धरण असटीक हैं। ‘

‘यह परिणाम आश्चर्यजनक है: उद्धरण न केवल उन बयानों के लिए गलत है जो किसी भी स्रोत (स्रोत) द्वारा समर्थित नहीं हैं, लेकिन हम पाते हैं कि जब भी एक स्रोत एक उत्पन्न बयान का समर्थन करता है, तो सभी इंजन अक्सर एक अलग गलत स्रोत का उद्धरण देते हैं, जिससे उपयोगकर्ता को सही जानकारी स्रोत प्रदान करने का अवसर छीन लिया जाता है। ‘

‘दूसरे शब्दों में, हॉलुसिनेटरी व्यवहार न केवल उन बयानों में प्रदर्शित होता है जो किसी भी स्रोत द्वारा समर्थित नहीं हैं, बल्कि यह उन उद्धरणों में भी प्रदर्शित होता है जो उपयोगकर्ता को जानकारी की वैधता की पुष्टि करने से रोकते हैं।‘

लेखक निष्कर्ष निकालते हैं:

‘कोई भी उत्तर इंजन अधिकांश मेट्रिक्स पर अच्छा प्रदर्शन हासिल नहीं करता है, जो उत्तर इंजन में सुधार के लिए बड़े कमरे को उजागर करता है।’

* मेरे द्वारा लेखकों के इनलाइन उद्धरणों को हाइपरलिंक में परिवर्तित किया गया। जहां आवश्यक हो, मैंने हाइपरलिंक के लिए कई उद्धरणों में से पहले का चयन किया है, प्रारूपण व्यावहारिकता के कारण।

^† लेखकों का जोर, मेरा नहीं।

सोमवार, 4 नवंबर, 2024 को पहली बार प्रकाशित