कृत्रिम बुद्धिमत्ता

एलएलएम हॉलुसिनेशन को पार करना रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) का उपयोग करके

प्रकाशित 5 मार्च 2024

अपडेट किया गया 15 मई 2026

Haziqa Sajid

बड़े भाषा मॉडल (एलएलएम) भाषा को संसाधित करने और उत्पन्न करने के तरीके को क्रांतिकारी बना रहे हैं, लेकिन वे अपरिपूर्ण हैं। जैसे कि मनुष्य बादलों में आकार या चंद्रमा पर चेहरे देख सकते हैं, एलएलएम भी ‘हॉलुसिनेट’ कर सकते हैं, जो सटीक जानकारी नहीं है। यह घटना, जिसे एलएलएम हॉलुसिनेशन के रूप में जाना जाता है, एलएलएम के उपयोग के विस्तार के साथ एक बढ़ती चिंता का विषय है।

त्रुटियां उपयोगकर्ताओं को भ्रमित कर सकती हैं और कुछ मामलों में, यहां तक कि कंपनियों के लिए कानूनी परेशानियां भी पैदा कर सकती हैं। उदाहरण के लिए, 2023 में, एक एयर फोर्स के अनुभवी जेफरी बैटल (जिन्हें द एयरोस्पेस प्रोफेसर के नाम से जाना जाता है) ने माइक्रोसॉफ्ट के खिलाफ मुकदमा दायर किया जब उन्होंने पाया कि माइक्रोसॉफ्ट के चैटजीपीटी-संचालित बिंग खोज कभी-कभी उनके नाम की खोज पर तथ्यात्मक रूप से असटीक और हानिकारक जानकारी देता है। खोज इंजन उन्हें एक दोषी जेफरी लियोन बैटल के साथ भ्रमित करता है।

एलएलएम हॉलुसिनेशन को संबोधित करने के लिए, रिट्रीवल-ऑगमेंटेड जेनरेशन (आरएजी) एक आशाजनक समाधान के रूप में उभरा है। यह बाहरी डेटाबेस से ज्ञान को एकीकृत करके एलएलएम के परिणाम की सटीकता और विश्वसनीयता को बढ़ाता है। आइए देखें कि आरएजी एलएलएम को अधिक सटीक और विश्वसनीय कैसे बनाता है।

एलएलएम हॉलुसिनेशन को समझना: कारण और उदाहरण

एलएलएम, जिनमें प्रसिद्ध मॉडल जैसे चैटजीपीटी, चैटजीएलएम, और क्लाउड शामिल हैं, व्यापक पाठ डेटासेट पर प्रशिक्षित होते हैं लेकिन तथ्यात्मक रूप से गलत आउटपुट उत्पन्न करने से मुक्त नहीं हैं, जिसे ‘हॉलुसिनेशन’ कहा जाता है। हॉलुसिनेशन इसलिए होता है क्योंकि एलएलएम को तथ्यात्मक सटीकता की परवाह किए बिना अंतर्निहित भाषा नियमों के आधार पर अर्थपूर्ण प्रतिक्रिया बनाने के लिए प्रशिक्षित किया जाता है।

टिडियो के एक अध्ययन में पाया गया कि जबकि 72% उपयोगकर्ता मानते हैं कि एलएलएम विश्वसनीय हैं, 75% को कम से कम एक बार एआई से गलत जानकारी मिली है। यहां तक कि सबसे आशाजनक एलएलएम मॉडल जैसे जीपीटी-3.5 और जीपीटी-4 कभी-कभी असटीक या अर्थहीन सामग्री उत्पन्न कर सकते हैं।

यहाँ एलएलएम हॉलुसिनेशन के सामान्य प्रकारों का एक संक्षिप्त विवरण है:

सामान्य एआई हॉलुसिनेशन प्रकार:

स्रोत मिश्रण: यह तब होता है जब एक मॉडल विभिन्न स्रोतों से विवरण को मिलाता है, जिससे विरोधाभास या यहां तक कि बनावटी स्रोत भी हो सकते हैं।
तथ्यात्मक त्रुटियाँ: एलएलएम तथ्यात्मक आधार के साथ सामग्री उत्पन्न कर सकते हैं जो सटीक नहीं है, खासकर जब इंटरनेट पर अंतर्निहित असटीकता होती है
अर्थहीन जानकारी: एलएलएम अगले शब्द की भविष्यवाणी संभावना के आधार पर करते हैं। यह व्याकरणिक रूप से सही लेकिन अर्थहीन पाठ में परिणाम हो सकता है, जो उपयोगकर्ताओं को सामग्री के अधिकार के बारे में भ्रमित कर सकता है।

पिछले साल, दो वकीलों ने छह गैर-मौजूदा मामलों का हवाला दिया, जो चैटजीपीटी द्वारा उत्पन्न जानकारी से भ्रमित हो गए थे, जो कानूनी दस्तावेजों में थे। यह उदाहरण एलएलएम द्वारा उत्पन्न सामग्री के प्रति सावधानी से दृष्टिकोण के महत्व को रेखांकित करता है, जो विश्वसनीयता सुनिश्चित करने के लिए सत्यापन की आवश्यकता को दर्शाता है। जबकि इसकी रचनात्मक क्षमता कहानी सुनाने जैसे अनुप्रयोगों में लाभकारी है, यह तथ्यों का सख्ती से पालन करने वाले कार्यों के लिए चुनौतियां प्रस्तुत करता है, जैसे कि शोध करना, चिकित्सा और वित्तीय विश्लेषण रिपोर्ट लिखना और कानूनी सलाह देना।

एलएलएम हॉलुसिनेशन के लिए समाधान का अन्वेषण: रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) कैसे काम करता है

2020 में, एलएलएम शोधकर्ताओं ने एलएलएम हॉलुसिनेशन को कम करने के लिए एक तकनीक पेश की जिसे रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) कहा जाता है। यह बाहरी डेटा स्रोत को एकीकृत करके एलएलएम के परिणाम की सटीकता और विश्वसनीयता को बढ़ाता है। पारंपरिक एलएलएम के विपरीत, जो केवल अपने पूर्व-प्रशिक्षित ज्ञान पर निर्भर करते हैं, आरएजी-आधारित एलएलएम मॉडल बाहरी डेटाबेस से प्रासंगिक जानकारी को गतिविधि से पुनर्प्राप्त करके तथ्यात्मक रूप से सटीक प्रतिक्रियाएं उत्पन्न करते हैं।

आरएजी प्रक्रिया विवरण:

आरएजी के चरण

आरएजी प्रक्रिया के चरण: स्रोत

चरण 1: पुनर्प्राप्ति

सिस्टम उपयोगकर्ता के प्रश्न से संबंधित जानकारी के लिए एक विशिष्ट ज्ञान आधार की खोज करता है। उदाहरण के लिए, यदि कोई व्यक्ति पिछले सॉकर विश्व कप विजेता के बारे में पूछता है, तो यह सॉकर से संबंधित जानकारी की खोज करता है।

चरण 2: वृद्धि

मूल प्रश्न को तब पुनर्प्राप्त जानकारी के साथ समृद्ध किया जाता है। सॉकर के उदाहरण का उपयोग करते हुए, “सॉकर विश्व कप का विजेता कौन था?” प्रश्न को “अर्जेंटीना ने सॉकर विश्व कप जीता” जैसी विशिष्ट विवरण के साथ अद्यतन किया जाता है।

चरण 3: उत्पन्न

समृद्ध प्रश्न के साथ, एलएलएम एक विस्तृत और सटीक प्रतिक्रिया उत्पन्न करता है। हमारे मामले में, यह विश्व कप के बारे में समृद्ध जानकारी के आधार पर एक प्रतिक्रिया तैयार करेगा।

यह विधि असटीकताओं को कम करने में मदद करती है और यह सुनिश्चित करती है कि एलएलएम की प्रतिक्रियाएं अधिक विश्वसनीय और सटीक डेटा पर आधारित हैं।

आरएजी द्वारा हॉलुसिनेशन को कम करने के लाभ और नुकसान

आरएजी ने हॉलुसिनेशन को कम करने में आशाजनक परिणाम दिखाए हैं और पीढ़ी प्रक्रिया को सुधारता है। यह तंत्र आरएजी मॉडल को अधिक सटीक, अद्यतन और संदर्भ-संबंधी जानकारी प्रदान करने की अनुमति देता है।

निश्चित रूप से, आरएजी पर एक अधिक सामान्य चर्चा इसके विभिन्न कार्यान्वयन में इसके लाभों और सीमाओं की एक व्यापक समझ प्रदान करती है।

आरएजी के लाभ:

बेहतर जानकारी खोज: आरएजी बड़े डेटा स्रोतों से तेजी से सटीक जानकारी खोजता है।
सुधारित सामग्री: यह उपयोगकर्ताओं की आवश्यकताओं के लिए स्पष्ट और अच्छी तरह से मेल खाने वाली सामग्री बनाता है।
लचीला उपयोग: उपयोगकर्ता अपनी विशिष्ट आवश्यकताओं के अनुसार आरएजी को समायोजित कर सकते हैं, जैसे कि अपने स्वामित्व वाले डेटा स्रोतों का उपयोग करके, प्रभावशीलता में वृद्धि करते हैं।

आरएजी की चुनौतियाँ:

विशिष्ट डेटा की आवश्यकता: प्रश्न संदर्भ को समझना और सटीक जानकारी प्रदान करना मुश्किल हो सकता है।
स्केलेबिलिटी: बड़े डेटासेट और प्रश्नों को संभालने के लिए मॉडल का विस्तार करना और प्रदर्शन को बनाए रखना कठिन है।
निरंतर अद्यतन: ज्ञान डेटासेट को नवीनतम जानकारी के साथ स्वचालित रूप से अद्यतन करना संसाधन गहन है।

आरएजी के विकल्पों का अन्वेषण

आरएजी के अलावा, यहाँ कुछ अन्य आशाजनक तरीके हैं जो एलएलएम शोधकर्ताओं को हॉलुसिनेशन को कम करने में मदद कर सकते हैं:

जी-ईवैल: उत्पन्न सामग्री की सटीकता को एक विश्वसनीय डेटासेट के साथ क्रॉस-वरिफाई करके विश्वसनीयता में सुधार करता है।
सेल्फचेकजीपीटी: स्वचालित रूप से अपनी गलतियों की जांच और सुधार करता है ताकि आउटपुट सटीक और संगत रहें।
प्रॉम्प्ट इंजीनियरिंग: उपयोगकर्ताओं को सटीक और प्रासंगिक प्रतिक्रियाओं के लिए मॉडल को मार्गदर्शन करने के लिए सटीक इनपुट प्रॉम्प्ट डिज़ाइन करने में मदद करता है।
फाइन-ट्यूनिंग: मॉडल को कार्य-विशिष्ट डेटासेट के लिए समायोजित करता है ताकि डोमेन-विशिष्ट प्रदर्शन में सुधार हो।
लोरा (लो-रैंक एडाप्टेशन): यह विधि कार्य-विशिष्ट अनुकूलन के लिए मॉडल के पैरामीटर के एक छोटे हिस्से को संशोधित करती है, जिससे दक्षता में वृद्धि होती है।

आरएजी और इसके विकल्पों का अन्वेषण एलएलएम की सटीकता और विश्वसनीयता में सुधार के लिए एक गतिशील और बहुस्तरीय दृष्टिकोण को उजागर करता है। जैसा कि हम आगे बढ़ते हैं, एलएलएम हॉलुसिनेशन की अंतर्निहित चुनौतियों को संबोधित करने के लिए आरएजी जैसी प्रौद्योगिकियों में निरंतर नवाचार आवश्यक है।

एआई और मशीन लर्निंग में नवीनतम विकास, विस्तृत विश्लेषण और समाचारों के साथ अपडेट रहने के लिए, unite.ai पर जाएं।