कृत्रिम बुद्धिमत्ता

एक गहरा गोता Retrieval-Augmented Generation में LLM

Published October 2, 2023

Updated April 4, 2026

Aayush Mittal Mittal

Retrieval Augmented Generation Illustration using Midjourney

कल्पना कीजिए कि आप एक विश्लेषक हैं, और आपके पास एक बड़ा भाषा मॉडल है। आप इसके कार्यप्रवाह में लाने की संभावनाओं से उत्साहित हैं। लेकिन फिर, आप इसे नवीनतम स्टॉक कीमतों या वर्तमान मुद्रास्फीति दर के बारे में पूछते हैं, और यह आपको बताता है:

“मुझे खेद है, लेकिन मैं वास्तविक समय या पोस्ट-कटऑफ़ डेटा प्रदान नहीं कर सकता। मेरा अंतिम प्रशिक्षण डेटा केवल जनवरी 2022 तक है।”

बड़े भाषा मॉडल, अपनी भाषाई शक्ति के लिए, ‘अब’ को समझने में असमर्थ हैं। और तेजी से बदलते दुनिया में, ‘अब’ सब कुछ है।

शोध से पता चलता है कि बड़े पूर्व-प्रशिक्षित भाषा मॉडल (LLM) वास्तविक ज्ञान के भंडार भी हैं।

उन्हें इतने सारे डेटा पर प्रशिक्षित किया गया है कि उन्होंने बहुत सारे तथ्यों और आंकड़ों को अवशोषित कर लिया है। जब उन्हें परिष्कृत किया जाता है, तो वे विभिन्न प्रकार के NLP कार्यों पर उल्लेखनीय परिणाम प्राप्त कर सकते हैं।

लेकिन यहाँ पकड़ है: उनकी इस संग्रहीत ज्ञान तक पहुँचने और हेरफेर करने की क्षमता हमेशा सही नहीं होती है। विशेष रूप से जब कार्य ज्ञान-गहन होता है, तो ये मॉडल अधिक विशेषज्ञता वाले आर्किटेक्चर से पीछे रह सकते हैं। यह एक पुस्तकालय की तरह है जिसमें दुनिया की सभी पुस्तकें हैं, लेकिन आपको जो चाहिए उसे खोजने के लिए कोई कैटलॉग नहीं है।

OpenAI के ChatGPT को ब्राउज़िंग अपग्रेड मिला

OpenAI की ChatGPT की ब्राउज़िंग क्षमता की हालिया घोषणा Retrieval-Augmented Generation (RAG) की दिशा में एक महत्वपूर्ण कदम है। ChatGPT अब इंटरनेट पर वर्तमान और अधिकृत जानकारी के लिए खोज कर सकता है, यह RAG दृष्टिकोण को दर्शाता है जो गतिविधि से बाहरी स्रोतों से डेटा को गतिविधि से खींचता है ताकि समृद्ध प्रतिक्रियाएं प्रदान की जा सकें।

प्रॉम्प्ट इंजीनियरिंग प्रभावी है लेकिन अपर्याप्त

प्रॉम्प्ट LLM के ज्ञान के लिए एक प्रवेश द्वार के रूप में कार्य करते हैं। वे मॉडल को मार्गदर्शन प्रदान करते हैं, प्रतिक्रिया के लिए एक दिशा प्रदान करते हैं। हालांकि, एक प्रभावी प्रॉम्प्ट बनाना LLM से आप जो चाहते हैं उसे प्राप्त करने का पूर्ण समाधान नहीं है। फिर भी, आइए कुछ अच्छी प्रथाओं पर विचार करें जब प्रॉम्प्ट लिखना:

स्पष्टता: एक अच्छी तरह से परिभाषित प्रॉम्प्ट अस्पष्टता को समाप्त करता है। यह सीधा होना चाहिए, यह सुनिश्चित करते हुए कि मॉडल उपयोगकर्ता के इरादे को समझता है। यह स्पष्टता अक्सर अधिक सुसंगत और प्रासंगिक प्रतिक्रियाओं में अनुवाद करती है।
संदर्भ: विशेष रूप से व्यापक इनपुट के लिए, निर्देश की स्थिति आउटपुट को प्रभावित कर सकती है। उदाहरण के लिए, एक लंबे प्रॉम्प्ट के अंत में निर्देश को स्थानांतरित करने से अक्सर बेहतर परिणाम मिलते हैं।
निर्देश में सटीकता: प्रश्न की ताकत, अक्सर “कौन, क्या, कहाँ, कब, क्यों, कैसे” फ्रेमवर्क के माध्यम से व्यक्त की जाती है, मॉडल को एक अधिक केंद्रित प्रतिक्रिया की ओर मार्गदर्शन कर सकती है। इसके अलावा, वांछित आउटपुट प्रारूप या आकार को निर्दिष्ट करने से मॉडल के आउटपुट को और अधिक परिष्कृत किया जा सकता है।
अनिश्चितता को संभालना: यह आवश्यक है कि मॉडल को यह निर्देश दिया जाए कि जब यह अनिश्चित हो तो कैसे प्रतिक्रिया दे। उदाहरण के लिए, मॉडल को अनिश्चित होने पर “मुझे नहीं पता” के साथ प्रतिक्रिया देने का निर्देश देने से यह रोका जा सकता है असटीक या “हॉलुसिनेटेड” प्रतिक्रियाएं।
क्रमिक सोच: जटिल निर्देशों के लिए, मॉडल को व्यवस्थित रूप से सोचने या कार्य को उपकार्यों में तोड़ने के लिए मार्गदर्शन करने से अधिक व्यापक और सटीक आउटपुट हो सकते हैं।

ChatGPT में प्रॉम्प्ट के महत्व के संबंध में, Unite.ai पर एक व्यापक लेख पाया जा सकता है।

जेनरेटिव एआई मॉडल में चुनौतियाँ

प्रॉम्प्ट इंजीनियरिंग में आपके मॉडल को दिए जाने वाले निर्देशों को परिष्कृत करना शामिल है ताकि इसके प्रदर्शन में सुधार हो सके। यह आपके जेनरेटिव एआई अनुप्रयोग की सटीकता को बढ़ाने का एक बहुत ही लागत प्रभावी तरीका है, जिसमें केवल मामूली कोड समायोजन की आवश्यकता होती है। जबकि प्रॉम्प्ट इंजीनियरिंग आउटपुट को काफी हद तक बढ़ा सकती है, यह समझना महत्वपूर्ण है कि बड़े भाषा मॉडल (LLM) की सीमाएं हैं। दो प्राथमिक चुनौतियाँ हॉलुसिनेशन और ज्ञान कट-ऑफ हैं।

हॉलुसिनेशन: यह उन मामलों को संदर्भित करता है जहां मॉडल आत्मविश्वास से एक गलत या बनावटी प्रतिक्रिया लौटाता है।

LLM में हॉलुसिनेशन

ज्ञान कट-ऑफ: प्रत्येक LLM मॉडल में एक प्रशिक्षण समाप्ति तिथि होती है, जिसके बाद यह घटनाओं या विकास से अनजान होता है। यह सीमा यह意味ा है कि मॉडल का ज्ञान इसकी अंतिम प्रशिक्षण तिथि पर जमे हुए है। उदाहरण के लिए, 2022 तक प्रशिक्षित एक मॉडल 2023 की घटनाओं को नहीं जानता है।

LLM में ज्ञान कट-ऑफ

रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) इन चुनौतियों का समाधान प्रदान करता है। यह मॉडल को बाहरी जानकारी तक पहुँचने की अनुमति देता है, हॉलुसिनेशन की समस्याओं को कम करता है और स्वामित्व या डोमेन-विशिष्ट डेटा तक पहुँच प्रदान करता है। ज्ञान कट-ऑफ के लिए, RAG मॉडल के प्रशिक्षण तिथि से परे वर्तमान जानकारी तक पहुँच सकता है, यह सुनिश्चित करते हुए कि आउटपुट अद्यतित है।

रिट्रीवल-ऑगमेंटेड जेनरेशन की शुरुआत

रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) एक फ्रेमवर्क है, एक विशिष्ट प्रौद्योगिकी नहीं, जो बड़े भाषा मॉडल को उन डेटा तक पहुँचने की अनुमति देता है जिस पर उन्हें प्रशिक्षित नहीं किया गया है। RAG को लागू करने के कई तरीके हैं, और सबसे अच्छा फिट आपके विशिष्ट कार्य और आपके डेटा की प्रकृति पर निर्भर करता है।

प्रॉम्प्ट इनपुट

प्रक्रिया एक उपयोगकर्ता के इनपुट या प्रॉम्प्ट से शुरू होती है। यह एक प्रश्न या विशिष्ट जानकारी मांगने वाला बयान हो सकता है।

बाहरी स्रोतों से रिट्रीवल

इसके बजाय कि यह सीधे अपने प्रशिक्षण पर आधारित प्रतिक्रिया उत्पन्न करे, मॉडल, एक रिट्रीवर घटक की मदद से, बाहरी डेटा स्रोतों के माध्यम से खोज करता है। ये स्रोत ज्ञान आधार, डेटाबेस, डॉक्यूमेंट स्टोर और इंटरनेट-सुलभ डेटा हो सकते हैं।

रिट्रीवल को समझना

इसका सार एक खोज ऑपरेशन की तरह है। यह उपयोगकर्ता के इनपुट के प्रतिक्रिया में सबसे प्रासंगिक जानकारी को निकालने के बारे में है। इस प्रक्रिया को दो चरणों में विभाजित किया जा सकता है:

इंडेक्सिंग: तर्कसंगत रूप से, पूरी RAG यात्रा का सबसे चुनौतीपूर्ण हिस्सा आपके ज्ञान आधार को इंडेक्सिंग करना है। इंडेक्सिंग प्रक्रिया को दो चरणों में विभाजित किया जा सकता है: लोडिंग और विभाजन। टूल्स जैसे LangChain में, इन प्रक्रियाओं को “लोडर” और “स्प्लिटर” के रूप में जाना जाता है। लोडर विभिन्न स्रोतों से सामग्री प्राप्त करते हैं, चाहे वे वेब पेज हों या पीडीएफ। एक बार प्राप्त होने के बाद, स्प्लिटर फिर इस सामग्री को छोटे टुकड़ों में विभाजित करते हैं, इसे एम्बेडिंग और खोज के लिए अनुकूलित करते हैं।
क्वेरीिंग: यह खोज शब्द के आधार पर सबसे प्रासंगिक ज्ञान टुकड़ों को निकालने का कार्य है।

जबकि रिट्रीवल के दृष्टिकोण कई हैं, सरल पाठ मिलान से लेकर गूगल जैसे खोज इंजन का उपयोग करने तक, आधुनिक रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) प्रणाली सेमेंटिक खोज पर निर्भर करती है। सेमेंटिक खोज के दिल में एम्बेडिंग की अवधारणा है।

प्रॉम्प्ट को बढ़ाना

पुनर्प्राप्त जानकारी को फिर मूल प्रॉम्प्ट के साथ जोड़ दिया जाता है, एक विस्तारित या विस्तृत प्रॉम्प्ट बनाता है। यह विस्तारित प्रॉम्प्ट मॉडल को अतिरिक्त संदर्भ प्रदान करता है, जो विशेष रूप से मूल्यांकन योग्य है यदि डेटा डोमेन-विशिष्ट है या मॉडल के मूल प्रशिक्षण निगम में नहीं है।

पूर्णता का उत्पादन

विस्तारित प्रॉम्प्ट के साथ, मॉडल फिर एक पूर्णता या प्रतिक्रिया उत्पन्न करता है। यह प्रतिक्रिया न केवल मॉडल के प्रशिक्षण पर आधारित है, बल्कि पुनर्प्राप्त डेटा से भी सूचित है।

पहले RAG LLM की वास्तुकला

2020 में मेटा द्वारा प्रकाशित शोध पत्र “ज्ञान-गहन NLP कार्यों के लिए रिट्रीवल-ऑगमेंटेड जेनरेशन” इस तकनीक में एक गहन दृष्टिकोण प्रदान करता है। रिट्रीवल-ऑगमेंटेड जेनरेशन मॉडल पारंपरिक जेनरेशन प्रक्रिया को एक बाहरी रिट्रीवल या खोज तंत्र के साथ बढ़ाता है। यह मॉडल को विशाल डेटा निगम से प्रासंगिक जानकारी खींचने की अनुमति देता है, जिससे संदर्भually सटीक प्रतिक्रियाएं उत्पन्न होती हैं।

पैरामेट्रिक मेमोरी: यह आपका पारंपरिक भाषा मॉडल है, जैसे कि एक seq2seq मॉडल। इसे विशाल डेटा पर प्रशिक्षित किया गया है और बहुत कुछ जानता है।
गैर-पैरामेट्रिक मेमोरी: इसे एक खोज इंजन के रूप में सोचें। यह एक घने वेक्टर सूचकांक है, कहें, विकिपीडिया का, जिसे एक तंत्रिका रिट्रीवर का उपयोग करके एक्सेस किया जा सकता है।

जब संयुक्त, वे एक सटीक मॉडल बनाते हैं। RAG मॉडल पहले अपनी गैर-पैरामेट्रिक मेमोरी से प्रासंगिक जानकारी पुनर्प्राप्त करता है और फिर अपने पैरामेट्रिक ज्ञान का उपयोग करके एक सुसंगत प्रतिक्रिया देता है।

1. दो-चरण प्रक्रिया:

RAG LLM एक दो-चरण प्रक्रिया में काम करता है:

रिट्रीवल: मॉडल पहले एक बड़े डेटासेट से प्रासंगिक दस्तावेज़ या पासेज़ खोजता है। यह एक घने रिट्रीवल तंत्र का उपयोग करके किया जाता है, जो दोनों प्रश्न और दस्तावेज़ों का प्रतिनिधित्व करने के लिए एम्बेडिंग का उपयोग करता है। एम्बेडिंग फिर समानता स्कोर की गणना के लिए उपयोग की जाती है, और शीर्ष-रैंक वाले दस्तावेज़ पुनर्प्राप्त किए जाते हैं।
जेनरेशन: शीर्ष-k प्रासंगिक दस्तावेज़ हाथ में होने के साथ, वे फिर एक अनुक्रम-से-अनुक्रम जनरेटर के साथ-साथ मूल प्रश्न में चैनल किए जाते हैं। यह जनरेटर फिर अंतिम आउटपुट बनाता है, दोनों प्रश्न और पुनर्प्राप्त दस्तावेज़ों से संदर्भ लेता है।

2. घना रिट्रीवल:

पारंपरिक रिट्रीवल प्रणाली अक्सर टीएफ-आईडीएफ जैसे विरल प्रतिनिधित्व पर निर्भर करती हैं। हालांकि, RAG LLM घने प्रतिनिधित्व का उपयोग करता है, जहां दोनों प्रश्न और दस्तावेज़ निरंतर वेक्टर स्थान में एम्बेड किए जाते हैं। यह अधिक सूक्ष्म समानता तुलना की अनुमति देता है, जो केवल कीवर्ड मिलान से परे सेमेंटिक संबंधों को पकड़ता है।

3. अनुक्रम-से-अनुक्रम जेनरेशन:

पुनर्प्राप्त दस्तावेज़ जेनरेशन मॉडल के लिए एक विस्तारित संदर्भ के रूप में कार्य करते हैं। यह मॉडल, अक्सर ट्रांसफॉर्मर जैसे आर्किटेक्चर पर आधारित, फिर एक सुसंगत और संदर्भually प्रासंगिक आउटपुट उत्पन्न करता है।

दस्तावेज़ खोज

दस्तावेज़ इंडेक्सिंग और रिट्रीवल

दस्तावेज़ों से कुशलता से जानकारी पुनर्प्राप्त करने के लिए, विशेष रूप से बड़े दस्तावेज़ों के लिए, डेटा अक्सर एक वेक्टर डेटाबेस में संग्रहीत किया जाता है। प्रत्येक डेटा या दस्तावेज़ को एक एम्बेडिंग वेक्टर के आधार पर सूचीबद्ध किया जाता है, जो सामग्री के सेमेंटिक सार को पकड़ता है। कुशल सूचीबद्धीकरण पुनर्प्राप्ति को तेजी से सुनिश्चित करता है, जो इनपुट प्रॉम्प्ट के आधार पर प्रासंगिक जानकारी को खोजने के लिए है।

वेक्टर डेटाबेस

स्रोत: Redis

वेक्टर डेटाबेस, कभी-कभी वेक्टर स्टोरेज के रूप में जाना जाता है, विशेष रूप से वेक्टर डेटा को संग्रहीत और पुनर्प्राप्त करने में सक्षम डेटाबेस हैं। कंप्यूटर विज्ञान में, वेक्टर संख्याओं की सूची होती है जो बहु-आयामी स्थान में बिंदु का प्रतिनिधित्व करती है। पारंपरिक डेटाबेस की तुलना में, जो टेबुलर डेटा के लिए अधिक अनुकूल होते हैं, वेक्टर डेटाबेस वेक्टर प्रारूप में फिट होने वाले डेटा को प्रबंधित करने में उत्कृष्ट होते हैं, जैसे कि एआई मॉडल से एम्बेडिंग।

चंकिंग के लिए प्रासंगिकता

चूंकि कई दस्तावेज़ व्यापक हो सकते हैं, एक तकनीक का उपयोग “चंकिंग” के रूप में किया जाता है। इसमें बड़े दस्तावेज़ों को छोटे, सेमेंटिक रूप से सुसंगत टुकड़ों में तोड़ना शामिल है। फिर इन टुकड़ों को सूचीबद्ध और पुनर्प्राप्त किया जाता है, यह सुनिश्चित करते हुए कि दस्तावेज़ के सबसे प्रासंगिक हिस्से प्रॉम्प्ट संवर्धन के लिए उपयोग किए जाते हैं।

संदर्भ विंडो विचार

प्रत्येक LLM एक संदर्भ विंडो के भीतर काम करता है, जो मूल रूप से यह है कि यह एक बार में कितनी जानकारी पर विचार कर सकता है। यदि बाहरी डेटा स्रोत जानकारी प्रदान करते हैं जो इस विंडो से अधिक है, तो इसे मॉडल के संदर्भ विंडो के भीतर फिट होने वाले छोटे टुकड़ों में तोड़ा जाना चाहिए।

रिट्रीवल-ऑगमेंटेड जेनरेशन का उपयोग करने के लाभ

सटीकता में वृद्धि: बाहरी डेटा स्रोतों का लाभ उठाकर, RAG LLM प्रतिक्रियाएं उत्पन्न कर सकता है जो न केवल इसके प्रशिक्षण डेटा पर आधारित हैं, बल्कि पुनर्प्राप्ति निगम में सबसे प्रासंगिक और अद्यतन जानकारी से भी सूचित हैं।
ज्ञान अंतराल को पार करना: RAG LLM की सीमाओं को प्रभावी ढंग से संबोधित करता है, चाहे वह मॉडल के प्रशिक्षण कट-ऑफ के कारण हो या इसके प्रशिक्षण निगम में डोमेन-विशिष्ट डेटा की अनुपस्थिति के कारण।
लचीलापन: RAG विभिन्न बाहरी डेटा स्रोतों के साथ एकीकृत किया जा सकता है, एक संगठन के भीतर स्वामित्व वाले डेटाबेस से लेकर सार्वजनिक रूप से इंटरनेट डेटा तक। यह इसे विभिन्न अनुप्रयोगों और उद्योगों के लिए अनुकूल बनाता है।
हॉलुसिनेशन को कम करना: LLM के साथ एक चुनौती यह है कि यह “हॉलुसिनेशन” या तथ्यात्मक रूप से गलत या बनावटी जानकारी का उत्पादन कर सकता है। वास्तविक समय डेटा संदर्भ प्रदान करके, RAG ऐसे आउटपुट की संभावना को काफी कम कर सकता है।
स्केलेबिलिटी: RAG LLM का एक प्राथमिक लाभ इसकी क्षमता है स्केल करने की। रिट्रीवल और जेनरेशन प्रक्रियाओं को अलग करके, मॉडल बड़े डेटासेट को कुशलता से संभाल सकता है, इसे वास्तविक दुनिया के अनुप्रयोगों के लिए उपयुक्त बनाता है जहां डेटा बहुत अधिक है।

चुनौतियाँ और विचार

गणनात्मक ओवरहेड: दो-चरण प्रक्रिया गणनात्मक रूप से तीव्र हो सकती है, विशेष रूप से बड़े डेटासेट के साथ।
डेटा निर्भरता: पुनर्प्राप्त दस्तावेजों की गुणवत्ता सीधे जेनरेशन गुणवत्ता को प्रभावित करती है। इसलिए, एक व्यापक और अच्छी तरह से क्यूरेटेड रिट्रीवल निगम होना महत्वपूर्ण है।

निष्कर्ष

रिट्रीवल और जेनरेशन प्रक्रियाओं को एकीकृत करके, रिट्रीवल-ऑगमेंटेड जेनरेशन ज्ञान-गहन कार्यों के लिए एक मजबूत समाधान प्रदान करता है, यह सुनिश्चित करते हुए कि आउटपुट सूचित और संदर्भually प्रासंगिक हैं।

रिट्रीवल-ऑगमेंटेड जेनरेशन का वास्तविक वादा इसके वास्तविक दुनिया के अनुप्रयोगों में निहित है। स्वास्थ्य सेवा जैसे क्षेत्रों में, जहां समय पर और सटीक जानकारी महत्वपूर्ण हो सकती है, RAG समय पर और सटीक जानकारी प्रदान करने में मदद कर सकता है। वित्त में, जहां बाजार मिनटों में बदलते हैं, RAG वास्तविक समय डेटा से संचालित अंतर्दृष्टि प्रदान कर सकता है, जो सूचित निर्णय लेने में मदद करता है। इसके अलावा, अकादमिक और शोध में, विद्वान RAG का उपयोग विशाल जानकारी के भंडार को स्कैन करने के लिए कर सकते हैं, साहित्य समीक्षा और डेटा विश्लेषण को अधिक कुशल बना सकते हैं।

Related Topics:chatgpt generative ai LLM OpenAI PROMPT ENGINEERING retrieval augmented generation

Aayush Mittal

मैं पिछले पांच वर्षों से मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में खुद को डूबा रहा हूं। मेरा जुनून और विशेषज्ञता ने मुझे 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान देने के लिए प्रेरित किया है, जिसमें विशेष रूप से एआई/एमएल पर ध्यान केंद्रित किया गया है। मेरी लगातार जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर आकर्षित किया है, जो एक क्षेत्र है जिसे मैं आगे अन्वेषण करने के लिए उत्सुक हूं।