शीघ्र इंजीनियरिंग

एलएलएम फाइन-ट्यूनिंग को समझना: अपनी अनूठी आवश्यकताओं के लिए बड़े भाषा मॉडल को तैयार करना

Updated on नवम्बर 20/2023

एलएलएम फाइन ट्यूनिंग प्रतिनिधित्व - मिडजर्नी

जैसा कि हम सितंबर 2023 में खड़े हैं, बड़े भाषा मॉडल (एलएलएम) का परिदृश्य अभी भी अल्पाका, फाल्कन सहित मॉडलों का उदय देख रहा है। लामा 2, जीपीटी-4, और कई अन्य।

इन एलएलएम की क्षमता का लाभ उठाने का एक महत्वपूर्ण पहलू फाइन-ट्यूनिंग प्रक्रिया में निहित है, एक ऐसी रणनीति जो विशिष्ट कार्यों को सटीकता के साथ पूरा करने के लिए पूर्व-प्रशिक्षित मॉडल के अनुकूलन की अनुमति देती है। यह इस फाइन-ट्यूनिंग के माध्यम से है कि ये मॉडल वास्तव में व्यक्तिगत आवश्यकताओं के साथ संरेखित हो सकते हैं, ऐसे समाधान पेश कर सकते हैं जो नवीन और अद्वितीय आवश्यकताओं के अनुरूप हों।

हालाँकि, यह ध्यान रखना आवश्यक है कि सभी फाइन-ट्यूनिंग रास्ते समान नहीं बनाए गए हैं। उदाहरण के लिए, GPT-4 की फाइन-ट्यूनिंग क्षमताओं तक पहुंच प्रीमियम पर आती है, जिसके लिए सशुल्क सदस्यता की आवश्यकता होती है जो बाजार में उपलब्ध अन्य विकल्पों की तुलना में अपेक्षाकृत अधिक महंगी है। दूसरी ओर, ओपन-सोर्स डोमेन उन विकल्पों से भरा हुआ है जो बड़े भाषा मॉडल की शक्ति का उपयोग करने के लिए अधिक सुलभ मार्ग प्रदान करते हैं। ये ओपन-सोर्स विकल्प उन्नत एआई तकनीक तक पहुंच को लोकतांत्रिक बनाते हैं, तेजी से विकसित हो रहे एआई परिदृश्य में नवाचार और समावेशिता को बढ़ावा देते हैं।

हगिंग फेस - एलएलएम लीडरबोर्ड खोलें

एलएलएम की फाइन-ट्यूनिंग क्यों महत्वपूर्ण है?

एलएलएम फाइन-ट्यूनिंग एक तकनीकी वृद्धि से कहीं अधिक है; यह एलएलएम मॉडल विकास का एक महत्वपूर्ण पहलू है जो विभिन्न कार्यों में अधिक विशिष्ट और परिष्कृत अनुप्रयोग की अनुमति देता है। फ़ाइन-ट्यूनिंग पूर्व-प्रशिक्षित मॉडलों को विशिष्ट डेटासेट के लिए बेहतर ढंग से समायोजित करती है, विशेष कार्यों में उनके प्रदर्शन को बढ़ाती है और अधिक लक्षित अनुप्रयोग सुनिश्चित करती है। यह एलएलएम की नए डेटा को अनुकूलित करने की उल्लेखनीय क्षमता को सामने लाता है, लचीलेपन को प्रदर्शित करता है जो एआई अनुप्रयोगों में लगातार बढ़ती रुचि के लिए महत्वपूर्ण है।

बड़े भाषा मॉडल को फाइन-ट्यूनिंग करने से बहुत सारे अवसर खुलते हैं, जिससे उन्हें भावना विश्लेषण से लेकर चिकित्सा साहित्य समीक्षा तक के विशिष्ट कार्यों में उत्कृष्टता प्राप्त करने की अनुमति मिलती है। बेस मॉडल को एक विशिष्ट उपयोग के मामले में ट्यून करके, हम नई संभावनाओं को अनलॉक करते हैं, मॉडल की दक्षता और सटीकता को बढ़ाते हैं। इसके अलावा, यह सिस्टम संसाधनों के अधिक किफायती उपयोग की सुविधा प्रदान करता है, क्योंकि फाइन-ट्यूनिंग के लिए किसी मॉडल को स्क्रैच से प्रशिक्षित करने की तुलना में कम कम्प्यूटेशनल शक्ति की आवश्यकता होती है।

जैसे-जैसे हम इस गाइड में गहराई से जाएंगे, हम एलएलएम फाइन-ट्यूनिंग की जटिलताओं पर चर्चा करेंगे, जिससे आपको एक व्यापक अवलोकन मिलेगा जो क्षेत्र में नवीनतम प्रगति और सर्वोत्तम प्रथाओं पर आधारित है।

निर्देश-आधारित फ़ाइन-ट्यूनिंग

में फाइन-ट्यूनिंग चरण जनरेटिव एआई नीचे दिए गए चित्र में दर्शाया गया जीवनचक्र चरण-दर-चरण तर्क के उदाहरणों के साथ मिलकर निर्देश इनपुट और आउटपुट के एकीकरण की विशेषता है। यह दृष्टिकोण मॉडल को ऐसी प्रतिक्रियाएँ उत्पन्न करने में सुविधा प्रदान करता है जो न केवल प्रासंगिक हैं बल्कि इसमें दिए गए विशिष्ट निर्देशों के साथ सटीक रूप से संरेखित भी हैं। यह इस चरण के दौरान है कि पूर्व-प्रशिक्षित मॉडल को अलग-अलग कार्यों को हल करने और मामलों का उपयोग करने के लिए अनुकूलित किया जाता है, उनकी कार्यक्षमता को बढ़ाने के लिए वैयक्तिकृत डेटासेट का उपयोग किया जाता है।

जेनरेटिव एआई जीवनचक्र - फाइन ट्यूनिंग, प्रॉम्प्ट इंजीनियरिंग और आरएलएचएफ

जनरेटिव एआई जीवनचक्र - फाइन ट्यूनिंग

एकल-कार्य फ़ाइन-ट्यूनिंग

एकल-कार्य फ़ाइन-ट्यूनिंग किसी विशिष्ट कार्य, जैसे संक्षेपण, में मॉडल की विशेषज्ञता को निखारने पर केंद्रित है। यह दृष्टिकोण कानूनी दस्तावेज़ों और ग्राहक सहायता टिकटों सहित महत्वपूर्ण दस्तावेज़ों या वार्तालाप थ्रेडों से जुड़े वर्कफ़्लो को अनुकूलित करने में विशेष रूप से फायदेमंद है। उल्लेखनीय रूप से, यह फाइन-ट्यूनिंग 500 से 1000 तक के अपेक्षाकृत छोटे उदाहरणों के साथ महत्वपूर्ण प्रदर्शन संवर्द्धन प्राप्त कर सकता है, जो पूर्व-प्रशिक्षण चरण में उपयोग किए गए अरबों टोकन के विपरीत है।

एकल-कार्य फ़ाइन ट्यूनिंग उदाहरण चित्रण

एलएलएम फाइन-ट्यूनिंग एलएलएम की नींव: ट्रांसफार्मर आर्किटेक्चर और उससे आगे

एलएलएम को बेहतर ढंग से समझने की यात्रा एलएलएम का गठन करने वाले मूलभूत तत्वों को समझने के साथ शुरू होती है। इन मॉडलों के मूल में यही निहित है ट्रांसफार्मर वास्तुकला, एक तंत्रिका नेटवर्क जो एक वाक्य में शब्दों की निकटता पर उनके संदर्भ को प्राथमिकता देने के लिए आत्म-ध्यान तंत्र का लाभ उठाता है। यह अभिनव दृष्टिकोण इनपुट में टोकन के बीच दूर के संबंधों की गहरी समझ की सुविधा प्रदान करता है।

जैसे ही हम ट्रांसफार्मर की जटिलताओं से गुजरते हैं, हमें एक बहु-चरणीय प्रक्रिया का सामना करना पड़ता है जो एनकोडर से शुरू होती है। इस प्रारंभिक चरण में इनपुट को टोकनाइज़ करना और एम्बेडिंग वैक्टर बनाना शामिल है जो वाक्य में इनपुट और उसकी स्थिति का प्रतिनिधित्व करते हैं। इसके बाद के चरणों में मैट्रिक्स का उपयोग करके गणनाओं की एक श्रृंखला शामिल होती है जिसे कहा जाता है प्रश्न, वैल्यू , तथा कुंजी, एक आत्म-ध्यान स्कोर में परिणत होता है जो वाक्य के विभिन्न भागों और विभिन्न टोकन पर ध्यान केंद्रित करता है।

ट्रांसफार्मर आर्किटेक्चर

एलएलएम के विकास में फाइन-ट्यूनिंग एक महत्वपूर्ण चरण है, एक ऐसी प्रक्रिया जिसमें अधिक वांछनीय आउटपुट प्राप्त करने के लिए सूक्ष्म समायोजन करना शामिल है। यह चरण, आवश्यक होते हुए भी, बड़ी संख्या में मापदंडों को संभालने की कम्प्यूटेशनल और भंडारण मांगों सहित चुनौतियों का एक सेट प्रस्तुत करता है। पैरामीटर एफिशिएंट फाइन-ट्यूनिंग (पीईएफटी) फाइन-ट्यून किए जाने वाले पैरामीटरों की संख्या को कम करने के लिए तकनीक प्रदान करता है, जिससे प्रशिक्षण प्रक्रिया सरल हो जाती है।

एलएलएम प्री-ट्रेनिंग: एक मजबूत आधार स्थापित करना

एलएलएम विकास के शुरुआती चरणों में, पूर्व-प्रशिक्षण केंद्र स्तर पर होता है, जिसमें मूलभूत वास्तुकला के रूप में अति-पैरामीटरयुक्त ट्रांसफार्मर का उपयोग किया जाता है। इस प्रक्रिया में प्राकृतिक भाषा को विभिन्न तरीकों से मॉडलिंग करना शामिल है जैसे कि बड़े पैमाने पर अप्रशिक्षित कॉर्पोरा पर द्विदिश, ऑटोरेग्रेसिव, या अनुक्रम-दर-अनुक्रम। यहां उद्देश्य एक ऐसा आधार तैयार करना है जिसे बाद में कार्य-विशिष्ट उद्देश्यों की शुरूआत के माध्यम से विशिष्ट डाउनस्ट्रीम कार्यों के लिए ठीक किया जा सके।

पूर्व-प्रशिक्षण, फाइन-ट्यूनिंग

इस क्षेत्र में एक उल्लेखनीय प्रवृत्ति पूर्व-प्रशिक्षित एलएलएम के पैमाने में अपरिहार्य वृद्धि है, जिसे मापदंडों की संख्या द्वारा मापा जाता है। अनुभवजन्य डेटा लगातार दिखाता है कि अधिक डेटा के साथ बड़े मॉडल लगभग हमेशा बेहतर प्रदर्शन देते हैं। उदाहरण के लिए, GPT-3 ने अपने 175 बिलियन मापदंडों के साथ, उच्च-गुणवत्ता वाली प्राकृतिक भाषा उत्पन्न करने और शून्य-शॉट कार्यों की एक विस्तृत श्रृंखला को कुशलतापूर्वक निष्पादित करने में एक बेंचमार्क स्थापित किया है।

फ़ाइन-ट्यूनिंग: मॉडल अनुकूलन का मार्ग

पूर्व-प्रशिक्षण के बाद, एलएलएम को विशिष्ट कार्यों के अनुकूल बनाने के लिए फाइन-ट्यूनिंग से गुजरना पड़ता है। जीपीटी-3 जैसे पूर्व-प्रशिक्षित एलएलएम में संदर्भ-आधारित शिक्षण द्वारा दिखाए गए आशाजनक प्रदर्शन के बावजूद, कार्य-विशिष्ट सेटिंग्स में फाइन-ट्यूनिंग बेहतर बनी हुई है। हालाँकि, पूर्ण पैरामीटर फाइन-ट्यूनिंग का प्रचलित दृष्टिकोण उच्च कम्प्यूटेशनल और मेमोरी मांगों सहित चुनौतियाँ प्रस्तुत करता है, खासकर जब बड़े पैमाने के मॉडल से निपटते हैं।

एक अरब से अधिक मापदंडों वाले बड़े भाषा मॉडल के लिए, GPU RAM का कुशल प्रबंधन महत्वपूर्ण है। पूर्ण 32-बिट परिशुद्धता पर एक एकल मॉडल पैरामीटर के लिए 4 बाइट्स स्थान की आवश्यकता होती है, जिसका अर्थ है कि 4 बिलियन पैरामीटर मॉडल को लोड करने के लिए 1 जीबी जीपीयू रैम की आवश्यकता होती है। वास्तविक प्रशिक्षण प्रक्रिया ऑप्टिमाइज़र राज्यों और ग्रेडिएंट्स सहित विभिन्न घटकों को समायोजित करने के लिए और भी अधिक मेमोरी की मांग करती है, संभावित रूप से इस पैमाने के मॉडल के लिए 80 जीबी तक जीपीयू रैम की आवश्यकता होती है।

जीपीयू रैम की सीमाओं को नेविगेट करने के लिए, क्वांटाइजेशन का उपयोग किया जाता है जो एक ऐसी तकनीक है जो मॉडल मापदंडों की सटीकता को कम करती है, जिससे मेमोरी आवश्यकताएं कम हो जाती हैं। उदाहरण के लिए, परिशुद्धता को 32-बिट से 16-बिट में बदलने से मॉडल को लोड करने और प्रशिक्षण देने के लिए आवश्यक मेमोरी आधी हो सकती है। बाद में इस लेख में. हम Qlora के बारे में जानेंगे जो ट्यूनिंग के लिए परिमाणीकरण अवधारणा का उपयोग करता है।

एलएलएम जीपीयू मेमोरी आवश्यकता wrt. पैरामीटरों की संख्या और परिशुद्धता

पीईएफटी विधियों की श्रेणियों की खोज

पैरामीटर-कुशल फ़ाइन-ट्यूनिंग विधियाँ

बड़े भाषा मॉडल को पूरी तरह से ठीक करने की प्रक्रिया में, एक कम्प्यूटेशनल सेटअप होना महत्वपूर्ण है जो न केवल पर्याप्त मॉडल वजन को कुशलतापूर्वक संभाल सकता है, जो कि सबसे उन्नत मॉडल के लिए अब सैकड़ों गीगाबाइट में आकार तक पहुंच रहा है, बल्कि प्रबंधन भी कर सकता है अन्य महत्वपूर्ण तत्वों की एक श्रृंखला। इनमें ऑप्टिमाइज़र राज्यों के लिए मेमोरी का आवंटन, ग्रेडिएंट्स का प्रबंधन, आगे की सक्रियता और प्रशिक्षण प्रक्रिया के विभिन्न चरणों के दौरान अस्थायी मेमोरी की सुविधा शामिल है।

योगात्मक विधि

इस प्रकार की ट्यूनिंग पूर्व-प्रशिक्षित मॉडल को अतिरिक्त मापदंडों या परतों के साथ बढ़ा सकती है, केवल नए जोड़े गए मापदंडों के प्रशिक्षण पर ध्यान केंद्रित कर सकती है। पैरामीटर गिनती बढ़ाने के बावजूद, ये विधियां प्रशिक्षण समय और स्थान दक्षता को बढ़ाती हैं। योगात्मक विधि को आगे उप-श्रेणियों में विभाजित किया गया है:

एडेप्टर: ट्रांसफॉर्मर उप-परतों के बाद छोटे पूरी तरह से जुड़े नेटवर्क को शामिल करना, उल्लेखनीय उदाहरणों के साथ एडमिक्स, क्रोना, और कॉम्पेक्टर।
नरम संकेत: ग्रेडिएंट डिसेंट के माध्यम से मॉडल के इनपुट एम्बेडिंग के एक सेगमेंट को फाइन-ट्यूनिंग करना IPT, उपसर्ग-ट्यूनिंग, और WARP इसके प्रमुख उदाहरण हैं।
अन्य योगात्मक दृष्टिकोण: लेट्स, अटेंशनफ्यूजन और लैडर-साइड ट्यूनिंग जैसी तकनीकें शामिल करें।

चयनात्मक विधि

चयनात्मक पीईएफटी परत प्रकार और आंतरिक मॉडल संरचना के आधार पर सीमित संख्या में शीर्ष परतों को ठीक करते हैं। इस श्रेणी में जैसे तरीके शामिल हैं बिटफ़िट और LN ट्यूनिंग, जो मॉडल पूर्वाग्रहों या विशेष पंक्तियों जैसे विशिष्ट तत्वों को ट्यून करने पर ध्यान केंद्रित करती है।

रिपैरामेट्रिज़ेशन-आधारित विधि

ये विधियाँ प्रशिक्षण योग्य मापदंडों की संख्या को कम करने के लिए निम्न-रैंक प्रतिनिधित्व का उपयोग करती हैं, जिनमें सबसे प्रसिद्ध निम्न-रैंक अनुकूलन या लोआरए है। यह विधि वजन अद्यतन को पैरामीटराइज़ करने के लिए एक सरल निम्न-रैंक मैट्रिक्स अपघटन का लाभ उठाती है, जो निम्न-रैंक उप-स्थानों में प्रभावी फ़ाइन-ट्यूनिंग का प्रदर्शन करती है।

1) लोरा (निम्न-रैंक अनुकूलन)

LoRA एक अभूतपूर्व PEFT तकनीक के रूप में उभरा, जिसे एक पेपर में पेश किया गया था 2021 में एडवर्ड जे. हू और अन्य. यह पुनर्मूल्यांकन श्रेणी के भीतर काम करता है, एलएलएम के मूल भार को फ्रीज करता है और ट्रांसफार्मर आर्किटेक्चर की प्रत्येक परत में नए प्रशिक्षण योग्य निम्न-रैंक मैट्रिसेस को एकीकृत करता है। यह दृष्टिकोण न केवल प्रशिक्षण योग्य मापदंडों की संख्या को कम करता है, बल्कि प्रशिक्षण के समय और आवश्यक कम्प्यूटेशनल संसाधनों को भी कम करता है, जिससे पूर्ण फाइन-ट्यूनिंग के लिए एक अधिक कुशल विकल्प प्रस्तुत होता है।

LoRA के यांत्रिकी को समझने के लिए, किसी को ट्रांसफॉर्मर आर्किटेक्चर पर दोबारा गौर करना चाहिए जहां इनपुट प्रॉम्प्ट टोकनाइजेशन और एम्बेडिंग वैक्टर में रूपांतरण से गुजरता है। ये वैक्टर ट्रांसफॉर्मर के एनकोडर और/या डिकोडर खंडों से गुजरते हैं, आत्म-ध्यान और फ़ीड-फ़ॉरवर्ड नेटवर्क का सामना करते हैं जिनके वजन पूर्व-प्रशिक्षित होते हैं।

LoRA की अवधारणा का उपयोग करता है एकवचन मूल्य अपघटन (एसवीडी). अनिवार्य रूप से, एसवीडी एक मैट्रिक्स को तीन अलग-अलग मैट्रिक्स में विच्छेदित करता है, जिनमें से एक एक विकर्ण मैट्रिक्स है जिसमें एकल मान होते हैं। ये एकवचन मान महत्वपूर्ण हैं क्योंकि वे मैट्रिक्स में विभिन्न आयामों के महत्व को मापते हैं, बड़े मान उच्च महत्व को दर्शाते हैं और छोटे मान कम महत्व को दर्शाते हैं।

एक एम × एन आयताकार मैट्रिक्स का एकवचन मूल्य अपघटन (एसवीडी)।

एम × एन मैट्रिक्स का एकवचन मूल्य अपघटन (एसवीडी)।

यह दृष्टिकोण LoRA को आयामीता को कम करते हुए डेटा की आवश्यक विशेषताओं को बनाए रखने की अनुमति देता है, जिससे फाइन-ट्यूनिंग प्रक्रिया का अनुकूलन होता है।

LoRA इस प्रक्रिया में हस्तक्षेप करता है, सभी मूल मॉडल मापदंडों को फ्रीज करता है और मूल वजन के साथ "रैंक अपघटन मैट्रिक्स" की एक जोड़ी पेश करता है। ये छोटे मैट्रिक्स, जिन्हें ए और बी के रूप में दर्शाया गया है, पर्यवेक्षित शिक्षण के माध्यम से प्रशिक्षण से गुजरते हैं।

लोरा एलएलएम चित्रण

इस रणनीति में निर्णायक तत्व रैंक ('आर') नामक पैरामीटर है, जो निम्न-रैंक मैट्रिक्स के आकार को निर्धारित करता है। 'आर' का सावधानीपूर्वक चयन कम मूल्य के साथ भी प्रभावशाली परिणाम दे सकता है, जिससे प्रशिक्षित करने के लिए कम मापदंडों के साथ एक निम्न-रैंक मैट्रिक्स तैयार हो सकता है। इस रणनीति को हगिंगफेस ट्रांसफॉर्मर्स जैसे ओपन-सोर्स लाइब्रेरी का उपयोग करके प्रभावी ढंग से कार्यान्वित किया गया है, जिससे उल्लेखनीय दक्षता के साथ विभिन्न कार्यों के लिए लोरा फाइन-ट्यूनिंग की सुविधा मिलती है।

2) QLoRA: LoRA दक्षता को उच्चतर लेना

LoRA द्वारा रखी गई नींव पर निर्माण करते हुए, QLoRA मेमोरी आवश्यकताओं को और भी कम कर देता है। इनके द्वारा पेश किया गया 2023 में टिम डेटमर्स और अन्य, यह निम्न-रैंक अनुकूलन को परिमाणीकरण के साथ जोड़ता है, जिसे 4-बिट परिमाणीकरण प्रारूप कहा जाता है सामान्यफ्लोट or nf4. परिमाणीकरण अनिवार्य रूप से एक ऐसी प्रक्रिया है जो डेटा को उच्च सूचनात्मक प्रतिनिधित्व से कम जानकारी वाले प्रतिनिधित्व में परिवर्तित करती है। यह दृष्टिकोण 16-बिट फाइन-ट्यूनिंग विधियों की प्रभावकारिता को बनाए रखता है, कम्प्यूटेशनल प्रक्रियाओं के दौरान आवश्यकतानुसार 4-बिट वजन को 16-बिट तक कम करता है।

फ़ाइनट्यूनिंग विधियों की तुलना करना: QLORA मेमोरी स्पाइक प्रबंधन के लिए 4-बिट सटीक परिमाणीकरण और पेजेड ऑप्टिमाइज़र के साथ LoRA को बढ़ाता है

QLoRA न्यूमेरिकफ्लोट4 (एनएफ4) का लाभ उठाता है, ट्रांसफार्मर आर्किटेक्चर में हर परत को लक्षित करता है, और फाइन-ट्यूनिंग के लिए आवश्यक मेमोरी फ़ुटप्रिंट को और कम करने के लिए डबल क्वांटिज़ेशन की अवधारणा पेश करता है। यह पहले से ही परिमाणित स्थिरांकों पर परिमाणीकरण करके प्राप्त किया जाता है, एक ऐसी रणनीति जो पेजेड ऑप्टिमाइज़र और एकीकृत मेमोरी प्रबंधन के उपयोग के माध्यम से विशिष्ट ग्रेडिएंट चेकपॉइंटिंग मेमोरी स्पाइक्स को रोकती है।

guanaco, जो कि QLORA-ट्यून किया गया समूह है, ओपन-सोर्स चैटबॉट समाधानों में एक बेंचमार्क सेट करता है। व्यवस्थित मानव और स्वचालित मूल्यांकन के माध्यम से मान्य इसका प्रदर्शन, क्षेत्र में इसके प्रभुत्व और दक्षता को रेखांकित करता है।

गुआनाको के 65बी और 33बी संस्करण, संशोधित संस्करण का उपयोग करके बेहतर ढंग से तैयार किए गए OASST1 डेटासेट, जैसे प्रसिद्ध मॉडलों के लिए प्रबल दावेदार के रूप में उभरे हैं ChatGPT और यहां तक कि GPT-4 भी.

मानव प्रतिक्रिया से सुदृढीकरण सीखने का उपयोग करके फाइन-ट्यूनिंग

मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ) तब काम में आता है जब पूर्व-प्रशिक्षित भाषा मॉडल को मानवीय मूल्यों के साथ अधिक निकटता से संरेखित करने के लिए ठीक किया जाता है। इस अवधारणा को 2017 में ओपन एआई द्वारा पेश किया गया था, जिसने उन्नत दस्तावेज़ सारांश और विकास की नींव रखी निर्देश जीपीटी.

आरएलएचएफ के मूल में सुदृढीकरण सीखने का प्रतिमान है, एक प्रकार की मशीन सीखने की तकनीक जहां एजेंट कैसे व्यवहार करना है यह सीखता है वातावरण प्रदर्शन द्वारा कार्रवाई और प्राप्त करना पुरस्कार. यह एक सतत चक्र है कार्य और प्रतिक्रिया, जहां एजेंट को ऐसे विकल्प चुनने के लिए प्रोत्साहित किया जाता है जिससे सबसे अधिक इनाम मिलेगा।

इसे भाषा मॉडल के दायरे में अनुवादित करते हुए एजेंट विश्व का सबसे लोकप्रिय एंव आदर्श स्वयं, के भीतर कार्य कर रहा है वातावरण किसी दिए गए संदर्भ विंडो का और उसके आधार पर निर्णय लेना राज्य, जो संदर्भ विंडो में वर्तमान टोकन द्वारा परिभाषित किया गया है। “क्रिया स्थानइसमें सभी संभावित टोकन शामिल हैं जिन्हें मॉडल चुन सकता है, जिसका लक्ष्य उस टोकन का चयन करना है जो मानव प्राथमिकताओं के साथ सबसे करीब से मेल खाता है।

आरएलएचएफ प्रक्रिया बड़े पैमाने पर मानवीय प्रतिक्रिया का लाभ उठाती है, इसका उपयोग इनाम मॉडल को प्रशिक्षित करने के लिए करती है। यह मॉडल फाइन-ट्यूनिंग प्रक्रिया के दौरान पूर्व-प्रशिक्षित मॉडल का मार्गदर्शन करने में महत्वपूर्ण भूमिका निभाता है, इसे ऐसे आउटपुट उत्पन्न करने के लिए प्रोत्साहित करता है जो मानवीय मूल्यों के साथ अधिक संरेखित होते हैं। यह एक गतिशील और पुनरावृत्तीय प्रक्रिया है, जहां मॉडल "रोलआउट" की एक श्रृंखला के माध्यम से सीखता है, एक शब्द जिसका उपयोग भाषा निर्माण के संदर्भ में पुरस्कार की ओर ले जाने वाले राज्यों और कार्यों के अनुक्रम का वर्णन करने के लिए किया जाता है।

हमारी पद्धति के तीन चरणों को दर्शाने वाला एक आरेख: (1) पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी), (2) इनाम मॉडल (आरएम) प्रशिक्षण, और (3) इस इनाम मॉडल पर समीपस्थ नीति अनुकूलन (पीपीओ) के माध्यम से सुदृढीकरण सीखना।

निर्देश-जीपीटी

आरएलएचएफ की उल्लेखनीय क्षमताओं में से एक एआई सहायकों में वैयक्तिकरण को बढ़ावा देने की क्षमता है, जो उन्हें व्यक्तिगत उपयोगकर्ताओं की प्राथमिकताओं के अनुरूप बनाने के लिए तैयार करती है, चाहे वह उनकी हास्य की भावना हो या दैनिक दिनचर्या। यह एआई सिस्टम बनाने के रास्ते खोलता है जो न केवल तकनीकी रूप से कुशल हैं बल्कि भावनात्मक रूप से भी बुद्धिमान हैं, मानव संचार में बारीकियों को समझने और प्रतिक्रिया देने में सक्षम हैं।

हालाँकि, यह ध्यान रखना आवश्यक है कि आरएलएचएफ एक अचूक समाधान नहीं है। मॉडल अभी भी अवांछनीय आउटपुट उत्पन्न करने के लिए अतिसंवेदनशील हैं, जो विशाल और अक्सर अनियमित और पक्षपाती डेटा का प्रतिबिंब है जिस पर उन्हें प्रशिक्षित किया जाता है।

निष्कर्ष

फाइन-ट्यूनिंग प्रक्रिया, अल्पाका, फाल्कन और जीपीटी-4 जैसे एलएलएम की पूरी क्षमता का लाभ उठाने में एक महत्वपूर्ण कदम है, जो अधिक परिष्कृत और केंद्रित हो गई है, जो कार्यों की एक विस्तृत श्रृंखला के लिए अनुरूप समाधान पेश करती है।

हमने एकल-कार्य फाइन-ट्यूनिंग देखी है, जो विशेष भूमिकाओं में मॉडलों में विशेषज्ञता रखती है, और लोआरए और क्यूएलओआरए सहित पैरामीटर-कुशल फाइन-ट्यूनिंग (पीईएफटी) विधियां देखी हैं, जिसका उद्देश्य प्रशिक्षण प्रक्रिया को अधिक कुशल और लागत प्रभावी बनाना है। ये विकास व्यापक दर्शकों के लिए उच्च-स्तरीय एआई कार्यक्षमता के द्वार खोल रहे हैं।

इसके अलावा, ओपन एआई द्वारा ह्यूमन फीडबैक से रीइन्फोर्समेंट लर्निंग (आरएलएचएफ) की शुरूआत एआई सिस्टम बनाने की दिशा में एक कदम है जो मानवीय मूल्यों और प्राथमिकताओं को अधिक बारीकी से समझती है और संरेखित करती है, एआई सहायकों के लिए मंच तैयार करती है जो न केवल स्मार्ट हैं बल्कि संवेदनशील भी हैं व्यक्तिगत उपयोगकर्ता की आवश्यकताएँ। आरएलएचएफ और पीईएफटी दोनों बड़े भाषा मॉडल की कार्यक्षमता और दक्षता को बढ़ाने के लिए तालमेल में काम करते हैं।

जैसा कि व्यवसाय, उद्यम और व्यक्ति इन सुव्यवस्थित एलएलएम को अपने संचालन में एकीकृत करना चाहते हैं, वे अनिवार्य रूप से एक ऐसे भविष्य का स्वागत कर रहे हैं जहां एआई एक उपकरण से कहीं अधिक है; यह एक ऐसा भागीदार है जो मानवीय संदर्भों को समझता है और उन्हें अपनाता है, ऐसे समाधान पेश करता है जो नवीन और वैयक्तिकृत हैं।

अगला

वित्त में जनरेटिव एआई: फिनजीपीटी, ब्लूमबर्गजीपीटी और उससे आगे

मिस न करें

सोशल मीडिया के लिए 20 सर्वश्रेष्ठ चैटजीपीटी संकेत (मई 2024)

आयुष मित्तल

मैंने पिछले पांच साल मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में डूबने में बिताए हैं। मेरे जुनून और विशेषज्ञता ने मुझे एआई/एमएल पर विशेष ध्यान देने के साथ 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान करने के लिए प्रेरित किया है। मेरी निरंतर जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर भी आकर्षित किया है, एक ऐसा क्षेत्र जिसे मैं और अधिक जानने के लिए उत्सुक हूं।