Connect with us

LLM рдлрд╝рд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЛ рд╕рдордЭрдирд╛: рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓реНрд╕ рдХреЛ рдЖрдкрдХреА рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рддреИрдпрд╛рд░ рдХрд░рдирд╛

рдкреНрд░реЙрдореНрдкреНрдЯ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ

LLM рдлрд╝рд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЛ рд╕рдордЭрдирд╛: рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓реНрд╕ рдХреЛ рдЖрдкрдХреА рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░ рддреИрдпрд╛рд░ рдХрд░рдирд╛

mm
LLM Fine tuning representation - Midjourney

जैसा कि हम सितंबर 2023 में खड़े हैं, बड़े भाषा मॉडल्स (LLMs) की भूमि अभी भी अल्पाका, फाल्कन, ल्लामा 2, जीपीटी-4, और कई अन्य मॉडल्स के उदय का गवाह बन रही है।

इन एलएलएम्स की क्षमता का लाभ उठाने का एक महत्वपूर्ण पहलू फ़ाइन-ट्यूनिंग प्रक्रिया में निहित है, जो पूर्व-प्रशिक्षित मॉडल्स को विशिष्ट कार्यों के लिए सटीकता के साथ अनुकूलित करने की अनुमति देने वाली एक रणनीति है। यह फ़ाइन-ट्यूनिंग के माध्यम से है कि ये मॉडल्स वास्तव में व्यक्तिगत आवश्यकताओं के साथ संरेखित हो सकते हैं, जो न केवल नवाचारी हैं बल्कि विशिष्ट आवश्यकताओं के लिए तैयार किए गए समाधान प्रदान करते हैं।

हालांकि, यह ध्यान रखना आवश्यक है कि सभी फ़ाइन-ट्यूनिंग विकल्प समान नहीं हैं। उदाहरण के लिए, जीपीटी-4 की फ़ाइन-ट्यूनिंग क्षमताओं तक पहुंचने के लिए एक प्रीमियम की आवश्यकता होती है, जो एक भुगतान की सदस्यता की आवश्यकता होती है जो बाजार में उपलब्ध अन्य विकल्पों की तुलना में अपेक्षाकृत अधिक महंगा है। दूसरी ओर, ओपन-सोर्स डोमेन विकल्पों से भरा हुआ है जो बड़े भाषा मॉडल्स की शक्ति को हार्नेस करने के लिए एक अधिक सुलभ मार्ग प्रदान करते हैं। ये ओपन-सोर्स विकल्प उन्नत एआई प्रौद्योगिकी तक पहुंच को लोकतांत्रिक बनाते हैं, जो तेजी से विकसित हो रहे एआई परिदृश्य में नवाचार और समावेशिता को बढ़ावा देते हैं।

एलएलएम फ़ाइन-ट्यूनिंग क्यों महत्वपूर्ण है?

एलएलएम फ़ाइन-ट्यूनिंग केवल एक तकनीकी उन्नति नहीं है; यह एलएलएम मॉडल विकास का एक महत्वपूर्ण पहलू है जो विभिन्न कार्यों में अधिक विशिष्ट और परिष्कृत अनुप्रयोग की अनुमति देता है। फ़ाइन-ट्यूनिंग पूर्व-प्रशिक्षित मॉडल्स को विशिष्ट डेटासेट के लिए बेहतर ढंग से अनुकूल बनाता है, उनके प्रदर्शन को विशिष्ट कार्यों में बढ़ाता है और एक अधिक लक्षित अनुप्रयोग सुनिश्चित करता है। यह एलएलएम्स की उल्लेखनीय क्षमता को प्रदर्शित करता है कि वे नए डेटा के अनुसार अनुकूलन कर सकते हैं, जो एआई अनुप्रयोगों में बढ़ते हुए रुचि में महत्वपूर्ण है।

बड़े भाषा मॉडल्स को फ़ाइन-ट्यून करने से कई अवसर खुलते हैं, जिससे वे विशिष्ट कार्यों में उत्कृष्टता प्राप्त कर सकते हैं, जिनमें भावना विश्लेषण से लेकर चिकित्सा साहित्य की समीक्षा तक शामित हैं। बेस मॉडल को एक विशिष्ट उपयोग के मामले के लिए ट्यून करके, हम नए अवसरों को खोलते हैं, मॉडल की दक्षता और सटीकता में सुधार करते हैं। इसके अलावा, यह प्रणाली संसाधनों के उपयोग को अधिक आर्थिक बनाता है, क्योंकि फ़ाइन-ट्यूनिंग के लिए प्रशिक्षण से कम गणना शक्ति की आवश्यकता होती है।

जैसा कि हम इस गाइड में गहराई से जाते हैं, हम एलएलएम फ़ाइन-ट्यूनिंग की जटिलताओं पर चर्चा करेंगे, जो क्षेत्र में नवीनतम प्रगति और सर्वोत्तम प्रथाओं पर आधारित एक व्यापक अवलोकन प्रदान करेगा।

निर्देश-आधारित फ़ाइन-ट्यूनिंग

जेनरेटिव एआई लाइफसाइकल में फ़ाइन-ट्यूनिंग चरण, नीचे दिए गए आंकड़े में चित्रित किया गया है, निर्देश इनपुट और आउटपुट के एकीकरण की विशेषता है, साथ ही साथ चरण-दर-चरण तर्क के उदाहरणों के साथ। यह दृष्टिकोण मॉडल को ऐसे उत्तरों को उत्पन्न करने में सक्षम बनाता है जो न केवल प्रासंगिक हैं बल्कि विशिष्ट निर्देशों के साथ सटीक रूप से संरेखित भी हैं।

рдЬреЗрдирд░реЗрдЯрд┐рд╡ рдПрдЖрдИ рд▓рд╛рдЗрдлрд╕рд╛рдЗрдХрд▓ - рдлрд╝рд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ, рдкреНрд░реЙрдореНрдкреНрдЯ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдФрд░ рдЖрд░рдПрд▓рдПрдЪрдПрдл

जेनरेटिव एआई लाइफसाइकल – फ़ाइन-ट्यूनिंग

सिंगल-टास्क फ़ाइन-ट्यूनिंग

सिंगल-टास्क फ़ाइन-ट्यूनिंग मॉडल की विशेषज्ञता को एक विशिष्ट कार्य में तेज करने पर केंद्रित है, जैसे कि सारांश। यह दृष्टिकोण विशेष रूप से कानूनी दस्तावेजों और ग्राहक सहायता टिकटों सहित बड़े प्रलेखों या बातचीत थ्रेड्स को शामिल करने वाले कार्यप्रवाह को अनुकूलित करने में लाभदायक है। उल्लेखनीय रूप से, यह फ़ाइन-ट्यूनिंग 500 से 1000 तक के एक छोटे से उदाहरण सेट के साथ महत्वपूर्ण प्रदर्शन में सुधार प्राप्त कर सकता है, जो पूर्व-प्रशिक्षण चरण में उपयोग किए जाने वाले अरबों टोकन की तुलना में है।

рд╕рд┐рдВрдЧрд▓-рдЯрд╛рд╕реНрдХ рдлрд╝рд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рдЙрджрд╛рд╣рд░рдг рдЪрд┐рддреНрд░рдг

सिंगल-टास्क फ़ाइन-ट्यूनिंग उदाहरण चित्रण

एलएलएम फ़ाइन-ट्यूनिंग की नींव: ट्रांसफॉर्मर आर्किटेक्चर और परे

एलएलएम फ़ाइन-ट्यूनिंग को समझने की यात्रा एलएलएम्स के गठन में मूल तत्वों की समझ के साथ शुरू होती है। इन मॉडल्स के दिल में ट्रांसफॉर्मर आर्किटेक्चर है, जो एक न्यूरल नेटवर्क है जो स्व-ध्यान तंत्र का लाभ उठाता है ताकि वाक्य में शब्दों के बीच दूरी की तुलना में संदर्भ को प्राथमिकता दी जा सके। यह अभिनव दृष्टिकोण दूरस्थ संबंधों की गहरी समझ को सुविधाजनक बनाता है इनपुट में टोकन के बीच।

जैसा कि हम ट्रांसफॉर्मर की जटिलताओं में गहराई से जाते हैं, हम एक बहु-चरणीय प्रक्रिया का सामना करते हैं जो एन्कोडर के साथ शुरू होता है। यह प्रारंभिक चरण इनपुट को टोकनाइज़ करने और इनपुट और वाक्य में इसकी स्थिति का प्रतिनिधित्व करने वाले एम्बेडिंग वेक्टर बनाने में शामिल है। बाद के चरणों में मैट्रिक्स के रूप में जाने जाने वाले क्वेरी, वैल्यू और की का उपयोग करके गणना शामिल है, जो विभिन्न वाक्यांशों और टोकन पर ध्यान केंद्रित करने का निर्देश देने वाला स्व-ध्यान स्कोर में परिणत होता है।

рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░

ट्रांसफॉर्मर आर्किटेक्चर

फ़ाइन-ट्यूनिंग एलएलएम्स के विकास में एक महत्वपूर्ण चरण है, जिसमें वांछित आउटपुट प्राप्त करने के लिए सूक्ष्म समायोजन शामिल है। यह चरण, जबकि आवश्यक है, एक सेट की चुनौतियों को प्रस्तुत करता है, जिसमें बड़ी संख्या में पैरामीटर को संभालने की गणना और भंडारण मांग शामिल है। पैरामीटर एफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफटी) पैरामीटर की संख्या को कम करने के लिए तकनीक प्रदान करता है, जिससे प्रशिक्षण प्रक्रिया को सरल बनाया जा सकता है।

एलएलएम पूर्व-प्रशिक्षण: एक मजबूत आधार स्थापित करना

एलएलएम विकास के प्रारंभिक चरणों में, पूर्व-प्रशिक्षण केंद्र चरण बन जाता है, जिसमें अधिक-पैरामीटर वाले ट्रांसफॉर्मर का उपयोग मूल आर्किटेक्चर के रूप में किया जाता है। इस प्रक्रिया में विभिन्न तरीकों से प्राकृतिक भाषा का मॉडलिंग शामिल है, जैसे कि द्विदिशा, स्व-रिग्रेसिव, या क्रम-टू-क्रम बड़े पैमाने पर अनुप्रशिक्षित निगमों पर। यहां का उद्देश्य एक आधार बनाना है जिसे बाद में विशिष्ट डाउनस्ट्रीम कार्यों के लिए टास्क-विशिष्ट उद्देश्यों को पेश करके फ़ाइन-ट्यून किया जा सकता है।

рдкреВрд░реНрд╡-рдкреНрд░рд╢рд┐рдХреНрд╖рдг, рдлрд╝рд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ

पूर्व-प्रशिक्षण, फ़ाइन-ट्यूनिंग

इस क्षेत्र में एक उल्लेखनीय प्रवृत्ति पूर्व-प्रशिक्षित एलएलएम्स के पैमाने में अपरिहार्य वृद्धि है, जो पैरामीटर की संख्या द्वारा मापा जाता है। अनुभवजन्य डेटा लगातार दिखाता है कि बड़े मॉडल और अधिक डेटा के साथ मिलकर लगभग हमेशा बेहतर प्रदर्शन प्रदान करते हैं। उदाहरण के लिए, जीपीटी-3, जिसमें 175 बिलियन पैरामीटर हैं, ने उच्च गुणवत्ता वाली प्राकृतिक भाषा का उत्पादन करने और विभिन्न शून्य-शॉट कार्यों को कुशलता से करने में एक बेंचमार्क स्थापित किया है।

फ़ाइन-ट्यूनिंग: मॉडल अनुकूलन का मार्ग

पूर्व-प्रशिक्षण के बाद, एलएलएम विशिष्ट कार्यों के लिए अनुकूलन के लिए फ़ाइन-ट्यूनिंग से गुजरता है। जीपीटी-3 जैसे पूर्व-प्रशिक्षित एलएलएम्स में इन-कॉन्टेक्स्ट लर्निंग के द्वारा दिखाए गए वादा के बावजूद, फ़ाइन-ट्यूनिंग टास्क-विशिष्ट सेटिंग्स में अभी भी श्रेष्ठ है।

हालांकि, पूर्ण पैरामीटर फ़ाइन-ट्यूनिंग का प्रचलित दृष्टिकोण उच्च गणना और मेमोरी मांग प्रस्तुत करता है, विशेष रूप से बड़े पैमाने पर मॉडल्स के साथ। एक बिलियन पैरामीटर वाले बड़े भाषा मॉडल्स के लिए, जीपीयू रैम का कुशल प्रबंधन महत्वपूर्ण है। एक मॉडल पैरामीटर को पूर्ण 32-बिट सटीकता पर 4 बाइट्स की जगह की आवश्यकता होती है, जो कि केवल 1 बिलियन पैरामीटर वाले मॉडल को लोड करने के लिए 4GB जीपीयू रैम की आवश्यकता को अनुवादित करता है। प्रशिक्षण प्रक्रिया में ऑप्टिमाइज़र राज्यों और ग्रेडिएंट्स जैसे विभिन्न घटकों को समायोजित करने के लिए और भी अधिक मेमोरी की आवश्यकता होती है, जो इस पैमाने पर मॉडल के लिए 80GB जीपीयू रैम की आवश्यकता को संभावित रूप से बढ़ा सकता है।

जीपीयू रैम की सीमाओं को नेविगेट करने के लिए, क्वांटाइजेशन का उपयोग किया जाता है, जो एक तकनीक है जो मॉडल पैरामीटर की सटीकता को कम करती है, जिससे मेमोरी आवश्यकताओं में कमी आती है। उदाहरण के लिए, सटीकता को 32-बिट से 16-बिट में बदलने से मॉडल को लोड करने और प्रशिक्षित करने के लिए आवश्यक मेमोरी को आधा किया जा सकता है। बाद में इस लेख में, हम क्व्लोरा के बारे में जानेंगे जो क्वांटाइजेशन концеп्ट का उपयोग ट्यूनिंग के लिए करता है।

рдПрд▓рдПрд▓рдПрдо рдЬреАрдкреАрдпреВ рдореЗрдореЛрд░реА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдкреИрд░рд╛рдореАрдЯрд░ рдФрд░ рд╕рдЯреАрдХрддрд╛ рдХреЗ рд╕рдВрдмрдВрдз рдореЗрдВ

एलएलएम जीपीयू मेमोरी आवश्यकता पैरामीटर और सटीकता के संबंध में

पीईएफटी विधियों की श्रेणियों का अन्वेषण

बड़े भाषा मॉडल्स को पूर्ण रूप से फ़ाइन-ट्यून करने की प्रक्रिया में, एक गणना सेटअप होना आवश्यक है जो न केवल महत्वपूर्ण मॉडल वजन को कुशलता से संभाल सके, जो अब सबसे उन्नत मॉडल्स के लिए सौ गिगाबाइट्स के आकार तक पहुंच रहे हैं, बल्कि अन्य महत्वपूर्ण तत्वों को भी प्रबंधित करे, जिनमें ऑप्टिमाइज़र राज्यों के लिए मेमोरी आवंटन, ग्रेडिएंट्स का प्रबंधन, फॉरवर्ड एक्टिवेशन, और प्रशिक्षण प्रक्रिया के विभिन्न चरणों के दौरान अस्थायी मेमोरी की सुविधा शामिल है।

अधिकृत विधि

यह प्रकार का ट्यूनिंग पूर्व-प्रशिक्षित मॉडल में अतिरिक्त पैरामीटर या परतें जोड़ सकता है, केवल नए जोड़े गए पैरामीटर को प्रशिक्षित करने पर केंद्रित है।尽管 यह पैरामीटर गणना में वृद्धि करता है, लेकिन यह प्रशिक्षण समय और स्थान की दक्षता में सुधार करता है। अधिकृत विधि आगे उप-श्रेणियों में विभाजित है:

  • एडाप्टर्स: ट्रांसफॉर्मर सब-लेयर्स के बाद छोटे पूर्ण रूप से जुड़े नेटवर्क को एकीकृत करना, जिसमें एडामिक्स, क्रोनए, और कॉम्पैक्टर जैसे उल्लेखनीय उदाहरण हैं।
  • सॉफ्ट प्रॉम्प्ट्स: मॉडल के इनपुट एम्बेडिंग के एक खंड को ग्रेडिएंट डिसेंट के माध्यम से फ़ाइन-ट्यून करना, जिसमें आईपीटी, प्रीफिक्स-ट्यूनिंग, और वार्प जैसे प्रमुख उदाहरण हैं।
  • अन्य अधिकृत दृष्टिकोण: लेट्स, अटेंशनफ्यूजन, और लैडर-साइड ट्यूनिंग जैसी तकनीकें शामिल हैं।

चयनात्मक विधि

चयनात्मक पीईएफटी विशिष्ट परतों के आधार पर और आंतरिक मॉडल संरचना के आधार पर सीमित संख्या में शीर्ष परतों को फ़ाइन-ट्यून करते हैं। इस श्रेणी में बिटफिट और एलएन ट्यूनिंग जैसे तरीके शामिल हैं, जो मॉडल के विशिष्ट तत्वों जैसे मॉडल पूर्वाग्रह या विशिष्ट पंक्तियों पर केंद्रित होते हैं।

पुनर्प्राप्ति-आधारित विधि

इन विधियों में निम्न-रैंक प्रतिनिधित्व का उपयोग करके प्रशिक्षित पैरामीटर की संख्या को कम करना शामिल है, जिनमें से सबसे प्रसिद्ध लो-रैंक एडाप्टेशन या लोरा है। यह विधि वजन अद्यतन को पैरामीटरित करने के लिए एक सरल निम्न-रैंक मैट्रिक्स विभाजन का उपयोग करती है, जो निम्न-रैंक उपस्थान में प्रभावी फ़ाइन-ट्यूनिंग का प्रदर्शन करती है।

1) लोरा (लो-रैंक एडाप्टेशन)

लोरा 2021 में एडवर्ड जे. हू और अन्य द्वारा प्रस्तुत एक पीईएफटी तकनीक के रूप में उभरा। यह पुनर्प्राप्ति श्रेणी में, ट्रांसफॉर्मर आर्किटेक्चर की प्रत्येक परत में नए प्रशिक्षित निम्न-रैंक मैट्रिक्स को एकीकृत करके काम करता है, जबकि मूल वजन को फ्रीज़ करता है। यह दृष्टिकोण न केवल प्रशिक्षित पैरामीटर की संख्या को कम करता है, बल्कि प्रशिक्षण समय और गणना संसाधनों को भी कम करता है, जिससे पूर्ण फ़ाइन-ट्यूनिंग का एक अधिक कुशल विकल्प प्रदान करता है।

लोरा की यांत्रिकी को समझने के लिए, ट्रांसफॉर्मर आर्किटेक्चर पर वापस जाना आवश्यक है जहां इनपुट प्रॉम्प्ट टोकनाइजेशन और एम्बेडिंग वेक्टर में परिवर्तित हो जाता है। ये वेक्टर एन्कोडर और/या डीकोडर सेगमेंट के माध्यम से गुजरते हैं, जो स्व-ध्यान और फीड-फॉरवर्ड नेटवर्क का सामना करते हैं जिनके वजन पूर्व-प्रशिक्षित होते हैं।

लोरा सिंगुलर वैल्यू डिकंपोज़िशन (एसवीडी) की अवधारणा का उपयोग करता है। मूल रूप से, एसवीडी एक मैट्रिक्स को तीन अलग-अलग मैट्रिक्स में विभाजित करता है, जिनमें से एक एक तिरछा मैट्रिक्स है जिसमें सिंगुलर मान होते हैं। ये सिंगुलर मान महत्वपूर्ण हैं क्योंकि वे मैट्रिक्स में विभिन्न आयामों के महत्व को मापते हैं, बड़े मानों का संकेत देते हैं उच्च महत्व और छोटे मानों का संकेत देते हैं कम महत्व।

рдПрдХ рдо ├Ч рди рдЖрдпрддрд╛рдХрд╛рд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдП рдХрд╛ рд╕рд┐рдВрдЧреБрд▓рд░ рд╡реИрд▓реНрдпреВ рдбрд┐рдХрдВрдкреЛрдЬрд╝рд┐рд╢рди (рдПрд╕рд╡реАрдбреА)

एक म × न आयताकार मैट्रिक्स ए का सिंगुलर वैल्यू डिकंपोज़िशन (एसवीडी)

यह दृष्टिकोण लोरा को डेटा की विशिष्ट विशेषताओं को बनाए रखने की अनुमति देता है, जबकि आयामों को कम करता है, जिससे फ़ाइन-ट्यूनिंग प्रक्रिया का अनुकूलन होता है।

लोरा इस प्रक्रिया में हस्तक्षेप करता है, सभी मूल मॉडल पैरामीटर को फ्रीज़ करता है और मूल वजन के साथ एक जोड़ी “रैंक डिकंपोज़िशन मैट्रिक्स” पेश करता है। ये छोटे मैट्रिक्स, ए और बी के रूप में चिह्नित, पर्यवेक्षित शिक्षा के माध्यम से प्रशिक्षित होते हैं।

इस रणनीति में ‘रैंक’ (r) नामक पैरामीटर महत्वपूर्ण है, जो निम्न-रैंक मैट्रिक्स का आकार निर्धारित करता है। ‘रैंक’ का सावधानी से चयन करके, उत्कृष्ट परिणाम प्राप्त किए जा सकते हैं, यहां तक कि छोटे मान के साथ भी, जिससे कम पैरामीटर वाला एक निम्न-रैंक मैट्रिक्स बनता है जिसे प्रशिक्षित किया जाना है।

2) क्यूएलओआरए: लोरा की दक्षता को और बढ़ाना

लोरा द्वारा स्थापित आधार पर निर्माण करते हुए, क्यूएलओआरए मेमोरी आवश्यकताओं को और कम करता है। 2023 में टिम डेटमेर्स और अन्य द्वारा प्रस्तुत, यह लो-रैंक एडाप्टेशन को क्वांटाइजेशन के साथ जोड़ती है, 4-बिट क्वांटाइजेशन प्रारूप का उपयोग करती है जिसे नॉर्मलफ्लोट या एनएफ4 कहा जाता है। क्वांटाइजेशन मूल रूप से एक प्रक्रिया है जो डेटा को उच्च सूचना प्रतिनिधित्व से कम सूचना वाले प्रतिनिधित्व में बदलती है। यह दृष्टिकोण 16-बिट फ़ाइन-ट्यूनिंग विधियों की प्रभावशीलता को बनाए रखता है, जैसा कि यह 4-बिट वजन को 16-बिट में डीक्वांटाइज़ करता है जब यह गणना प्रक्रियाओं के दौरान आवश्यक होता है।

рдлрд╝рд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рд╡рд┐рдзрд┐рдпреЛрдВ рдХреА рддреБрд▓рдирд╛: рдХреНрдпреВрдПрд▓рдУрдЖрд░рдП рд▓реЛрд░рд╛ рдХреЛ 4-рдмрд┐рдЯ рд╕рдЯреАрдХрддрд╛ рдХреНрд╡рд╛рдВрдЯрд╛рдЗрдЬреЗрд╢рди рдФрд░ рдкреЗрдЬреНрдб рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝рд░ рдХреЗ рд╕рд╛рде рдмрдврд╝рд╛рддрд╛ рд╣реИ

फ़ाइन-ट्यूनिंग विधियों की तुलना: क्यूएलओआरए लोरा को 4-बिट सटीकता क्वांटाइजेशन और पेज्ड ऑप्टिमाइज़र के साथ बढ़ाता है

क्यूएलओआरए न्यूमेरिकफ्लोट4 (एनएफ4) का उपयोग करता है, जो ट्रांसफॉर्मर आर्किटेक्चर की प्रत्येक परत को लक्षित करता है, और मेमोरी फुटप्रिंट को और कम करने के लिए दोहरी क्वांटाइजेशन की अवधारणा पेश करता है। यह दृष्टिकोण पहले से क्वांटाइज़ किए गए स्थिरांकों पर क्वांटाइजेशन करता है, जो पेज्ड ऑप्टिमाइज़र और एकीकृत मेमोरी प्रबंधन का उपयोग करके सामान्य ग्रेडिएंट चेकपॉइंट मेमोरी स्पाइक्स से बचता है।

गुआनाको, जो एक क्यूएलओआरए-ट्यून्ड एन्सेम्बल है, ओपन-सोर्स चैटबॉट समाधानों में एक बेंचमार्क स्थापित करता है। इसका प्रदर्शन, जो व्यवस्थित मानव और स्वचालित मूल्यांकन के माध्यम से मान्य है, इसकी प्रमुखता और दक्षता को रेखांकित करता है।

गुआनाको के 65बी और 33बी संस्करण, जो ओएएसएसटी1 डेटासेट के संशोधित संस्करण का उपयोग करके फ़ाइन-ट्यून किए गए हैं, चैटजीपीटी और जीपीटी-4 जैसे प्रसिद्ध मॉडल्स के लिए एक शक्तिशाली प्रतिद्वंद्वी के रूप में उभरते हैं।

मानव प्रतिक्रिया से प्रवर्तित शिक्षा का उपयोग करके फ़ाइन-ट्यूनिंग

मानव प्रतिक्रिया से प्रवर्तित शिक्षा (आरएलएचएफ) तब आती है जब पूर्व-प्रशिक्षित भाषा मॉडल्स को मानव मूल्यों और प्राथमिकताओं के साथ अधिक बारीकी से संरेखित करने के लिए फ़ाइन-ट्यून किया जाता है। यह अवधारणा 2017 में ओपन एआई द्वारा प्रस्तुत की गई थी, जिसने डॉक्यूमेंट सारांश में सुधार और इन्सट्रक्टजीपीटी के विकास के लिए आधार तैयार किया।

आरएलएचएफ के केंद्र में प्रवर्तित शिक्षा का सिद्धांत है, एक प्रकार की मशीन लर्निंग तकनीक जहां एक एजेंट एक पर्यावरण में क्रियाएं करके और पुरस्कार प्राप्त करके सीखता है। यह क्रिया और प्रतिक्रिया का एक निरंतर चक्र है, जहां एजेंट को ऐसे विकल्प बनाने के लिए प्रोत्साहित किया जाता है जो उच्चतम पुरस्कार प्रदान करेंगे।

इसे भाषा मॉडल्स के क्षेत्र में अनुवादित करते हुए, एजेंट स्वयं मॉडल है, जो एक दिए गए संदर्भ विंडो के पर्यावरण में काम करता है और राज्य के आधार पर निर्णय लेता है, जो वर्तमान संदर्भ विंडो में टोकन द्वारा परिभाषित किया जाता है। “क्रिया स्थान” में मॉडल द्वारा चुने जा सकने वाले सभी संभावित टोकन शामिल हैं, जिसका उद्देश्य मानव प्राथमिकताओं के साथ सबसे अधिक संरेखित टोकन का चयन करना है।

आरएलएचएफ प्रक्रिया में मानव प्रतिक्रिया का व्यापक रूप से उपयोग किया जाता है, जो एक पुरस्कार मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता है। यह मॉडल फ़ाइन-ट्यूनिंग प्रक्रिया के दौरान पूर्व-प्रशिक्षित मॉडल को मार्गदर्शन करने में एक महत्वपूर्ण भूमिका निभाता है, इसे मानव मूल्यों के साथ अधिक संरेखित आउटपुट उत्पन्न करने के लिए प्रोत्साहित करता है। यह एक गतिशील और पुनरावृत्ति प्रक्रिया है, जहां मॉडल एक श्रृंखला के माध्यम से सीखता है, जिसे “रोलआउट” कहा जाता है, जो भाषा पीढ़ी के संदर्भ में राज्य और क्रिया की श्रृंखला को संदर्भित करता है जो एक पुरस्कार की ओर ले जाता है।

आरएलएचएफ की एक उल्लेखनीय क्षमता यह है कि यह एआई सहायकों में व्यक्तिगतीकरण को बढ़ावा दे सकता है, उन्हें व्यक्तिगत उपयोगकर्ताओं की प्राथमिकताओं के साथ प्रतिध्वनित करने के लिए तैयार करता है, चाहे वह उनकी हास्य की भावना हो या दैनिक दिनचर्या। यह एआई प्रणालियों के निर्माण के लिए मार्ग प्रशस्त करता है जो न केवल तकनीकी रूप से कुशल हैं बल्कि भावनात्मक रूप से बुद्धिमान भी हैं, जो मानव संचार में सूक्ष्मताओं को समझने और प्रतिक्रिया देने में सक्षम हैं।

हालांकि, यह ध्यान रखना आवश्यक है कि आरएलएचएफ एक निश्चित समाधान नहीं है। मॉडल अभी भी अवांछित आउटपुट उत्पन्न करने के लिए संवेदनशील हैं, जो अक्सर नियंत्रित और पूर्वाग्रह वाले डेटा पर प्रशिक्षित होते हैं जिन पर वे प्रशिक्षित होते हैं।

निष्कर्ष

फ़ाइन-ट्यूनिंग प्रक्रिया, जो एलएलएम्स जैसे अल्पाका, फाल्कन, और जीपीटी-4 की क्षमता का लाभ उठाने के लिए एक महत्वपूर्ण चरण है, अधिक परिष्कृत और केंद्रित हो गई है, विभिन्न कार्यों के लिए अनुकूलित समाधान प्रदान करती है।

हमने सिंगल-टास्क फ़ाइन-ट्यूनिंग को देखा है, जो मॉडल्स को विशिष्ट भूमिकाओं में विशेषज्ञता प्रदान करता है, और पैरामीटर-एफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफटी) विधियों को शामिल किया है, जिनमें लोरा और क्यूएलओआरए शामिल हैं, जो प्रशिक्षण प्रक्रिया को अधिक कुशल और लागत प्रभावी बनाने का लक्ष्य रखते हैं। ये विकास उच्च-स्तरीय एआई कार्यक्षमता को एक व्यापक दर्शकों के लिए खोल रहे हैं।

इसके अलावा, ओपन एआई द्वारा पेश किए गए मानव प्रतिक्रिया से प्रवर्तित शिक्षा (आरएलएचएफ) की शुरुआत, एआई प्रणालियों को बनाने के लिए एक कदम है जो न केवल बुद्धिमान हैं बल्कि मानव मूल्यों और प्राथमिकताओं के साथ अधिक संरेखित हैं। आरएलएचएफ और पीईएफटी दोनों एलएलएम्स की कार्यक्षमता और दक्षता को बढ़ाने के लिए संयोजन में काम करते हैं।

जैसा कि व्यवसाय, उद्यम, और व्यक्ति अपने संचालन में इन फ़ाइन-ट्यून्ड एलएलएम्स को एकीकृत करने की ओर देखते हैं, वे वास्तव में एक भविष्य का स्वागत कर रहे हैं जहां एआई एक उपकरण से अधिक है; यह एक साथी है जो मानव संदर्भों को समझता है और अनुकूलन करता है, जो नवाचारी और व्यक्तिगत समाधान प्रदान करता है।

рдореИрдВ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рдЖрдХрд░реНрд╖рдХ рджреБрдирд┐рдпрд╛ рдореЗрдВ рдЦреБрдж рдХреЛ рдбреВрдмрд╛ рд░рд╣рд╛ рд╣реВрдВред рдореЗрд░рд╛ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдореЗрд░реА рд▓рдЧрд╛рддрд╛рд░ рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬреЛ рдПрдХ рдХреНрд╖реЗрддреНрд░ рд╣реИ рдЬрд┐рд╕реЗ рдореИрдВ рдЖрдЧреЗ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред