рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд▓реЛрдЖрд░рдП, рдХреНрдпреВрдПрд▓рдУрдЖрд░рдП рдФрд░ рдХреНрдпреВрдП-рд▓реЛрдЖрд░рдП: рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдореЗрдВ рдХрдо-рд░реИрдВрдХ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдлреИрдХреНрдЯрд░реАрдХрд░рдг рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХреБрд╢рд▓ рдЕрдиреБрдХреВрд▓рди

बड़े भाषा मॉडल (एलएलएम) ने मानव-जैसी पाठ को समझने और उत्पन्न करने में असाधारण क्षमताएं प्रदान की हैं। एलएलएम की शक्ति उनके विशाल आकार में निहित है, जो अक्सर अरबों पैरामीटर होते हैं। जबकि यह विशाल पैमाना उनके प्रदर्शन को बढ़ाता है, यह विशिष्ट कार्यों या डोमेन के लिए मॉडल अनुकूलन के संबंध में चुनौतियों को भी पैदा करता है। एलएलएम के पारंपरिक तरीके, जैसे कि सभी पैरामीटर को फाइन-ट्यून करना, एक भारी गणनात्मक और वित्तीय बोझ प्रस्तुत करते हैं, जो वास्तविक दुनिया के अनुप्रयोगों में उनके व्यापक अपनाने के लिए एक महत्वपूर्ण बाधा पैदा करता है।
एक पिछले लेख में, हमने विशिष्ट आवश्यकताओं के लिए बड़े भाषा मॉडल (एलएलएम) को फाइन-ट्यून करने की खोज की। हमने निर्देश-आधारित फाइन-ट्यूनिंग, एकल-कार्य फाइन-ट्यूनिंग और पैरामीटर कुशल फाइन-ट्यूनिंग (पीईएफटी) जैसी विभिन्न फाइन-ट्यूनिंग विधियों का अन्वेषण किया, प्रत्येक का अपना तरीका है एलएलएम को विभिन्न कार्यों के लिए अनुकूलित करने के लिए। केंद्रीय विषय ट्रांसफॉर्मर वास्तुकला था, एलएलएम की रीढ़, और फाइन-ट्यूनिंग के दौरान एक विशाल संख्या में पैरामीटर को संभालने के दौरान गणनात्मक और स्मृति मांगों की चुनौतियाँ।
उपरोक्त छवि विभिन्न बड़े भाषा मॉडल के पैमाने को उनके पैरामीटर संख्या द्वारा दर्शाती है। नोट: पाम, ब्लूम, आदि।
इस वर्ष के दौरान, बड़े मॉडलों को और भी बड़ा बनाने की ओर उन्नति हुई है। हालांकि, मानक प्रणालियों पर इतने बड़े मॉडलों को ट्यून करना विशेषज्ञता तकनीकों के बिना असंभव है।
माइक्रोसॉफ्ट द्वारा लो-रैंक अनुकूलन (लोआरए) पेश किया गया था, जो इन चुनौतियों को कम करने और एलएलएम को अधिक सुलभ और अनुकूलन योग्य बनाने के लिए एक प्रयास है।
लोआरए का सार इसके दृष्टिकोण में निहित है जो मॉडल अनुकूलन के बिना पूरे मॉडल को पुनः प्रशिक्षित करने की जटिलताओं में नहीं जाता है। पारंपरिक फाइन-ट्यूनिंग के विपरीत, जहां हर पैरामीटर को बदला जाता है, लोआरए एक चतुर मार्ग अपनाता है। यह पूर्व-प्रशिक्षित मॉडल वजन को जमा देता है और ट्रांसफॉर्मर वास्तुकला के प्रत्येक परत में प्रशिक्षित रैंक विभाजन मैट्रिक्स को पेश करता है। यह दृष्टिकोण प्रशिक्षित पैरामीटर की संख्या को काफी कम कर देता है, जिससे अनुकूलन प्रक्रिया अधिक कुशल हो जाती है।
एलएलएम ट्यूनिंग रणनीतियों का विकास
एलएलएम ट्यूनिंग की यात्रा पर प्रतिबिंबित करते हुए, हम कई रणनीतियों की पहचान कर सकते हैं जो प्रैक्टिशनरों द्वारा वर्षों से नियोजित की गई हैं। शुरुआत में, फाइन-ट्यूनिंग पर ध्यान केंद्रित किया गया था, जो मॉडल पैरामीटर को विशिष्ट कार्य के लिए उपयुक्त बनाने के लिए एक व्यापक परिवर्तन का प्रतिनिधित्व करता है। हालांकि, जैसे-जैसे मॉडल का आकार और जटिलता बढ़ी, इस दृष्टिकोण की गणनात्मक मांगें भी बढ़ गईं।
इसके बाद, उप-समूह फाइन-ट्यूनिंग एक अधिक संयमित संस्करण के रूप में उभरा, जहां केवल मॉडल के पैरामीटर का एक उप-समूह फाइन-ट्यून किया जाता है, जिससे गणनात्मक बोझ कुछ हद तक कम हो जाता है। इसके बावजूद, उप-समूह फाइन-ट्यूनिंग एलएलएम के आकार में वृद्धि के साथ तालमेल नहीं बिठा पाया।
लोआरए का परिचय
रैंक की मैट्रिक्स हमें इसके द्वारा बनाई गई आयामों की एक झलक देती है, जो इसकी पंक्तियों या स्तंभों की संख्या द्वारा निर्धारित की जाती है।
- पूर्ण-रैंक मैट्रिक्स: इसकी रैंक इसकी पंक्तियों या स्तंभों की संख्या के बीच कम संख्या के बराबर होती है।
- कम-रैंक मैट्रिक्स: इसकी रैंक दोनों पंक्तियों और स्तंभों की संख्या से काफी कम होती है, जो कम विशेषताओं को पकड़ती है।
अब, बड़े मॉडल एक व्यापक समझ प्रदान करते हैं जो उनके डोमेन के बारे में है, जैसे कि भाषा मॉडल में भाषा। लेकिन, उन्हें विशिष्ट कार्यों के लिए फाइन-ट्यून करने में अक्सर केवल इन समझों का एक छोटा सा हिस्सा ही शामिल होता है। यहीं पर लोआरए चमकता है। यह सुझाव देता है कि वजन समायोजन को प्रदर्शित करने वाली मैट्रिक्स एक कम-रैंक मैट्रिक्स हो सकती है, जो कम विशेषताओं को पकड़ती है।
लोआरए स्मार्ट रूप से अपडेट मैट्रिक्स की रैंक को सीमित करता है जिसे दो छोटे रैंक मैट्रिक्स में विभाजित किया जा सकता है। इसलिए, पूरे वजन मैट्रिक्स को बदलने के बजाय, यह केवल इसके एक हिस्से को बदलता है, जिससे फाइन-ट्यूनिंग कार्य अधिक कुशल हो जाता है।
ट्रांसफॉर्मर में लोआरए का अनुप्रयोग
लोआरए न्यूरल नेटवर्क में प्रशिक्षण भार को कम करने में मदद करता है जो विशिष्ट वजन मैट्रिक्स पर केंद्रित है। ट्रांसफॉर्मर वास्तुकला के तहत, स्व-ध्यान तंत्र के साथ जुड़े विशिष्ट वजन मैट्रिक्स हैं, अर्थात् Wq, Wk, Wv, और Wo, साथ ही मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) मॉड्यूल में दो और।
लोआरए के पीछे गणितीय व्याख्या
लोआरए के पीछे के गणित को तोड़कर देखते हैं:
- पूर्व-प्रशिक्षित वजन मैट्रिक्स :
- यह एक पूर्व-प्रशिक्षित वजन मैट्रिक्स के साथ शुरू होता है, जिसके आयाम होते हैं। इसका अर्थ है कि मैट्रिक्स में पंक्तियाँ और स्तंभ होते हैं।
- कम-रैंक विभाजन:
- पूरे मैट्रिक्स को सीधे अपडेट करने के बजाय, यह विधि एक कम-रैंक विभाजन दृष्टिकोण का प्रस्ताव करती है।
- अपडेट को और नामक दो मैट्रिक्स के उत्पाद के रूप में प्रस्तुत किया जा सकता है।
- के आयाम होते हैं।
- के आयाम होते हैं।
- मुख्य बिंदु यह है कि रैंक दोनों और से बहुत छोटा है, जो एक अधिक गणनात्मक रूप से कुशल प्रतिनिधित्व की अनुमति देता है।
- प्रशिक्षण:
- प्रशिक्षण प्रक्रिया के दौरान, अपरिवर्तित रहता है। इसे “फ्रीजिंग” वजन कहा जाता है।
- और प्रशिक्षित पैरामीटर हैं। इसका अर्थ है कि प्रशिक्षण के दौरान, और मैट्रिक्स को मॉडल के प्रदर्शन में सुधार के लिए समायोजित किया जाता है।
- गुणा और जोड़:
- दोनों और अपडेट (जो और का उत्पाद है) को समान इनपुट (जिसे कहा जाता है) द्वारा गुणा किया जाता है।
- इन गुणा के परिणामों को तब जोड़ दिया जाता है।
- यह प्रक्रिया समीकरण द्वारा सारांशित की जा सकती है: यहाँ, इनपुट पर अपडेट के बाद का अंतिम आउटपुट प्रतिनिधित्व करता है।
संक्षेप में, यह विधि एक बड़े वजन मैट्रिक्स को अपडेट करने के लिए एक अधिक कुशल तरीका प्रदान करती है जो कम-रैंक विभाजन का उपयोग करके लाभकारी हो सकती है, जो गणनात्मक दक्षता और मेमोरी उपयोग के संदर्भ में हो सकती है।
प्रारंभिकरण और स्केलिंग:
जब मॉडल को प्रशिक्षित किया जाता है, तो पैरामीटर को कैसे प्रारंभिकरण किया जाता है, यह प्रशिक्षण प्रक्रिया की दक्षता और प्रभावशीलता को महत्वपूर्ण रूप से प्रभावित कर सकता है। लोआरए के संदर्भ में, और मैट्रिक्स के लिए:
- मैट्रिक्स और का प्रारंभिकरण:
- मैट्रिक्स : यह मैट्रिक्स यादृच्छिक गाउसियन मानों के साथ प्रारंभिकरण किया जाता है, जिसे सामान्य वितरण कहा जाता है। गाउसियन प्रारंभिकरण के पीछे का तर्क यह है कि यह सममिति को तोड़ता है: एक ही परत में विभिन्न न्यूरॉन्स विभिन्न विशेषताओं को सीखेंगे जब उनके पास विभिन्न प्रारंभिक वजन हों।
- मैट्रिक्स : यह मैट्रिक्स शून्य मानों के साथ प्रारंभिकरण किया जाता है। ऐसा करने से अपडेट प्रशिक्षण की शुरुआत में शून्य के रूप में शुरू होता है। यह सुनिश्चित करता है कि प्रशिक्षण की शुरुआत में मॉडल के व्यवहार में कोई अचानक परिवर्तन नहीं होता है, जिससे मॉडल को के दौरान सीखने के दौरान धीरे-धीरे अनुकूलन करने की अनुमति मिलती है।
- आउटपुट का स्केलिंग से:
- अपडेट की गणना करने के बाद, इसके आउटपुट को एक निरंतर द्वारा स्केल किया जाता है। स्केलिंग अपडेट की परिमाण को नियंत्रित करती है।
- स्केलिंग विशेष रूप से तब महत्वपूर्ण है जब रैंक बदलती है। उदाहरण के लिए, यदि आप सटीकता के लिए रैंक बढ़ाने का निर्णय लेते हैं (जो गणना की लागत पर आता है), तो स्केलिंग सुनिश्चित करती है कि आपको प्रक्रिया में कई अन्य हाइपरपैरामीटर को समायोजित करने की आवश्यकता नहीं है। यह मॉडल को स्थिरता प्रदान करता है।
लोआरए का व्यावहारिक प्रभाव
लोआरए ने अपनी क्षमता का प्रदर्शन किया है जो एलएलएम को विशिष्ट कलात्मक शैलियों के लिए कुशलता से ट्यून करने में सक्षम है, जो एआई समुदाय के लोगों द्वारा किया गया है। यह विशेष रूप से ग्रेग रुतकोव्स्की की कलात्मक शैली की नकल करने के लिए एक मॉडल को अनुकूलित करने में दिखाया गया था।
जैसा कि पेपर में जीपीटी-3 175बी के साथ एक उदाहरण के रूप में हाइलाइट किया गया है। 175बी पैरामीटर वाले फाइन-ट्यून किए गए मॉडल के व्यक्तिगत उदाहरणों को रखना बहुत महंगा है। लेकिन, लोआरए के साथ, प्रशिक्षित पैरामीटर 10,000 गुना कम हो जाते हैं, और जीपीयू मेमोरी का उपयोग तीन गुना तक कम हो जाता है।
लोआरए विधि न केवल एलएलएम को अधिक सुलभ बनाने की दिशा में एक महत्वपूर्ण कदम है, बल्कि यह सैद्धांतिक प्रगति और व्यावहारिक अनुप्रयोगों के बीच की खाई को पाटने की क्षमता भी दर्शाती है। गणनात्मक बाधाओं को दूर करके और मॉडल अनुकूलन प्रक्रिया को अधिक कुशल बनाकर, लोआरए वास्तविक दुनिया के परिदृश्यों में एलएलएम के व्यापक अपनाने और तैनाती में एक महत्वपूर्ण भूमिका निभाने के लिए तैयार है।
क्यूएलओआरए (क्वांटाइज्ड)
जबकि लोआरए भंडारण आवश्यकताओं को कम करने में एक खेल चanger है, यह अभी भी प्रशिक्षण के लिए एक भारी जीपीयू की मांग करता है। यहीं पर क्यूएलओआरए, या क्वांटाइज्ड लोआरए, आता है, जो लोआरए और क्वांटाइजेशन को एक स्मार्ट दृष्टिकोण के लिए मिलाता है।
आम तौर पर, वजन पैरामीटर 32-बिट प्रारूप (एफपी32) में संग्रहीत किए जाते हैं, जिसका अर्थ है कि मैट्रिक्स में प्रत्येक तत्व 32 बिट स्थान लेता है। कल्पना कीजिए कि यदि हम उसी जानकारी को केवल 8 या यहां तक कि 4 बिट में संकुचित कर सकें। यह क्यूएलओआरए के पीछे का मूल विचार है। क्वांटाइजेशन निरंतर अनंत मानों को एक छोटे सेट के विविध सीमित मानों में मैप करने की प्रक्रिया को संदर्भित करता है। एलएलएम के संदर्भ में, यह मॉडल के वजन को उच्च सटीकता वाले डेटा प्रकार से कम सटीकता वाले डेटा प्रकार में परिवर्तित करने की प्रक्रिया को संदर्भित करता है।
क्यूएलओआरए का एक सरल विवरण यह है:
- प्रारंभिक क्वांटाइजेशन: सबसे पहले, बड़े भाषा मॉडल (एलएलएम) को 4 बिट तक क्वांटाइज़ किया जाता है, जो मेमोरी फुटप्रिंट को काफी कम कर देता है।
- लोआरए प्रशिक्षण: फिर, लोआरए प्रशिक्षण किया जाता है, लेकिन मानक 32-बिट सटीकता (एफपी32) में।
अब, आप सोच सकते हैं कि क्यों 4 बिट में सिकुड़ने के बाद प्रशिक्षण के लिए वापस 32 बिट पर जाना है। लोआरए एडाप्टर को प्रभावी ढंग से एफपी32 में प्रशिक्षित करने के लिए, मॉडल वजन को भी एफपी32 में वापस करने की आवश्यकता है। यह आगे-पीछे का स्विच एक स्मार्ट, चरण-दर-चरण तरीके से किया जाता है ताकि जीपीयू मेमोरी को अभिभूत न किया जा सके।
लोआरए का व्यावहारिक अनुप्रयोग हगिंग फेस के पैरामीटर कुशल फाइन-ट्यूनिंग (पीईएफटी) लाइब्रेरी में पाया जाता है, जो इसके उपयोग को सरल बनाता है। क्यूएलओआरए का उपयोग करने के लिए, यह बिट्सएंडबाइट्स और पीईएफटी लाइब्रेरी के संयोजन के माध्यम से उपलब्ध है। इसके अलावा, हगिंगफेस की ट्रांसफॉर्मर रीन्फोर्समेंट लर्निंग (TRL) लाइब्रेरी में लोआरए के लिए एकीकृत समर्थन के साथ पर्यवेक्षित फाइन-ट्यूनिंग की सुविधा है। इन तीन लाइब्रेरी मिलकर एक पूर्व-प्रशिक्षित मॉडल को फाइन-ट्यून करने के लिए आवश्यक टूलकिट प्रदान करती हैं, जो विशिष्ट विशेषता निर्देशों के साथ प्रेरक और सुसंगत उत्पाद विवरण उत्पन्न करने में सक्षम हैं।
क्यूएलओआरए से फाइन-ट्यूनिंग के बाद, वजनों को उच्च सटीकता वाले प्रारूप में वापस करने की आवश्यकता होती है, जो सटीकता हानि का कारण बन सकती है और प्रक्रिया को तेज करने के लिए अनुकूलन की कमी हो सकती है।
एक प्रस्तावित समाधान यह है कि वजन मैट्रिक्स को छोटे खंडों में विभाजित किया जाए और प्रत्येक खंड पर क्वांटाइजेशन और कम-रैंक अनुकूलन लागू किया जाए। एक नई विधि, जिसे क्यूए-लोआरए कहा जाता है, क्वांटाइजेशन और कम-रैंक अनुकूलन के लाभों को मिलाने का प्रयास करती है, साथ ही साथ प्रक्रिया को कुशल और मॉडल को वांछित कार्यों के लिए प्रभावी बनाए रखने का प्रयास करती है।
निष्कर्ष
इस लेख में, हमने बड़े भाषा मॉडल के द्वारा उत्पन्न चुनौतियों पर प्रकाश डाला, जो उनके विशाल पैरामीटर आकार के कारण होती हैं। हमने पारंपरिक फाइन-ट्यूनिंग पद्धतियों और उनके संबंधित गणनात्मक और वित्तीय मांगों पर भी चर्चा की। लोआरए का सार इसकी क्षमता में निहित है जो पूर्व-प्रशिक्षित मॉडल को बिना पुनः प्रशिक्षित किए हुए संशोधित करने में सक्षम है, जिससे प्रशिक्षित पैरामीटर की संख्या कम हो जाती है और अनुकूलन प्रक्रिया अधिक लागत प्रभावी हो जाती है।
हमने क्वांटाइज्ड लोआरए (क्यूएलओआरए) में भी संक्षेप में चर्चा की, जो लोआरए और क्वांटाइजेशन का मिश्रण है, जो मॉडल के मेमोरी फुटप्रिंट को कम करता है जबकि प्रशिक्षण के लिए आवश्यक सटीकता बनाए रखता है। इन उन्नत तकनीकों के साथ, प्रैक्टिशनर अब एक मजबूत लाइब्रेरी से लैस हैं जो वास्तविक दुनिया के परिदृश्यों में एलएलएम को अपनाने और तैनात करने को सुविधाजनक बनाती है।
इन रणनीतियों को विशिष्ट कार्यों के लिए एलएलएम को अनुकूलन योग्य बनाने और सुनिश्चित करने के लिए तैयार किया गया है कि फाइन-ट्यूनिंग और तैनाती प्रक्रियाएं गणना और भंडारण संसाधनों के संदर्भ में अधिक मांग वाली नहीं हैं।




















