рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд▓реЛрдЖрд░рдП, рдХреНрдпреВрдПрд▓рдУрдЖрд░рдП рдФрд░ рдХреНрдпреВрдП-рд▓реЛрдЖрд░рдП: рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдореЗрдВ рдХрдо-рд░реИрдВрдХ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдлреИрдХреНрдЯрд░реАрдХрд░рдг рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдХреБрд╢рд▓ рдЕрдиреБрдХреВрд▓рди

mm
LoRA : Low-Rank Adaptation of Large Language Models

बड़े भाषा मॉडल (एलएलएम) ने मानव-जैसी पाठ को समझने और उत्पन्न करने में असाधारण क्षमताएं प्रदान की हैं। एलएलएम की शक्ति उनके विशाल आकार में निहित है, जो अक्सर अरबों पैरामीटर होते हैं। जबकि यह विशाल पैमाना उनके प्रदर्शन को बढ़ाता है, यह विशिष्ट कार्यों या डोमेन के लिए मॉडल अनुकूलन के संबंध में चुनौतियों को भी पैदा करता है। एलएलएम के पारंपरिक तरीके, जैसे कि सभी पैरामीटर को फाइन-ट्यून करना, एक भारी गणनात्मक और वित्तीय बोझ प्रस्तुत करते हैं, जो वास्तविक दुनिया के अनुप्रयोगों में उनके व्यापक अपनाने के लिए एक महत्वपूर्ण बाधा पैदा करता है।

एक पिछले लेख में, हमने विशिष्ट आवश्यकताओं के लिए बड़े भाषा मॉडल (एलएलएम) को फाइन-ट्यून करने की खोज की। हमने निर्देश-आधारित फाइन-ट्यूनिंग, एकल-कार्य फाइन-ट्यूनिंग और पैरामीटर कुशल फाइन-ट्यूनिंग (पीईएफटी) जैसी विभिन्न फाइन-ट्यूनिंग विधियों का अन्वेषण किया, प्रत्येक का अपना तरीका है एलएलएम को विभिन्न कार्यों के लिए अनुकूलित करने के लिए। केंद्रीय विषय ट्रांसफॉर्मर वास्तुकला था, एलएलएम की रीढ़, और फाइन-ट्यूनिंग के दौरान एक विशाल संख्या में पैरामीटर को संभालने के दौरान गणनात्मक और स्मृति मांगों की चुनौतियाँ।

рдкреИрд░рд╛рдореАрдЯрд░реНрд╕ рдЗрди рдПрд▓рдПрд▓рдПрдо

https://huggingface.co/blog/hf-bitsandbytes-integration

उपरोक्त छवि विभिन्न बड़े भाषा मॉडल के पैमाने को उनके पैरामीटर संख्या द्वारा दर्शाती है। नोट: पाम, ब्लूम, आदि।

इस वर्ष के दौरान, बड़े मॉडलों को और भी बड़ा बनाने की ओर उन्नति हुई है। हालांकि, मानक प्रणालियों पर इतने बड़े मॉडलों को ट्यून करना विशेषज्ञता तकनीकों के बिना असंभव है।

माइक्रोसॉफ्ट द्वारा लो-रैंक अनुकूलन (लोआरए) पेश किया गया था, जो इन चुनौतियों को कम करने और एलएलएम को अधिक सुलभ और अनुकूलन योग्य बनाने के लिए एक प्रयास है।

लोआरए का सार इसके दृष्टिकोण में निहित है जो मॉडल अनुकूलन के बिना पूरे मॉडल को पुनः प्रशिक्षित करने की जटिलताओं में नहीं जाता है। पारंपरिक फाइन-ट्यूनिंग के विपरीत, जहां हर पैरामीटर को बदला जाता है, लोआरए एक चतुर मार्ग अपनाता है। यह पूर्व-प्रशिक्षित मॉडल वजन को जमा देता है और ट्रांसफॉर्मर वास्तुकला के प्रत्येक परत में प्रशिक्षित रैंक विभाजन मैट्रिक्स को पेश करता है। यह दृष्टिकोण प्रशिक्षित पैरामीटर की संख्या को काफी कम कर देता है, जिससे अनुकूलन प्रक्रिया अधिक कुशल हो जाती है।

एलएलएम ट्यूनिंग रणनीतियों का विकास

एलएलएम ट्यूनिंग की यात्रा पर प्रतिबिंबित करते हुए, हम कई रणनीतियों की पहचान कर सकते हैं जो प्रैक्टिशनरों द्वारा वर्षों से नियोजित की गई हैं। शुरुआत में, फाइन-ट्यूनिंग पर ध्यान केंद्रित किया गया था, जो मॉडल पैरामीटर को विशिष्ट कार्य के लिए उपयुक्त बनाने के लिए एक व्यापक परिवर्तन का प्रतिनिधित्व करता है। हालांकि, जैसे-जैसे मॉडल का आकार और जटिलता बढ़ी, इस दृष्टिकोण की गणनात्मक मांगें भी बढ़ गईं।

इसके बाद, उप-समूह फाइन-ट्यूनिंग एक अधिक संयमित संस्करण के रूप में उभरा, जहां केवल मॉडल के पैरामीटर का एक उप-समूह फाइन-ट्यून किया जाता है, जिससे गणनात्मक बोझ कुछ हद तक कम हो जाता है। इसके बावजूद, उप-समूह फाइन-ट्यूनिंग एलएलएम के आकार में वृद्धि के साथ तालमेल नहीं बिठा पाया।

लोआरए का परिचय

रैंक की मैट्रिक्स हमें इसके द्वारा बनाई गई आयामों की एक झलक देती है, जो इसकी पंक्तियों या स्तंभों की संख्या द्वारा निर्धारित की जाती है।

  • पूर्ण-रैंक मैट्रिक्स: इसकी रैंक इसकी पंक्तियों या स्तंभों की संख्या के बीच कम संख्या के बराबर होती है।
  • कम-रैंक मैट्रिक्स: इसकी रैंक दोनों पंक्तियों और स्तंभों की संख्या से काफी कम होती है, जो कम विशेषताओं को पकड़ती है।

अब, बड़े मॉडल एक व्यापक समझ प्रदान करते हैं जो उनके डोमेन के बारे में है, जैसे कि भाषा मॉडल में भाषा। लेकिन, उन्हें विशिष्ट कार्यों के लिए फाइन-ट्यून करने में अक्सर केवल इन समझों का एक छोटा सा हिस्सा ही शामिल होता है। यहीं पर लोआरए चमकता है। यह सुझाव देता है कि वजन समायोजन को प्रदर्शित करने वाली मैट्रिक्स एक कम-रैंक मैट्रिक्स हो सकती है, जो कम विशेषताओं को पकड़ती है।

लोआरए स्मार्ट रूप से अपडेट मैट्रिक्स की रैंक को सीमित करता है जिसे दो छोटे रैंक मैट्रिक्स में विभाजित किया जा सकता है। इसलिए, पूरे वजन मैट्रिक्स को बदलने के बजाय, यह केवल इसके एक हिस्से को बदलता है, जिससे फाइन-ट्यूनिंग कार्य अधिक कुशल हो जाता है।

ट्रांसफॉर्मर में लोआरए का अनुप्रयोग

लोआरए न्यूरल नेटवर्क में प्रशिक्षण भार को कम करने में मदद करता है जो विशिष्ट वजन मैट्रिक्स पर केंद्रित है। ट्रांसफॉर्मर वास्तुकला के तहत, स्व-ध्यान तंत्र के साथ जुड़े विशिष्ट वजन मैट्रिक्स हैं, अर्थात् Wq, Wk, Wv, और Wo, साथ ही मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) मॉड्यूल में दो और।

рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рд╡рд╛рд╕реНрддреБрдХрд▓рд╛

ट्रांसफॉर्मर वास्तुकला

 

рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдзреНрдпрд╛рди рд╕рд┐рд░

ट्रांसफॉर्मर ध्यान सिर

लोआरए के पीछे गणितीय व्याख्या

लोआरए के पीछे के गणित को तोड़कर देखते हैं:

  1. पूर्व-प्रशिक्षित वजन मैट्रिक्स :
    • यह एक पूर्व-प्रशिक्षित वजन मैट्रिक्स के साथ शुरू होता है, जिसके आयाम होते हैं। इसका अर्थ है कि मैट्रिक्स में पंक्तियाँ और स्तंभ होते हैं।
  2. कम-रैंक विभाजन:
    • पूरे मैट्रिक्स को सीधे अपडेट करने के बजाय, यह विधि एक कम-रैंक विभाजन दृष्टिकोण का प्रस्ताव करती है।
    • अपडेट को और नामक दो मैट्रिक्स के उत्पाद के रूप में प्रस्तुत किया जा सकता है।
      • के आयाम होते हैं।
      • के आयाम होते हैं।
    • मुख्य बिंदु यह है कि रैंक दोनों और से बहुत छोटा है, जो एक अधिक गणनात्मक रूप से कुशल प्रतिनिधित्व की अनुमति देता है।
  3. प्रशिक्षण:
    • प्रशिक्षण प्रक्रिया के दौरान, अपरिवर्तित रहता है। इसे “फ्रीजिंग” वजन कहा जाता है।
    • और प्रशिक्षित पैरामीटर हैं। इसका अर्थ है कि प्रशिक्षण के दौरान, और मैट्रिक्स को मॉडल के प्रदर्शन में सुधार के लिए समायोजित किया जाता है।
  4. गुणा और जोड़:
    • दोनों और अपडेट (जो और का उत्पाद है) को समान इनपुट (जिसे कहा जाता है) द्वारा गुणा किया जाता है।
    • इन गुणा के परिणामों को तब जोड़ दिया जाता है।
    • यह प्रक्रिया समीकरण द्वारा सारांशित की जा सकती है: यहाँ, इनपुट पर अपडेट के बाद का अंतिम आउटपुट प्रतिनिधित्व करता है।

संक्षेप में, यह विधि एक बड़े वजन मैट्रिक्स को अपडेट करने के लिए एक अधिक कुशल तरीका प्रदान करती है जो कम-रैंक विभाजन का उपयोग करके लाभकारी हो सकती है, जो गणनात्मक दक्षता और मेमोरी उपयोग के संदर्भ में हो सकती है।

लोआरए एनिमेशन

लोआरए

प्रारंभिकरण और स्केलिंग:

जब मॉडल को प्रशिक्षित किया जाता है, तो पैरामीटर को कैसे प्रारंभिकरण किया जाता है, यह प्रशिक्षण प्रक्रिया की दक्षता और प्रभावशीलता को महत्वपूर्ण रूप से प्रभावित कर सकता है। लोआरए के संदर्भ में, और मैट्रिक्स के लिए:

  1. मैट्रिक्स और का प्रारंभिकरण:
    • मैट्रिक्स : यह मैट्रिक्स यादृच्छिक गाउसियन मानों के साथ प्रारंभिकरण किया जाता है, जिसे सामान्य वितरण कहा जाता है। गाउसियन प्रारंभिकरण के पीछे का तर्क यह है कि यह सममिति को तोड़ता है: एक ही परत में विभिन्न न्यूरॉन्स विभिन्न विशेषताओं को सीखेंगे जब उनके पास विभिन्न प्रारंभिक वजन हों।
    • मैट्रिक्स : यह मैट्रिक्स शून्य मानों के साथ प्रारंभिकरण किया जाता है। ऐसा करने से अपडेट प्रशिक्षण की शुरुआत में शून्य के रूप में शुरू होता है। यह सुनिश्चित करता है कि प्रशिक्षण की शुरुआत में मॉडल के व्यवहार में कोई अचानक परिवर्तन नहीं होता है, जिससे मॉडल को के दौरान सीखने के दौरान धीरे-धीरे अनुकूलन करने की अनुमति मिलती है।
  2. आउटपुट का स्केलिंग से:
    • अपडेट की गणना करने के बाद, इसके आउटपुट को एक निरंतर द्वारा स्केल किया जाता है। स्केलिंग अपडेट की परिमाण को नियंत्रित करती है।
    • स्केलिंग विशेष रूप से तब महत्वपूर्ण है जब रैंक बदलती है। उदाहरण के लिए, यदि आप सटीकता के लिए रैंक बढ़ाने का निर्णय लेते हैं (जो गणना की लागत पर आता है), तो स्केलिंग सुनिश्चित करती है कि आपको प्रक्रिया में कई अन्य हाइपरपैरामीटर को समायोजित करने की आवश्यकता नहीं है। यह मॉडल को स्थिरता प्रदान करता है।

लोआरए का व्यावहारिक प्रभाव

लोआरए ने अपनी क्षमता का प्रदर्शन किया है जो एलएलएम को विशिष्ट कलात्मक शैलियों के लिए कुशलता से ट्यून करने में सक्षम है, जो एआई समुदाय के लोगों द्वारा किया गया है। यह विशेष रूप से ग्रेग रुतकोव्स्की की कलात्मक शैली की नकल करने के लिए एक मॉडल को अनुकूलित करने में दिखाया गया था।

जैसा कि पेपर में जीपीटी-3 175बी के साथ एक उदाहरण के रूप में हाइलाइट किया गया है। 175बी पैरामीटर वाले फाइन-ट्यून किए गए मॉडल के व्यक्तिगत उदाहरणों को रखना बहुत महंगा है। लेकिन, लोआरए के साथ, प्रशिक्षित पैरामीटर 10,000 गुना कम हो जाते हैं, और जीपीयू मेमोरी का उपयोग तीन गुना तक कम हो जाता है।

рд▓реЛрдЖрд░рдП рдХрд╛ рдЬреАрдкреАрдЯреА-3 рдЯреНрдпреВрдирд┐рдВрдЧ рдкрд░ рдкреНрд░рднрд╛рд╡

लोआरए का जीपीटी-3 फाइन-ट्यूनिंग पर प्रभाव

लोआरए विधि न केवल एलएलएम को अधिक सुलभ बनाने की दिशा में एक महत्वपूर्ण कदम है, बल्कि यह सैद्धांतिक प्रगति और व्यावहारिक अनुप्रयोगों के बीच की खाई को पाटने की क्षमता भी दर्शाती है। गणनात्मक बाधाओं को दूर करके और मॉडल अनुकूलन प्रक्रिया को अधिक कुशल बनाकर, लोआरए वास्तविक दुनिया के परिदृश्यों में एलएलएम के व्यापक अपनाने और तैनाती में एक महत्वपूर्ण भूमिका निभाने के लिए तैयार है।

क्यूएलओआरए (क्वांटाइज्ड)

जबकि लोआरए भंडारण आवश्यकताओं को कम करने में एक खेल चanger है, यह अभी भी प्रशिक्षण के लिए एक भारी जीपीयू की मांग करता है। यहीं पर क्यूएलओआरए, या क्वांटाइज्ड लोआरए, आता है, जो लोआरए और क्वांटाइजेशन को एक स्मार्ट दृष्टिकोण के लिए मिलाता है।

рдХреНрд╡рд╛рдВрдЯрд╛рдЗрдЬреЗрд╢рди

क्वांटाइजेशन

आम तौर पर, वजन पैरामीटर 32-बिट प्रारूप (एफपी32) में संग्रहीत किए जाते हैं, जिसका अर्थ है कि मैट्रिक्स में प्रत्येक तत्व 32 बिट स्थान लेता है। कल्पना कीजिए कि यदि हम उसी जानकारी को केवल 8 या यहां तक कि 4 बिट में संकुचित कर सकें। यह क्यूएलओआरए के पीछे का मूल विचार है। क्वांटाइजेशन निरंतर अनंत मानों को एक छोटे सेट के विविध सीमित मानों में मैप करने की प्रक्रिया को संदर्भित करता है। एलएलएम के संदर्भ में, यह मॉडल के वजन को उच्च सटीकता वाले डेटा प्रकार से कम सटीकता वाले डेटा प्रकार में परिवर्तित करने की प्रक्रिया को संदर्भित करता है।

рдПрд▓рдПрд▓рдПрдо рдореЗрдВ рдХреНрд╡рд╛рдВрдЯрд╛рдЗрдЬреЗрд╢рди

एलएलएम में क्वांटाइजेशन

क्यूएलओआरए का एक सरल विवरण यह है:

  1. प्रारंभिक क्वांटाइजेशन: सबसे पहले, बड़े भाषा मॉडल (एलएलएम) को 4 बिट तक क्वांटाइज़ किया जाता है, जो मेमोरी फुटप्रिंट को काफी कम कर देता है।
  2. लोआरए प्रशिक्षण: फिर, लोआरए प्रशिक्षण किया जाता है, लेकिन मानक 32-बिट सटीकता (एफपी32) में।

अब, आप सोच सकते हैं कि क्यों 4 बिट में सिकुड़ने के बाद प्रशिक्षण के लिए वापस 32 बिट पर जाना है। लोआरए एडाप्टर को प्रभावी ढंग से एफपी32 में प्रशिक्षित करने के लिए, मॉडल वजन को भी एफपी32 में वापस करने की आवश्यकता है। यह आगे-पीछे का स्विच एक स्मार्ट, चरण-दर-चरण तरीके से किया जाता है ताकि जीपीयू मेमोरी को अभिभूत न किया जा सके।

लोआरए का व्यावहारिक अनुप्रयोग हगिंग फेस के पैरामीटर कुशल फाइन-ट्यूनिंग (पीईएफटी) लाइब्रेरी में पाया जाता है, जो इसके उपयोग को सरल बनाता है। क्यूएलओआरए का उपयोग करने के लिए, यह बिट्सएंडबाइट्स और पीईएफटी लाइब्रेरी के संयोजन के माध्यम से उपलब्ध है। इसके अलावा, हगिंगफेस की ट्रांसफॉर्मर रीन्फोर्समेंट लर्निंग (TRL) लाइब्रेरी में लोआरए के लिए एकीकृत समर्थन के साथ पर्यवेक्षित फाइन-ट्यूनिंग की सुविधा है। इन तीन लाइब्रेरी मिलकर एक पूर्व-प्रशिक्षित मॉडल को फाइन-ट्यून करने के लिए आवश्यक टूलकिट प्रदान करती हैं, जो विशिष्ट विशेषता निर्देशों के साथ प्रेरक और सुसंगत उत्पाद विवरण उत्पन्न करने में सक्षम हैं।

क्यूएलओआरए से फाइन-ट्यूनिंग के बाद, वजनों को उच्च सटीकता वाले प्रारूप में वापस करने की आवश्यकता होती है, जो सटीकता हानि का कारण बन सकती है और प्रक्रिया को तेज करने के लिए अनुकूलन की कमी हो सकती है।

एक प्रस्तावित समाधान यह है कि वजन मैट्रिक्स को छोटे खंडों में विभाजित किया जाए और प्रत्येक खंड पर क्वांटाइजेशन और कम-रैंक अनुकूलन लागू किया जाए। एक नई विधि, जिसे क्यूए-लोआरए कहा जाता है, क्वांटाइजेशन और कम-रैंक अनुकूलन के लाभों को मिलाने का प्रयास करती है, साथ ही साथ प्रक्रिया को कुशल और मॉडल को वांछित कार्यों के लिए प्रभावी बनाए रखने का प्रयास करती है।

निष्कर्ष

इस लेख में, हमने बड़े भाषा मॉडल के द्वारा उत्पन्न चुनौतियों पर प्रकाश डाला, जो उनके विशाल पैरामीटर आकार के कारण होती हैं। हमने पारंपरिक फाइन-ट्यूनिंग पद्धतियों और उनके संबंधित गणनात्मक और वित्तीय मांगों पर भी चर्चा की। लोआरए का सार इसकी क्षमता में निहित है जो पूर्व-प्रशिक्षित मॉडल को बिना पुनः प्रशिक्षित किए हुए संशोधित करने में सक्षम है, जिससे प्रशिक्षित पैरामीटर की संख्या कम हो जाती है और अनुकूलन प्रक्रिया अधिक लागत प्रभावी हो जाती है।

हमने क्वांटाइज्ड लोआरए (क्यूएलओआरए) में भी संक्षेप में चर्चा की, जो लोआरए और क्वांटाइजेशन का मिश्रण है, जो मॉडल के मेमोरी फुटप्रिंट को कम करता है जबकि प्रशिक्षण के लिए आवश्यक सटीकता बनाए रखता है। इन उन्नत तकनीकों के साथ, प्रैक्टिशनर अब एक मजबूत लाइब्रेरी से लैस हैं जो वास्तविक दुनिया के परिदृश्यों में एलएलएम को अपनाने और तैनात करने को सुविधाजनक बनाती है।

рдореИрдЯреНрд░рд┐рдХреНрд╕

मैट्रिक्स

इन रणनीतियों को विशिष्ट कार्यों के लिए एलएलएम को अनुकूलन योग्य बनाने और सुनिश्चित करने के लिए तैयार किया गया है कि फाइन-ट्यूनिंग और तैनाती प्रक्रियाएं गणना और भंडारण संसाधनों के संदर्भ में अधिक मांग वाली नहीं हैं।

рдореИрдВ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рджреБрдирд┐рдпрд╛ рдореЗрдВ рдЦреБрдж рдХреЛ рдбреВрдмреЛ рд░рд╣рд╛ рд╣реВрдВред рдореЗрд░рд╛ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рдирдореЗрдВ рд╕реЗ рдЕрдзрд┐рдХрд╛рдВрд╢ рдореЗрдВ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рд╡рд┐рд╢реЗрд╖ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдореЗрд░реА рдЬрд╛рд░реА рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рд╕ рдХреНрд╖реЗрддреНрд░ рдХреЛ рдореИрдВ рдЖрдЧреЗ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред