कृत्रिम बुद्धिमत्ता
LoRa, QLoRA और QA-LoRA: लो-रैंक मैट्रिक्स फैक्टराइजेशन के माध्यम से बड़े भाषा मॉडल में कुशल अनुकूलनशीलता

बड़े भाषा मॉडल (LLMs) ने एक अनूठी जगह बना ली है, जो मानव-जैसे पाठ को समझने और उत्पन्न करने में अद्वितीय क्षमताएं प्रदान करते हैं। LLMs की शक्ति उनके विशाल आकार से पता चलती है, जिनमें अक्सर अरबों पैरामीटर होते हैं। जबकि यह विशाल पैमाना उनके प्रदर्शन को ईंधन देता है, यह एक साथ ही चुनौतियों को जन्म देता है, खासकर विशिष्ट कार्यों या डोमेन के लिए मॉडल अनुकूलन की बात आने पर। LLMs को प्रबंधित करने के पारंपरिक तरीके, जैसे कि सभी पैरामीटर का फाइन-ट्यूनिंग, एक भारी कम्प्यूटेशनल और वित्तीय बोझ प्रस्तुत करते हैं, इस प्रकार वास्तविक दुनिया के अनुप्रयोगों में उनके व्यापक अपनाने में एक महत्वपूर्ण बाधा उत्पन्न करते हैं। एक पिछले लेख में, हमने विशिष्ट आवश्यकताओं के अनुरूप बड़े भाषा मॉडल (LLMs) को फाइन-ट्यून करने पर गहराई से विचार किया। हमने विभिन्न फाइन-ट्यूनिंग पद्धतियों जैसे निर्देश-आधारित फाइन-ट्यूनिंग, एकल-कार्य फाइन-ट्यूनिंग और पैरामीटर एफिशिएंट फाइन-ट्यूनिंग (PEFT) का पता लगाया, जिनमें से प्रत्येक की विशिष्ट कार्यों के लिए LLMs को अनुकूलित करने की अपनी अनूठी दृष्टिकोण है। चर्चा का केंद्र ट्रांसफॉर्मर आर्किटेक्चर था, जो LLMs की रीढ़ है, और फाइन-ट्यूनिंग के दौरान पैरामीटरों की विशाल संख्या को संभालने की कम्प्यूटेशनल और मेमोरी मांगों से उत्पन्न चुनौतियाँ थीं।
उपरोक्त छवि विभिन्न बड़े भाषा मॉडल के पैमाने को दर्शाती है, जो उनके पैरामीटरों की संख्या के अनुसार क्रमबद्ध हैं। विशेष रूप से: PaLM, BLOOM, आदि। इस वर्ष के रूप में, और भी बड़े मॉडलों की ओर ले जाने वाली उन्नति हुई है। हालाँकि, विशेष अनुकूलन तकनीकों के बिना मानक प्रणालियों पर ऐसे विशाल, ओपन-सोर्स मॉडलों को ट्यून करना असंभव है। लो-रैंक एडाप्टेशन (LoRA) Microsoft द्वारा इस पेपर में पेश किया गया था, जिसका उद्देश्य इन चुनौतियों को कम करना और LLMs को अधिक सुलभ और अनुकूलनीय बनाना है। LoRA का सार पूरे मॉडल को पुनः प्रशिक्षित करने की जटिलताओं में उतरे बिना मॉडल अनुकूलन की दिशा में इसके दृष्टिकोण में निहित है। पारंपरिक फाइन-ट्यूनिंग के विपरीत, जहाँ हर पैरामीटर परिवर्तन के अधीन होता है, LoRA एक चतुर रास्ता अपनाता है। यह पूर्व-प्रशिक्षित मॉडल वेट को फ्रीज कर देता है और ट्रांसफॉर्मर आर्किटेक्चर की प्रत्येक परत में प्रशिक्षण योग्य रैंक डिकम्पोजिशन मैट्रिक्स पेश करता है। यह दृष्टिकोण प्रशिक्षण योग्य पैरामीटरों की संख्या को काफी कम कर देता है, जिससे एक अधिक कुशल अनुकूलन प्रक्रिया सुनिश्चित होती है।
LLM ट्यूनिंग रणनीतियों का विकास
LLM ट्यूनिंग की यात्रा पर विचार करते हुए, कोई भी पिछले वर्षों में व्यवसायियों द्वारा नियोजित कई रणनीतियों की पहचान कर सकता है। प्रारंभ में, स्पॉटलाइट पूर्व-प्रशिक्षित मॉडलों को फाइन-ट्यून करने पर थी, एक रणनीति जिसमें हाथ में लिए गए विशिष्ट कार्य के अनुरूप मॉडल पैरामीटरों के व्यापक परिवर्तन शामिल हैं। हालाँकि, जैसे-जैसे मॉडल आकार और जटिलता में बढ़े, इस दृष्टिकोण की कम्प्यूटेशनल मांगें भी बढ़ीं। अगली रणनीति जिसने गति पकड़ी वह थी सबसेट फाइन-ट्यूनिंग, जो अपने पूर्ववर्ती का एक अधिक संयमित संस्करण है। यहाँ, मॉडल के केवल एक सबसेट पैरामीटर को फाइन-ट्यून किया जाता है, जिससे कुछ हद तक कम्प्यूटेशनल बोझ कम हो जाता है। इसके गुणों के बावजूद, सबसेट फाइन-ट्यूनिंग अभी भी LLMs के आकार में वृद्धि की दर के साथ नहीं रह पाई। जैसे-जैसे व्यवसायी अधिक कुशल रास्तों की खोज करने निकले, पूर्ण फाइन-ट्यूनिंग एक कठोर फिर भी फायदेमंद दृष्टिकोण के रूप में उभरा।
LoRA का परिचय
एक मैट्रिक्स की रैंक हमें इसके कॉलम द्वारा बनाए गए आयामों में एक झलक देती है, जो इसकी अद्वितीय पंक्तियों या स्तंभों की संख्या से निर्धारित होती है।
- फुल-रैंक मैट्रिक्स: इसकी रैंक इसकी पंक्तियों या स्तंभों के बीच की कम संख्या से मेल खाती है।
- लो-रैंक मैट्रिक्स: एक रैंक जो इसकी पंक्ति और स्तंभ गणना दोनों से काफी छोटी है, यह कम विशेषताओं को कैप्चर करती है।
अब, बड़े मॉडल अपने डोमेन की एक व्यापक समझ रखते हैं, जैसे भाषा मॉडल में भाषा। लेकिन, विशिष्ट कार्यों के लिए उन्हें फाइन-ट्यून करने के लिए अक्सर इन समझों के केवल एक छोटे हिस्से को हाइलाइट करने की आवश्यकता होती है। यहीं LoRA चमकता है। यह सुझाव देता है कि इन वेट समायोजनों को प्रदर्शित करने वाला मैट्रिक्स एक लो-रैंक वाला हो सकता है, इस प्रकार कम विशेषताओं को कैप्चर करता है। LoRA इस अपडेट मैट्रिक्स की रैंक को चतुराई से सीमित करता है इसे दो छोटे रैंक मैट्रिक्स में विभाजित करके। इसलिए पूरे वेट मैट्रिक्स को बदलने के बजाय, यह इसके केवल एक हिस्से को बदलता है, जिससे फाइन-ट्यूनिंग कार्य अधिक कुशल हो जाता है।
ट्रांसफॉर्मर्स पर LoRA लागू करना
LoRA विशिष्ट वेट मैट्रिक्स पर ध्यान केंद्रित करके न्यूरल नेटवर्क में प्रशिक्षण भार को कम करने में मदद करता है। ट्रांसफॉर्मर आर्किटेक्चर के तहत, कुछ वेट मैट्रिक्स सेल्फ-अटेंशन मैकेनिज्म से जुड़े होते हैं, अर्थात् Wq, Wk, Wv, और Wo, इसके अलावा मल्टी-लेयर पर्सेप्ट्रॉन (MLP) मॉड्यूल में दो और।
LoRA के पीछे गणितीय व्याख्या
आइए LoRA के पीछे के गणित को तोड़ते हैं:
- पूर्व-प्रशिक्षित वेट मैट्रिक्स W0:
- यह आयाम d×k के एक पूर्व-प्रशिक्षित वेट मैट्रिक्स W0 से शुरू होता है। इसका मतलब है कि मैट्रिक्स में d पंक्तियाँ और k स्तंभ हैं।
- लो-रैंक डिकम्पोजिशन:
- पूरे मैट्रिक्स <span class="katex
- पूरे मैट्रिक्स <span class="katex













