कृत्रिम बुद्धिमत्ता

LoRa, QLoRA और QA-LoRA: लो-रैंक मैट्रिक्स फैक्टराइजेशन के माध्यम से बड़े भाषा मॉडल में कुशल अनुकूलनशीलता

Published October 24, 2023

Updated March 17, 2026

Aayush Mittal Mittal

LoRA : Low-Rank Adaptation of Large Language Models

बड़े भाषा मॉडल (LLMs) ने एक अनूठी जगह बना ली है, जो मानव-जैसे पाठ को समझने और उत्पन्न करने में अद्वितीय क्षमताएं प्रदान करते हैं। LLMs की शक्ति उनके विशाल आकार से पता चलती है, जिनमें अक्सर अरबों पैरामीटर होते हैं। जबकि यह विशाल पैमाना उनके प्रदर्शन को ईंधन देता है, यह एक साथ ही चुनौतियों को जन्म देता है, खासकर विशिष्ट कार्यों या डोमेन के लिए मॉडल अनुकूलन की बात आने पर। LLMs को प्रबंधित करने के पारंपरिक तरीके, जैसे कि सभी पैरामीटर का फाइन-ट्यूनिंग, एक भारी कम्प्यूटेशनल और वित्तीय बोझ प्रस्तुत करते हैं, इस प्रकार वास्तविक दुनिया के अनुप्रयोगों में उनके व्यापक अपनाने में एक महत्वपूर्ण बाधा उत्पन्न करते हैं। एक पिछले लेख में, हमने विशिष्ट आवश्यकताओं के अनुरूप बड़े भाषा मॉडल (LLMs) को फाइन-ट्यून करने पर गहराई से विचार किया। हमने विभिन्न फाइन-ट्यूनिंग पद्धतियों जैसे निर्देश-आधारित फाइन-ट्यूनिंग, एकल-कार्य फाइन-ट्यूनिंग और पैरामीटर एफिशिएंट फाइन-ट्यूनिंग (PEFT) का पता लगाया, जिनमें से प्रत्येक की विशिष्ट कार्यों के लिए LLMs को अनुकूलित करने की अपनी अनूठी दृष्टिकोण है। चर्चा का केंद्र ट्रांसफॉर्मर आर्किटेक्चर था, जो LLMs की रीढ़ है, और फाइन-ट्यूनिंग के दौरान पैरामीटरों की विशाल संख्या को संभालने की कम्प्यूटेशनल और मेमोरी मांगों से उत्पन्न चुनौतियाँ थीं।

https://huggingface.co/blog/hf-bitsandbytes-integration

उपरोक्त छवि विभिन्न बड़े भाषा मॉडल के पैमाने को दर्शाती है, जो उनके पैरामीटरों की संख्या के अनुसार क्रमबद्ध हैं। विशेष रूप से: PaLM, BLOOM, आदि। इस वर्ष के रूप में, और भी बड़े मॉडलों की ओर ले जाने वाली उन्नति हुई है। हालाँकि, विशेष अनुकूलन तकनीकों के बिना मानक प्रणालियों पर ऐसे विशाल, ओपन-सोर्स मॉडलों को ट्यून करना असंभव है। लो-रैंक एडाप्टेशन (LoRA) Microsoft द्वारा इस पेपर में पेश किया गया था, जिसका उद्देश्य इन चुनौतियों को कम करना और LLMs को अधिक सुलभ और अनुकूलनीय बनाना है। LoRA का सार पूरे मॉडल को पुनः प्रशिक्षित करने की जटिलताओं में उतरे बिना मॉडल अनुकूलन की दिशा में इसके दृष्टिकोण में निहित है। पारंपरिक फाइन-ट्यूनिंग के विपरीत, जहाँ हर पैरामीटर परिवर्तन के अधीन होता है, LoRA एक चतुर रास्ता अपनाता है। यह पूर्व-प्रशिक्षित मॉडल वेट को फ्रीज कर देता है और ट्रांसफॉर्मर आर्किटेक्चर की प्रत्येक परत में प्रशिक्षण योग्य रैंक डिकम्पोजिशन मैट्रिक्स पेश करता है। यह दृष्टिकोण प्रशिक्षण योग्य पैरामीटरों की संख्या को काफी कम कर देता है, जिससे एक अधिक कुशल अनुकूलन प्रक्रिया सुनिश्चित होती है।

LLM ट्यूनिंग रणनीतियों का विकास

LLM ट्यूनिंग की यात्रा पर विचार करते हुए, कोई भी पिछले वर्षों में व्यवसायियों द्वारा नियोजित कई रणनीतियों की पहचान कर सकता है। प्रारंभ में, स्पॉटलाइट पूर्व-प्रशिक्षित मॉडलों को फाइन-ट्यून करने पर थी, एक रणनीति जिसमें हाथ में लिए गए विशिष्ट कार्य के अनुरूप मॉडल पैरामीटरों के व्यापक परिवर्तन शामिल हैं। हालाँकि, जैसे-जैसे मॉडल आकार और जटिलता में बढ़े, इस दृष्टिकोण की कम्प्यूटेशनल मांगें भी बढ़ीं। अगली रणनीति जिसने गति पकड़ी वह थी सबसेट फाइन-ट्यूनिंग, जो अपने पूर्ववर्ती का एक अधिक संयमित संस्करण है। यहाँ, मॉडल के केवल एक सबसेट पैरामीटर को फाइन-ट्यून किया जाता है, जिससे कुछ हद तक कम्प्यूटेशनल बोझ कम हो जाता है। इसके गुणों के बावजूद, सबसेट फाइन-ट्यूनिंग अभी भी LLMs के आकार में वृद्धि की दर के साथ नहीं रह पाई। जैसे-जैसे व्यवसायी अधिक कुशल रास्तों की खोज करने निकले, पूर्ण फाइन-ट्यूनिंग एक कठोर फिर भी फायदेमंद दृष्टिकोण के रूप में उभरा।

LoRA का परिचय

एक मैट्रिक्स की रैंक हमें इसके कॉलम द्वारा बनाए गए आयामों में एक झलक देती है, जो इसकी अद्वितीय पंक्तियों या स्तंभों की संख्या से निर्धारित होती है।

फुल-रैंक मैट्रिक्स: इसकी रैंक इसकी पंक्तियों या स्तंभों के बीच की कम संख्या से मेल खाती है।
लो-रैंक मैट्रिक्स: एक रैंक जो इसकी पंक्ति और स्तंभ गणना दोनों से काफी छोटी है, यह कम विशेषताओं को कैप्चर करती है।

अब, बड़े मॉडल अपने डोमेन की एक व्यापक समझ रखते हैं, जैसे भाषा मॉडल में भाषा। लेकिन, विशिष्ट कार्यों के लिए उन्हें फाइन-ट्यून करने के लिए अक्सर इन समझों के केवल एक छोटे हिस्से को हाइलाइट करने की आवश्यकता होती है। यहीं LoRA चमकता है। यह सुझाव देता है कि इन वेट समायोजनों को प्रदर्शित करने वाला मैट्रिक्स एक लो-रैंक वाला हो सकता है, इस प्रकार कम विशेषताओं को कैप्चर करता है। LoRA इस अपडेट मैट्रिक्स की रैंक को चतुराई से सीमित करता है इसे दो छोटे रैंक मैट्रिक्स में विभाजित करके। इसलिए पूरे वेट मैट्रिक्स को बदलने के बजाय, यह इसके केवल एक हिस्से को बदलता है, जिससे फाइन-ट्यूनिंग कार्य अधिक कुशल हो जाता है।

ट्रांसफॉर्मर्स पर LoRA लागू करना

LoRA विशिष्ट वेट मैट्रिक्स पर ध्यान केंद्रित करके न्यूरल नेटवर्क में प्रशिक्षण भार को कम करने में मदद करता है। ट्रांसफॉर्मर आर्किटेक्चर के तहत, कुछ वेट मैट्रिक्स सेल्फ-अटेंशन मैकेनिज्म से जुड़े होते हैं, अर्थात् Wq, Wk, Wv, और Wo, इसके अलावा मल्टी-लेयर पर्सेप्ट्रॉन (MLP) मॉड्यूल में दो और।

ट्रांसफॉर्मर्स आर्किटेक्चर

ट्रांसफॉर्मर अटेंशन हेड्स

LoRA के पीछे गणितीय व्याख्या

आइए LoRA के पीछे के गणित को तोड़ते हैं:

पूर्व-प्रशिक्षित वेट मैट्रिक्स $W_{0}$ :
- यह आयाम $d \times k$ के एक पूर्व-प्रशिक्षित वेट मैट्रिक्स $W_{0}$ से शुरू होता है। इसका मतलब है कि मैट्रिक्स में $d$ पंक्तियाँ और $k$ स्तंभ हैं।
लो-रैंक डिकम्पोजिशन:
- पूरे मैट्रिक्स $<span class="katex$

Aayush Mittal

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.