рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
ReFT: рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдлрд╛рдЗрди-рдЯреНрдпреВрдирд┐рдВрдЧ рд▓реИрдВрдЧреНрд╡реЗрдЬ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП
पैरामीटर-कुशल फाइन-ट्यूनिंग या PeFT विधियाँ बड़े भाषा मॉडल को कुछ वजनों के अद्यतन के माध्यम से अनुकूलित करना चाहती हैं। हालांकि, अधिकांश मौजूदा व्याख्यात्मक कार्य ने दिखाया है कि प्रतिनिधित्व समृद्ध सेमेंटिक जानकारी को एन्कोड करते हैं, जो यह सुझाव देते हैं कि यह वजनों के बजाय इन प्रतिनिधित्वों को संपादित करना एक बेहतर और अधिक शक्तिशाली विकल्प हो सकता है। पूर्व-प्रशिक्षित बड़े मॉडल अक्सर नए डोमेन या कार्यों के लिए उपयोग किए जाने के लिए फाइन-ट्यून किए जाते हैं, और फाइन-ट्यूनिंग प्रक्रिया के दौरान, एक एकल आधार मॉडल को केवल थोड़े से इन-डोमेन डेटा के साथ कई कार्यों के लिए अनुकूलित किया जा सकता है। हालांकि, पूरे मॉडल को फाइन-ट्यून करने की प्रक्रिया संसाधन-कुशल है, और महंगी है, विशेष रूप से भाषा मॉडल के लिए जो कि एक महत्वपूर्ण रूप से उच्च संख्या में पैरामीटर हैं।
पैरामीटर-कुशल फाइन-ट्यूनिंग या PeFT विधियाँ पूरे मॉडल को फाइन-ट्यून करने से जुड़े उच्च लागतों को कम करने के लिए कुछ वजनों को अद्यतन करके मॉडल को अनुकूलित करने का प्रस्ताव करती हैं, जो प्रशिक्षण समय को कम करने में मदद करता है और साथ ही साथ मेमोरी उपयोग को भी कम करता है। अधिक महत्वपूर्ण बात यह है कि पैरामीटर-कुशल फाइन-ट्यूनिंग या PeFT विधियों ने व्यावहारिक सेटिंग्स में फाइन-ट्यूनिंग के समान प्रदर्शन का प्रदर्शन किया है। एडेप्टर, पैरामीटर-कुशल फाइन-ट्यूनिंग या PeFT विधियों का एक सामान्य परिवार, एक एडिट सीखता है जो एक अतिरिक्त वजन सेट के साथ जोड़ा जा सकता है जो जमे हुए आधार मॉडल के साथ काम करता है, और हाल के एडेप्टर जैसे LoRA ने प्रशिक्षण के दौरान पूर्ण-वजन मैट्रिक्स के बजाय कम-रैंक अनुमान का उपयोग करके सीखे गए वजन अद्यतन में प्रशिक्षण योग्य पैरामीटर की संख्या को कम किया है।
पिछले कार्यों ने दिखाया है कि प्रतिनिधित्वों को संपादित करना पैरामीटर-कुशल फाइन-ट्यूनिंग या PeFT विधियों के लिए एक बेहतर विकल्प हो सकता है, इस लेख में, हम ReFT या प्रतिनिधित्व फाइन-ट्यूनिंग विधियों के बारे में बात करेंगे जो एक जमे हुए मॉडल पर काम करती हैं और छुपे हुए प्रतिनिधित्वों पर कार्य-विशिष्ट हस्तक्षेप सीखती हैं। यह लेख ReFt या प्रतिनिधित्व फाइन-ट्यूनिंग फ्रेमवर्क को गहराई से कवर करने का उद्देश्य रखता है, और हम फ्रेमवर्क की तंत्र, विधि, वास्तुकला के साथ-साथ राज्य के कला फ्रेमवर्क के साथ इसकी तुलना करते हैं। तो आइए शुरू करें।
ReFT: प्रतिनिधित्व फाइन-ट्यूनिंग लैंग्वेज मॉडल के लिए
नए डोमेन और कार्यों के लिए पूर्व-प्रशिक्षित भाषा मॉडल को अपनाने के प्रयास में, वर्तमान फ्रेमवर्क अक्सर इन पूर्व-प्रशिक्षित भाषा मॉडल को फाइन-ट्यून करते हैं क्योंकि फाइन-ट्यूनिंग प्रक्रिया के कार्यान्वित होने के साथ, एक एकल आधार मॉडल को कई कार्यों के लिए अनुकूलित किया जा सकता है даже जब केवल थोड़ा सा इन-डोमेन डेटा मॉडल के लिए उपलब्ध होता है। हालांकि, फाइन-ट्यूनिंग प्रक्रिया समग्र प्रदर्शन को बढ़ाती है, यह एक महंगी प्रक्रिया है, विशेष रूप से भाषा मॉडल के लिए जो कि एक महत्वपूर्ण रूप से उच्च संख्या में पैरामीटर हैं। इस समस्या को हल करने के लिए, और संबंधित लागतों को कम करने के लिए, PeFT या पैरामीटर-कुशल फाइन-ट्यूनिंग फ्रेमवर्क केवल कुछ वजनों को अद्यतन करता है, जो प्रशिक्षण समय को कम करने में मदद करता है और साथ ही साथ मेमोरी उपयोग को भी कम करता है, जिससे PeFT फ्रेमवर्क व्यावहारिक परिदृश्यों में पूर्ण फाइन-ट्यूनिंग दृष्टिकोणों की तुलना में समान प्रदर्शन प्राप्त करने में सक्षम होता है। एडेप्टर, एक सामान्य परिवार के PeFT, एक एडिट सीखता है जो एक अतिरिक्त वजन सेट के साथ जोड़ा जा सकता है जो जमे हुए आधार मॉडल के साथ काम करता है। हाल के एडेप्टर फ्रेमवर्क जैसे LoRA और QLoRA ने दिखाया है कि कम-रैंक मैट्रिक्स का उपयोग करके प्रशिक्षण के दौरान पूर्ण-वजन मैट्रिक्स के बजाय प्रशिक्षण के दौरान वजन अद्यतन को अनुमानित करना संभव है, और यही कारण है कि वे वर्तमान में सबसे मजबूत PeFT फ्रेमवर्क माने जाते हैं।
वर्तमान राज्य के कला पैरामीटर-कुशल फाइन-ट्यूनिंग फ्रेमवर्क का एक प्रमुख आकर्षण यह है कि वे प्रतिनिधित्वों को संशोधित करने के बजाय वजनों को संशोधित करते हैं। हालांकि, व्याख्यात्मकता से संबंधित फ्रेमवर्क ने दिखाया है कि प्रतिनिधित्व समृद्ध सेमेंटिक जानकारी को एन्कोड करते हैं, जो यह सुझाव देते हैं कि प्रतिनिधित्वों को संपादित करना एक बेहतर और अधिक शक्तिशाली दृष्टिकोण हो सकता है। यह धारणा कि प्रतिनिधित्वों को संपादित करना एक बेहतर दृष्टिकोण है, ReFT या प्रतिनिधित्व फाइन-ट्यूनिंग फ्रेमवर्क का आधार है, जो वजनों को अनुकूलित करने के बजाय हस्तक्षेप सीखता है, जिससे मॉडल को एक छोटे से प्रतिनिधित्व को मॉडल के व्यवहार को नीचे के कार्यों को हल करने के लिए स्टीयर करने की अनुमति मिलती है। ReFT या प्रतिनिधित्व फाइन-ट्यूनिंग विधियाँ वजन-आधारित PeFT या पैरामीटर-कुशल फाइन-ट्यूनिंग फ्रेमवर्क के लिए ड्रॉप-इन प्रतिस्थापन हैं। ReFT दृष्टिकोण हाल के मॉडलों से प्रेरित है जो बड़े मॉडल व्याख्यात्मकता के साथ काम करते हैं और प्रतिनिधित्वों पर हस्तक्षेप करके विश्वसनीय कारण संबंधों को खोजने के लिए और अनुमान के दौरान मॉडल के व्यवहार को स्टीयर करने के लिए, और इसलिए इसे प्रतिनिधित्व-संपादन मॉडलों के एक सामान्यीकरण के रूप में देखा जा सकता है। इसी पर आधारित, LoReFT या कम-रैंक उपस्थिति ReFT एक मजबूत और प्रभावी उदाहरण है, और यह ReFT का एक पैरामीटरीकरण है जो छुपे हुए प्रतिनिधित्वों पर हस्तक्षेप करता है जो कम-रैंक प्रोजेक्शन मैट्रिक्स द्वारा स्पैन किए गए रेखीय स्थान में होता है, और सीधे DAS या वितरित संरेखण खोज फ्रेमवर्क पर आधारित है।
आगे बढ़ते हुए, पूर्ण फाइन-ट्यूनिंग के विपरीत, PeFT या पैरामीटर-कुशल फाइन-ट्यूनिंग फ्रेमवर्क केवल मॉडल के पैरामीटर का एक छोटा सा हिस्सा प्रशिक्षित करता है, और मॉडल को नीचे के कार्यों के लिए अनुकूलित करने में सक्षम होता है। पैरामीटर-कुशल फाइन-ट्यूनिंग फ्रेमवर्क को मुख्य रूप से तीन श्रेणियों में वर्गीकृत किया जा सकता है:
- एडेप्टर-आधारित विधियाँ: एडेप्टर-आधारित विधियाँ पूर्व-प्रशिक्षित मॉडल के शीर्ष पर पूरी तरह से जुड़े हुए परतों जैसे अतिरिक्त मॉड्यूल को प्रशिक्षित करती हैं। श्रृंखला एडेप्टर मल्टीलेयर परसेप्ट्रॉन या एमएलपी और एलएम या बड़े मॉडल के ध्यान स्तरों के बीच घटकों को डालते हैं, जबकि समांतर एडेप्टर मौजूदा घटकों के साथ मॉड्यूल जोड़ते हैं। चूंकि एडेप्टर नए घटक जोड़ते हैं जो आसानी से मौजूदा मॉडल वजन में नहीं मिल सकते हैं, वे अनुमान के दौरान अतिरिक्त बोझ डालते हैं।
- LoRA: LoRA और इसके हाल के वेरिएंट प्रशिक्षण के दौरान कम-रैंक मैट्रिक्स का उपयोग करके पूर्ण-वजन मैट्रिक्स के बजाय वजन अद्यतन को अनुमानित करते हैं, और वे अनुमान के दौरान अतिरिक्त ओवरहेड की आवश्यकता नहीं है, क्योंकि वजन अद्यतन मॉडल में मिलाया जा सकता है, और यही कारण है कि वे वर्तमान में सबसे मजबूत PeFT फ्रेमवर्क माने जाते हैं।
- प्रॉम्प्ट-आधारित विधियाँ: प्रॉम्प्ट-आधारित विधियाँ इनपुट में यादृच्छिक रूप से प्रारंभिक सॉफ्ट टोकन जोड़ती हैं और भाषा मॉडल के वजनों को जमे हुए रखते हुए उनके एम्बेडिंग को प्रशिक्षित करती हैं। इन विधियों द्वारा प्रदान किए गए प्रदर्शन अक्सर अन्य PeFT दृष्टिकोणों की तुलना में संतोषजनक नहीं होते हैं, और वे एक महत्वपूर्ण अनुमान ओवरहेड लागत भी लेते हैं।
इसके बजाय वजनों को अद्यतन करने के, ReFT फ्रेमवर्क एक छोटे से प्रतिनिधित्व को संशोधित करने के लिए हस्तक्षेप सीखता है। इसके अलावा, हाल के कार्यों ने प्रतिनिधित्व इंजीनियरिंग और सक्रियण स्टीयरिंग पर दिखाया है कि अवशेष धारा में निर्धारित स्टीयरिंग वेक्टर जोड़ना संसाधन-कुशल फाइन-ट्यूनिंग की आवश्यकता के बिना पूर्व-प्रशिक्षित बड़े मॉडल पीढ़ी पर एक डिग्री का नियंत्रण प्रदान कर सकता है। अन्य फ्रेमवर्क ने दिखाया है कि प्रतिनिधित्वों को सीखे गए स्केलिंग और अनुवाद ऑपरेशन के साथ संपादित करने का प्रयास करना LoRA एडेप्टर के प्रदर्शन को एक विस्तृत श्रृंखला के कार्यों पर मिलाने में सक्षम हो सकता है, लेकिन कम प्रशिक्षित पैरामीटर के साथ। इसके अलावा, इन फ्रेमवर्क की सफलता ने विभिन्न कार्यों पर दिखाया है कि पूर्व-प्रशिक्षित भाषा मॉडल द्वारा पेश किए गए प्रतिनिधित्व समृद्ध सेमेंटिक्स ले जाते हैं, हालांकि इन मॉडलों का प्रदर्शन उप-आदर्श है, जिसके परिणामस्वरूप PeFT सबसे मजबूत दृष्टिकोण के रूप में बने रहते हैं और कोई अतिरिक्त अनुमान बोझ नहीं है।
ReFT: विधि और वास्तुकला
शैली संरक्षण प्रक्रिया को सरल रखने के लिए, ReFT फ्रेमवर्क एक ट्रांसफॉर्मर-आधारित बड़े मॉडल को अपने लक्ष्य मॉडल के रूप में मानता है जो टोकन की एक श्रृंखला का संदर्भित प्रतिनिधित्व पैदा करने में सक्षम है। एक दिए गए अनुक्रम के लिए जिसमें n संख्या में इनपुट टोकन होते हैं, ReFT फ्रेमवर्क इन इनपुट टोकन को प्रतिनिधित्वों की एक सूची में एम्बेड करता है, जिसके बाद m परतें पिछली प्रतिनिधित्वों की सूची के रूप में छुपे हुए प्रतिनिधित्वों की एक सूची को गणना करती हैं। प्रत्येक छुपा हुआ प्रतिनिधित्व एक वेक्टर है, और भाषा मॉडल अंतिम छुपे हुए प्रतिनिधित्वों का उपयोग भविष्यवाणियों का उत्पादन करने के लिए करता है। ReFT फ्रेमवर्क दोनों मास्क्ड भाषा मॉडल और स्व-विकासशील भाषा मॉडल पर विचार करता है। अब, रेखीय प्रतिनिधित्व परिकल्पना के अनुसार, तंत्रिका नेटवर्क में, अवधारणाएं प्रतिनिधित्वों के रेखीय उपस्थान में एन्कोड की जाती हैं। हाल के मॉडलों ने इस दावे को तंत्रिका नेटवर्क मॉडल में प्राकृतिक भाषा और अन्य इनपुट वितरण पर प्रशिक्षित होने के लिए सच पाया है।
इसके अलावा, व्याख्यात्मकता अध्ययनों में, कारण संबंध फ्रेमवर्क कारण संबंधों को स्थापित करने के लिए हस्तक्षेप का उपयोग करता है जब विशिष्ट व्यवहारों को लागू करने में तंत्रिका नेटवर्क घटकों की भूमिका निभाता है। हस्तक्षेप का तर्क यह है कि यदि कोई प्रतिनिधित्व को एक विपरीत इनपुट के लिए जो कुछ होगा उसे ठीक करता है, और यह हस्तक्षेप मॉडल के आउटपुट को लगातार रूप से प्रभावित करता है जैसा कि ReFT फ्रेमवर्क द्वारा दावा किया गया है कि उस घटक द्वारा उत्पादित प्रतिनिधित्व के बारे में दावा किया जाता है, तो घटक उस व्यवहार में एक कारण भूमिका निभाता है। हालांकि कई विधियाँ हैं, वितरित हस्तक्षेप परीक्षण यह देखने के लिए कि क्या एक अवधारणा एक प्रतिनिधित्व के रेखीय उपस्थान में एन्कोड की जाती है, जैसा कि रेखीय प्रतिनिधित्व परिकल्पना द्वारा दावा किया जाता है, एक आदर्श दृष्टिकोण है। इसके अलावा, DAS विधि का पहले भाषा मॉडल में इकाई विशेषताओं, भावना, भाषाई विशेषताओं, और गणितीय तर्क के लिए रेखीय प्रतिनिधित्व खोजने के लिए उपयोग किया गया है। हालांकि, कई प्रयोगों ने संकेत दिया है कि DAS विधि अत्यधिक अभिव्यक्तिपूर्ण है, और यहां तक कि जब ट्रांसफॉर्मर भाषा मॉडल को यादृच्छिक रूप से प्रारंभिक किया जाता है, तो यह कार्य-विशिष्ट प्रतिनिधित्व सीखने से पहले ही कारण प्रभावी उपस्थान खोजने में सक्षम होता है, जिसके परिणामस्वरूप यह बहस होती है कि क्या DAS व्याख्यात्मकता कार्यों के लिए प्रभावी और जिम्मेदार है।
DAS द्वारा प्रदान की गई अभिव्यक्तिपूर्णता सुझाव देती है कि यह दृष्टिकोण भाषा मॉडल के व्यवहार को नियंत्रित करने और नियंत्रित पीढ़ी के साथ-साथ जिम्मेदार संपादन पर काम करने के लिए एक आदर्श उपकरण हो सकता है। इसलिए, भाषा मॉडल को नीचे के कार्यों के लिए अनुकूलित करने के लिए, ReFT फ्रेमवर्क वितरित हस्तक्षेप ऑपरेशन का उपयोग करके एक नई पैरामीटर-कुशल विधि बनाता है। इसके अलावा, ReFT विधि हस्तक्षेप का एक सेट है, और फ्रेमवर्क यह सुनिश्चित करता है कि किसी भी दो हस्तक्षेपों के लिए जो एक ही परत पर काम करते हैं, हस्तक्षेप स्थितियाँ अलग-अलग होनी चाहिए, जिसके साथ सभी हस्तक्षेप कार्यों के पैरामीटर स्वतंत्र रहते हैं। इसके परिणामस्वरूप, ReFT एक सामान्य फ्रेमवर्क है जो मॉडल के फॉरवर्ड पास के दौरान छुपे हुए प्रतिनिधित्वों पर हस्तक्षेप को शामिल करता है।
ReFT: प्रयोग और परिणाम
अपने प्रदर्शन का मूल्यांकन करने के लिए मौजूदा PeFT फ्रेमवर्क के खिलाफ, ReFT फ्रेमवर्क चार विविध प्राकृतिक भाषा प्रसंस्करण बेंचमार्क पर प्रयोग करता है, और 20 से अधिक डेटासेट को कवर करता है, जिसका प्राथमिक उद्देश्य विभिन्न परिदृश्यों में LoReFT फ्रेमवर्क के प्रदर्शन का एक समृद्ध चित्र प्रदान करना है। इसके अलावा, जब LoReFT फ्रेमवर्क को वास्तविक जीवन में लागू किया जाता है, तो डेवलपर्स को यह तय करना होगा कि कितने हस्तक्षेप सीखने हैं और प्रत्येक को कहाँ और किन परतों पर लागू करना है। इस कार्य को पूरा करने के लिए, ReFT फ्रेमवर्क चार हाइपरपैरामीटर को ट्यून करता है।
- हस्तक्षेप पर ध्यान केंद्रित करने के लिए प्रीफिक्स स्थितियों की संख्या।
- हस्तक्षेप पर ध्यान केंद्रित करने के लिए सuffix स्थितियों की संख्या।
- किन परतों पर हस्तक्षेप करना है।
- क्या एक ही परत में विभिन्न स्थितियों में हस्तक्षेप पैरामीटर को बांधना है या नहीं।
इस प्रकार, ReFT फ्रेमवर्क हाइपरपैरामीटर खोज स्थान को सरल करता है, और यह सुनिश्चित करता है कि केवल एक निश्चित अतिरिक्त अनुमान लागत है जो प्रॉम्प्ट की लंबाई के साथ नहीं बढ़ती है।

उपरोक्त तालिका LLaMA-7B और LLaMA-13B फ्रेमवर्क की सटीकता की तुलना 8 सामान्य ज्ञान तर्क डेटासेट पर मौजूदा PeFT मॉडल के साथ करती है। जैसा कि देखा जा सकता है, LoReFT मॉडल मौजूदा PeFT दृष्टिकोणों की तुलना में एक सभ्य मार्जिन से बेहतर प्रदर्शन करता है,尽管 इसके पास बहुत कम पैरामीटर हैं, जिसमें तीन रनों का औसत प्रदर्शन अलग-अलग पैरामीटर बीज के साथ LoReFT मॉडल के लिए रिपोर्ट किया जाता है। param(%) की गणना आधार बड़े मॉडल के कुल पैरामीटर की संख्या से प्रशिक्षण योग्य पैरामीटर की संख्या को विभाजित करके की जाती है।

उपरोक्त तालिका LLaMA-7B और LLaMA-13B फ्रेमवर्क की सटीकता की तुलना 4 अलग-अलग अंकगणित तर्क डेटासेट पर मौजूदा PeFT मॉडल के साथ सारांशित करती है, जिसमें फ्रेमवर्क तीन रनों का औसत प्रदर्शन अलग-अलग यादृच्छिक बीज के साथ रिपोर्ट करता है। जैसा कि देखा जा सकता है,尽管 इसके पास बहुत कम params(%) हैं, LoReFT फ्रेमवर्क मौजूदा PeFT फ्रेमवर्क की तुलना में एक महत्वपूर्ण मार्जिन से बेहतर प्रदर्शन करता है।

उपरोक्त तालिका RoBERTa-base और RoBERTa-large फ्रेमवर्क की सटीकता की तुलना GLUE बेंचमार्क पर मौजूदा PeFT मॉडल के साथ सारांशित करती है, जिसमें फ्रेमवर्क पांच रनों का औसत प्रदर्शन अलग-अलग यादृच्छिक बीज के साथ रिपोर्ट करता है। जैसा कि देखा जा सकता है,尽管 इसके पास बहुत कम params(%) हैं, LoReFT फ्रेमवर्क मौजूदा PeFT फ्रेमवर्क की तुलना में एक महत्वपूर्ण मार्जिन से बेहतर प्रदर्शन करता है।
अंतिम विचार
इस लेख में, हमने LoReFT के बारे में बात की है, जो मौजूदा PeFT फ्रेमवर्क का एक शक्तिशाली विकल्प है जो चार अलग-अलग डोमेन से बेंचमार्क पर मजबूत प्रदर्शन प्रदान करता है, जबकि पिछले राज्य के कला PeFT मॉडल की तुलना में 50 गुना अधिक कुशल है। पूर्व-प्रशिक्षित बड़े मॉडल अक्सर नए डोमेन या कार्यों के लिए उपयोग किए जाने के लिए फाइन-ट्यून किए जाते हैं, और फाइन-ट्यूनिंग प्रक्रिया के दौरान, एक एकल आधार मॉडल को कई कार्यों के लिए अनुकूलित किया जा सकता है даже जब केवल थोड़ा सा इन-डोमेन डेटा मॉडल के लिए उपलब्ध होता है। हालांकि, पूरे मॉडल को फाइन-ट्यून करने की प्रक्रिया संसाधन-कुशल है, और महंगी है, विशेष रूप से भाषा मॉडल के लिए जो कि एक महत्वपूर्ण रूप से उच्च संख्या में पैरामीटर हैं। पैरामीटर-कुशल फाइन-ट्यूनिंग या PeFT विधियाँ पूरे मॉडल को फाइन-ट्यून करने से जुड़े उच्च लागतों को कम करने के लिए कुछ वजनों को अद्यतन करके मॉडल को अनुकूलित करने का प्रस्ताव करती हैं, जो प्रशिक्षण समय को कम करने में मदद करता है और साथ ही साथ मेमोरी उपयोग को भी कम करता है। नोटably, LoReFT सामान्य ज्ञान तर्क, निर्देश-अनुसरण, और प्राकृतिक भाषा समझ में सबसे मजबूत PeFT के खिलाफ राज्य के कला प्रदर्शन स्थापित करता है।












