рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
Uni-MoE: рд╕реНрдХреЗрд▓рд┐рдВрдЧ рдпреВрдирд┐рдлрд╛рдЗрдб рдорд▓реНрдЯреАрдореЙрдбрд▓ рдПрд▓рдПрд▓рдПрдо рдХреЗ рд╕рд╛рде рдорд┐рдХреНрд╕рдЪрд░ рдСрдл рдПрдХреНрд╕рдкрд░реНрдЯ
हाल के वर्षों में, मल्टीमॉडल लार्ज लैंग्वेज मॉडल्स या एमएलएलएम की वास्तुकला और प्रदर्शन में हुई प्रगति ने स्केलेबल डेटा और मॉडल्स के महत्व को प्रदर्शित किया है ताकि प्रदर्शन में सुधार किया जा सके। हालांकि यह दृष्टिकोण प्रदर्शन में सुधार करता है, यह महत्वपूर्ण कम्प्यूटेशनल लागतें लेता है जो इस तरह के दृष्टिकोण की व्यावहारिकता और उपयोगिता को सीमित करता है। वर्षों से, मिक्सचर ऑफ एक्सपर्ट या मोए मॉडल्स एक सफल विकल्प के रूप में उभरे हैं ताकि छवि-पाठ और बड़े भाषा मॉडल्स को कुशलता से स्केल किया जा सके, क्योंकि मिक्सचर ऑफ एक्सपर्ट मॉडल्स में महत्वपूर्ण रूप से कम कम्प्यूटेशनल लागतें होती हैं और मजबूत प्रदर्शन होता है। हालांकि, उनके फायदों के बावजूद, मिक्सचर ऑफ मॉडल्स बड़े भाषा मॉडल्स को स्केल करने के लिए आदर्श दृष्टिकोण नहीं हैं क्योंकि वे अक्सर कम एक्सपर्ट्स और सीमित मॉडलिटीज़ को शामिल करते हैं, जिससे अनुप्रयोगों को सीमित किया जाता है।
वर्तमान दृष्टिकोणों द्वारा सामना की जाने वाली बाधाओं का सामना करने और बड़े भाषा मॉडल्स को कुशलता से स्केल करने के लिए, इस लेख में, हम Uni-MoE के बारे में चर्चा करेंगे, जो एक यूनिफाइड मल्टीमॉडल बड़ा भाषा मॉडल है जिसमें मोए या मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर है जो विभिन्न मॉडलिटीज़ और एक्सपर्ट्स को संभालने में सक्षम है। Uni-MoE फ्रेमवर्क बड़े भाषा मॉडल्स के भीतर एक स्पार्स मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर को लागू करता है ताकि प्रशिक्षण और अनुमान प्रक्रिया को अधिक कुशल बनाने के लिए एक्सपर्ट-स्तर के मॉडल पैरेललिज़म और डेटा पैरेललिज़म का उपयोग किया जा सके। इसके अलावा, सामान्यीकरण और मल्टी-एक्सपर्ट सहयोग को बढ़ाने के लिए, Uni-MoE फ्रेमवर्क एक प्रगतिशील प्रशिक्षण रणनीति प्रस्तुत करता है जो तीन अलग-अलग प्रक्रियाओं का संयोजन है। पहले, Uni-MoE फ्रेमवर्क विभिन्न क्रॉस-मॉडलिटी डेटा के साथ विभिन्न कनेक्टर्स का उपयोग करके क्रॉस-मॉडलिटी संरेखण प्राप्त करता है। दूसरा, Uni-MoE फ्रेमवर्क क्रॉस-मॉडलिटी निर्देश डेटा के साथ मॉडलिटी-विशिष्ट एक्सपर्ट्स को प्रशिक्षित करके एक्सपर्ट घटकों की प्राथमिकता को सक्रिय करता है। अंत में, Uni-MoE मॉडल मिश्रित मल्टीमॉडल निर्देश डेटा पर LoRA या लो-रैंक एडाप्टेशन लर्निंग तकनीक को लागू करता है ताकि मॉडल को ट्यून किया जा सके। जब निर्देश-ट्यून्ड Uni-MoE फ्रेमवर्क का मूल्यांकन एक व्यापक सेट मल्टीमॉडल डेटासेट पर किया गया, तो व्यापक प्रयोगात्मक परिणामों ने Uni-MoE फ्रेमवर्क के प्रमुख लाभ को मिश्रित मल्टीमॉडल डेटासेट को संभालने में महत्वपूर्ण रूप से प्रदर्शन पूर्वाग्रह को कम करने में प्रदर्शित किया। परिणामों ने मल्टी-एक्सपर्ट सहयोग और सामान्यीकरण में भी महत्वपूर्ण सुधार का संकेत दिया।
यह लेख Uni-MoE फ्रेमवर्क को गहराई से कवर करने का उद्देश्य रखता है, और हम फ्रेमवर्क के तंत्र, विधियों, आर्किटेक्चर के साथ-साथ राज्य-ऑफ-द-आर्ट फ्रेमवर्क के साथ इसकी तुलना करते हैं। तो आइए शुरू करें।
Uni-MoE: स्केलिंग यूनिफाइड मल्टीमॉडल एलएलएम
पिछले कुछ वर्षों में, खुले स्रोत मल्टीमॉडल बड़े भाषा मॉडल्स, जिनमें LLama और InstantBlip शामिल हैं, ने छवि-पाठ समझने वाले कार्यों में उल्लेखनीय सफलता और प्रगति को रेखांकित किया है। इसके अलावा, एआई समुदाय एक यूनिफाइड मल्टीमॉडल बड़े भाषा मॉडल का निर्माण करने के लिए सक्रिय रूप से काम कर रहा है जो छवि, पाठ, ऑडियो, वीडियो और अधिक जैसी विभिन्न मॉडलिटीज़ को समाहित कर सकता है, पारंपरिक छवि-पाठ परिदृश्य से परे। खुले स्रोत समुदाय द्वारा मल्टीमॉडल बड़े भाषा मॉडल्स की क्षमताओं को बढ़ाने के लिए एक सामान्य दृष्टिकोण विजन फाउंडेशन मॉडल्स के आकार को बढ़ाना है, और इसे बड़े भाषा मॉडल्स के साथ एकीकृत करना है जिसमें अरबों पैरामीटर होते हैं, और विभिन्न मल्टीमॉडल डेटासेट का उपयोग करके निर्देश ट्यूनिंग को बढ़ाना है। इन विकासों ने मल्टीमॉडल बड़े भाषा मॉडल्स की क्षमता को प्रदर्शित किया है कि वे कई मॉडलिटीज़ को तर्क और प्रसंस्करण कर सकते हैं, जो मल्टीमॉडल निर्देश डेटा और मॉडल स्केलेबिलिटी को बढ़ाने के महत्व को दर्शाता है।
हालांकि मॉडल को स्केल करना एक परीक्षण किया गया दृष्टिकोण है जो महत्वपूर्ण परिणाम देता है, मॉडल को स्केल करना प्रशिक्षण और अनुमान प्रक्रिया दोनों के लिए एक कम्प्यूटेशनल रूप से महंगी प्रक्रिया है।
उच्च ओवरहेड कम्प्यूटेशनल लागत के मुद्दे का सामना करने के लिए, खुले स्रोत समुदाय बड़े भाषा मॉडल्स में मोए या मिक्सचर ऑफ एक्सपर्ट मॉडल आर्किटेक्चर को एकीकृत करने की ओर बढ़ रहा है ताकि प्रशिक्षण और अनुमान की दक्षता में सुधार किया जा सके। इसके विपरीत, मल्टीमॉडल बड़े भाषा और बड़े भाषा मॉडल्स जो प्रत्येक इनपुट को संसाधित करने के लिए सभी उपलब्ध पैरामीटर्स का उपयोग करते हैं, जिससे एक घना कम्प्यूटेशनल दृष्टिकोण होता है, मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर केवल उपयोगकर्ताओं को प्रत्येक इनपुट के लिए एक एक्सपर्ट पैरामीटर्स के उपसेट को सक्रिय करने की आवश्यकता होती है। परिणामस्वरूप, मिक्सचर ऑफ एक्सपर्ट दृष्टिकोण बड़े मॉडल्स की दक्षता में सुधार करने के लिए एक व्यवहार्य मार्ग के रूप में उभरता है बिना व्यापक पैरामीटर सक्रियण और उच्च ओवरहेड कम्प्यूटेशनल लागत के। हालांकि मौजूदा कार्यों ने मिक्सचर ऑफ एक्सपर्ट मॉडल्स को टेक्स्ट-ओनली और टेक्स्ट-इमेज बड़े मॉडल्स के निर्माण में एकीकृत करने में सफलतापूर्वक कार्यान्वयन और एकीकरण को उजागर किया है, शोधकर्ता अभी तक मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर को विकसित करने की संभावना का पूरी तरह से अन्वेषण नहीं कर पाए हैं ताकि शक्तिशाली यूनिफाइड मल्टीमॉडल बड़े भाषा मॉडल्स का निर्माण किया जा सके।
Uni-MoE एक मल्टीमॉडल बड़ा भाषा मॉडल है जो विभिन्न मॉडलिटीज़ को व्याख्या और प्रबंधन करने के प्रयास में स्पार्स मिक्सचर ऑफ एक्सपर्ट मॉडल्स का लाभ उठाता है। जैसा कि निम्नलिखित छवि में दिखाया गया है, Uni-MoE फ्रेमवर्क पहले विभिन्न मॉडलिटीज़ के एन्कोडिंग को मॉडलिटी-विशिष्ट एन्कोडर्स का उपयोग करके प्राप्त करता है, और फिर इन एन्कोडिंग को बड़े भाषा मॉडल्स के भाषा प्रतिनिधित्व स्थान में विभिन्न डिज़ाइन किए गए कनेक्टर्स का उपयोग करके मैप करता है। इन कनेक्टर्स में एक प्रशिक्षित ट्रांसफॉर्मर मॉडल होता है जिसमें आउटपुट प्रतिनिधित्व को दистिल और प्रोजेक्ट करने के लिए एक रैखिक प्रोजेक्शन होता है। Uni-MoE फ्रेमवर्क तब घने बड़े भाषा मॉडल के आंतरिक ब्लॉक के भीतर एक स्पार्स मिक्सचर ऑफ एक्सपर्ट लेयर्स की शुरुआत करता है। परिणामस्वरूप, प्रत्येक मिक्सचर ऑफ एक्सपर्ट आधारित ब्लॉक में सभी मॉडलिटीज़ के लिए एक साझा स्व-ध्यान层, एक स्पार्स राउटर जो टोकन स्तर पर विशेषज्ञता के आवंटन के लिए है, और विभिन्न एक्सपर्ट्स होते हैं जो फीडफॉरवर्ड नेटवर्क पर आधारित होते हैं। इस दृष्टिकोण के कारण, Uni-MoE फ्रेमवर्क विभिन्न मॉडलिटीज़ को समझने में सक्षम है, जिनमें भाषण, ऑडियो, पाठ, वीडियो, छवि शामिल हैं, और केवल आंशिक पैरामीटर्स को सक्रिय करने की आवश्यकता होती है अनुमान के दौरान।

इसके अलावा, मल्टी-एक्सपर्ट सहयोग और सामान्यीकरण को बढ़ाने के लिए, Uni-MoE फ्रेमवर्क एक तीन-चरण प्रशिक्षण रणनीति को लागू करता है। पहले चरण में, फ्रेमवर्क विभिन्न छवि/ऑडियो/भाषण से भाषा जोड़ियों का उपयोग करके संबंधित कनेक्टर को प्रशिक्षित करता है बड़े भाषा मॉडल के भाषा स्थान में एकीकृत मॉडलिटी प्रतिनिधित्व के कारण। दूसरे, Uni-MoE मॉडल मॉडलिटी-विशिष्ट एक्सपर्ट्स को क्रॉस-मॉडलिटी डेटासेट का उपयोग करके प्रशिक्षित करता है ताकि प्रत्येक एक्सपर्ट की कुशलता को उसके संबंधित डोमेन में परिष्कृत किया जा सके। तीसरे चरण में, Uni-MoE फ्रेमवर्क इन प्रशिक्षित एक्सपर्ट्स को बड़े भाषा मॉडल के मिक्सचर ऑफ एक्सपर्ट लेयर में एकीकृत करता है, और फिर मिश्रित मल्टीमॉडल निर्देश डेटा के साथ पूरे Uni-MoE फ्रेमवर्क को प्रशिक्षित करता है। प्रशिक्षण लागत को और कम करने के लिए, Uni-MoE फ्रेमवर्क स्व-ध्यान層 और पूर्व-ट्यून किए गए एक्सपर्ट्स को फाइन-ट्यून करने के लिए LoRA लर्निंग दृष्टिकोण को नियोजित करता है।
Uni-MoE : विधियाँ और आर्किटेक्चर
Uni-MoE फ्रेमवर्क के मूल प्रेरणा मल्टीमॉडल बड़े भाषा मॉडल्स के प्रशिक्षण और अनुमान लागत के साथ-साथ मिक्सचर ऑफ एक्सपर्ट मॉडल्स की दक्षता है। निम्नलिखित आकृति में Uni-MoE फ्रेमवर्क द्वारा लागू की गई आर्किटेक्चर का प्रतिनिधित्व किया गया है, जो विभिन्न मॉडलिटीज़ के लिए व्यक्तिगत एन्कोडर्स और उनके संबंधित मॉडलिटी कनेक्टर्स को शामिल करता है।

Uni-MoE फ्रेमवर्क तब मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर को बड़े भाषा मॉडल के कोर ब्लॉक के साथ एकीकृत करता है, जो प्रशिक्षण और अनुमान प्रक्रिया दोनों की कुल दक्षता में सुधार करने के लिए एक महत्वपूर्ण प्रक्रिया है। Uni-MoE फ्रेमवर्क एक स्पार्स राउटिंग तंत्र को लागू करके इसे प्राप्त करता है। Uni-MoE फ्रेमवर्क की समग्र प्रशिक्षण प्रक्रिया को तीन चरणों में विभाजित किया जा सकता है: क्रॉस-मॉडलिटी संरेखण, मॉडलिटी-विशिष्ट एक्सपर्ट्स का प्रशिक्षण, और विभिन्न मल्टीमॉडल निर्देश डेटासेट का उपयोग करके Uni-MoE को ट्यून करना। विभिन्न मॉडलिटी इनपुट्स को एक लिंग्विस्टिक प्रारूप में परिवर्तित करने के लिए, Uni-MoE फ्रेमवर्क LLaVA, एक पूर्व-प्रशिक्षित दृश्य-भाषा फ्रेमवर्क पर निर्मित है। LLaVA बेस मॉडल में CLIP को अपने दृश्य एन्कोडर के रूप में एकीकृत करता है, साथ ही एक रैखिक प्रोजेक्शन परत जो छवि विशेषताओं को उनके संबंधित नरम छवि टोकन में परिवर्तित करती है। इसके अलावा, वीडियो सामग्री को संसाधित करने के लिए, Uni-MoE फ्रेमवर्क प्रत्येक वीडियो से आठ प्रतिनिधि फ्रेम्स का चयन करता है और उन्हें वीडियो टोकन में परिवर्तित करता है average पूलिंग द्वारा उनके छवि या फ्रेम-आधारित प्रतिनिधित्व को एकत्रित करने के लिए। ऑडियो कार्यों के लिए, Uni-MoE फ्रेमवर्क दो एन्कोडर्स, BEATs और Whisper एन्कोडर को तैनात करता है ताकि विशेषता निष्कर्षण में सुधार किया जा सके। मॉडल तब ऑडियो विशेषता वेक्टर और निश्चित-लंबाई भाषण को दистिल करता है और उन्हें क्रमशः स्पीच टोकन और नरम ऑडियो में परिवर्तित करता है एक रैखिक प्रोजेक्शन परत के माध्यम से।
प्रशिक्षण रणनीति
Uni-MoE फ्रेमवर्क एक प्रगतिशील प्रशिक्षण रणनीति को प्रस्तुत करता है ताकि मॉडल को चरणबद्ध तरीके से विकसित किया जा सके। प्रगतिशील प्रशिक्षण रणनीति विभिन्न एक्सपर्ट्स की विशिष्ट क्षमताओं का लाभ उठाने, मल्टी-एक्सपर्ट सहयोग की दक्षता में सुधार करने और फ्रेमवर्क की समग्र सामान्यीकरण को बढ़ाने का प्रयास करती है। प्रशिक्षण प्रक्रिया को तीन चरणों में विभाजित किया जा सकता है ताकि मिक्सचर ऑफ एक्सपर्ट्स के साथ एकीकृत बड़े भाषा मॉडल की संरचना को वास्तविक बनाया जा सके।
चरण 1 : क्रॉस-मॉडलिटी संरेखण
पहले चरण में, Uni-MoE फ्रेमवर्क विभिन्न लिंग्विस्टिक्स और मॉडलिटीज़ के बीच कनेक्टिविटी स्थापित करने का प्रयास करता है। Uni-MoE फ्रेमवर्क विभिन्न क्रॉस-मॉडलिटी डेटा के साथ विभिन्न कनेक्टर्स का उपयोग करके इसे प्राप्त करता है। पहले प्रशिक्षण चरण का प्राथमिक उद्देश्य जनरेटिव एंट्रोपी हानि को कम करना है।

चरण 2: मॉडलिटी-विशिष्ट एक्सपर्ट्स का प्रशिक्षण
दूसरे चरण में, Uni-MoE फ्रेमवर्क एकल मॉडलिटी एक्सपर्ट्स को विकसित करने पर केंद्रित है जो विशिष्ट क्रॉस-मॉडलिटी डेटा पर मॉडल को प्रशिक्षित करके किया जाता है। प्राथमिक उद्देश्य प्रत्येक एक्सपर्ट की कुशलता को उसके संबंधित डोमेन में परिष्कृत करना है, जिससे मिक्सचर ऑफ एक्सपर्ट सिस्टम का समग्र प्रदर्शन विभिन्न मल्टीमॉडल डेटा पर बढ़ जाता है। इसके अलावा, Uni-MoE फ्रेमवर्क फीडफॉरवर्ड नेटवर्क्स को मॉडलिटी की विशेषताओं के साथ अधिक बारीकी से संरेखित करने के लिए ट्यून करता है, जबकि जनरेटिव एंट्रोपी हानि को प्राथमिक मेट्रिक प्रशिक्षण के रूप में बनाए रखता है।

चरण 3: Uni-MoE को ट्यून करना
तीसरे और अंतिम चरण में, Uni-MoE फ्रेमवर्क दूसरे चरण के दौरान ट्यून किए गए विशेषज्ञों के वजन को मिक्सचर ऑफ एक्सपर्ट लेयर्स में एकीकृत करता है। Uni-MoE फ्रेमवर्क तब मिश्रित मल्टीमॉडल निर्देश डेटा का उपयोग करके बड़े भाषा मॉडल्स को फाइन-ट्यून करता है। निम्नलिखित छवि में प्रशिक्षण प्रक्रिया की प्रगति को दर्शाया गया है।

मिक्सचर ऑफ एक्सपर्ट कॉन्फ़िगरेशन के बीच तुलनात्मक विश्लेषण से पता चला कि दूसरे प्रशिक्षण चरण के दौरान परिष्कृत एक्सपर्ट्स ने स्थिरता में सुधार किया और मिश्रित-मॉडल डेटासेट पर तेजी से अभिसरण प्राप्त किया। इसके अलावा, जटिल मल्टीमॉडल डेटा सहित पाठ, छवियों, ऑडियो, वीडियो वाले कार्यों पर, Uni-MoE फ्रेमवर्क ने दो एक्सपर्ट्स का उपयोग करने की तुलना में चार एक्सपर्ट्स का उपयोग करके अधिक सुसंगत प्रशिक्षण प्रदर्शन और कम लॉस विचरण प्रदर्शित किया।

Uni-MoE : प्रयोग और परिणाम
निम्नलिखित तालिका Uni-MoE फ्रेमवर्क के आर्किटेक्चरल विशिष्टताओं का सारांश प्रस्तुत करती है। Uni-MoE फ्रेमवर्क का प्राथमिक उद्देश्य, जो LLaMA-7B आर्किटेक्चर पर निर्मित है, मॉडल के आकार को स्केल करना है।

निम्नलिखित तालिका Uni-MoE फ्रेमवर्क के डिज़ाइन और अनुकूलन को विशेषज्ञता प्रशिक्षण कार्यों द्वारा निर्देशित किया गया है, जो एमएलपी परतों की क्षमताओं को परिष्कृत करने में महत्वपूर्ण हैं, जिससे उनकी विशेषज्ञता ज्ञान का लाभ लेकर मॉडल प्रदर्शन में सुधार होता है। Uni-MoE फ्रेमवर्क आठ एकल-मॉडलिटी एक्सपर्ट कार्यों को अंजाम देता है ताकि विभिन्न प्रशिक्षण विधियों के विभेदित प्रभावों को प्रदर्शित किया जा सके।

मॉडल विभिन्न मॉडल वेरिएंट्स के प्रदर्शन का मूल्यांकन करता है जो दो वीडियो-समझने, तीन ऑडियो-समझने और पांच भाषण-संबंधित कार्यों को शामिल करने वाले एक विविध सेट बेंचमार्क पर किया जाता है। पहले, मॉडल का मूल्यांकन भाषण-छवि और भाषण-पाठ कार्यों पर किया जाता है, और परिणाम निम्नलिखित तालिका में शामिल हैं।

जैसा कि देखा जा सकता है, पिछले बेसलाइन मॉडल्स ने भाषण समझने वाले कार्यों में कम परिणाम दिए हैं, जो छवि-भाषण तर्क कार्यों पर प्रदर्शन को प्रभावित करता है। परिणामों से पता चलता है कि मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर को पेश करने से मिश्रित ऑडियो-छवि तर्क कार्यों पर एमएलएलएम की सामान्यीकरण में सुधार हो सकता है। निम्नलिखित तालिका में छवि-पाठ समझने वाले कार्यों पर प्रयोगात्मक परिणाम प्रस्तुत किए गए हैं। जैसा कि देखा जा सकता है, Uni-MoE मॉडल्स के सर्वोत्तम परिणाम बेसलाइन से बेहतर हैं और फाइन-ट्यूनिंग कार्यों से औसतन 4 अंकों से अधिक हैं।

अंतिम विचार
इस लेख में, हमने Uni-MoE के बारे में चर्चा की है, जो एक यूनिफाइड मल्टीमॉडल बड़ा भाषा मॉडल है जिसमें मोए या मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर है जो विभिन्न मॉडलिटीज़ और एक्सपर्ट्स को संभालने में सक्षम है। Uni-MoE फ्रेमवर्क बड़े भाषा मॉडल्स के भीतर एक स्पार्स मिक्सचर ऑफ एक्सपर्ट आर्किटेक्चर को लागू करता है ताकि प्रशिक्षण और अनुमान प्रक्रिया को अधिक कुशल बनाने के लिए एक्सपर्ट-स्तर के मॉडल पैरेललिज़म और डेटा पैरेललिज़म का उपयोग किया जा सके। इसके अलावा, सामान्यीकरण और मल्टी-एक्सपर्ट सहयोग को बढ़ाने के लिए, Uni-MoE फ्रेमवर्क एक प्रगतिशील प्रशिक्षण रणनीति प्रस्तुत करता है जो तीन अलग-अलग प्रक्रियाओं का संयोजन है। पहले, Uni-MoE फ्रेमवर्क विभिन्न क्रॉस-मॉडलिटी डेटा के साथ विभिन्न कनेक्टर्स का उपयोग करके क्रॉस-मॉडलिटी संरेखण प्राप्त करता है। दूसरा, Uni-MoE फ्रेमवर्क क्रॉस-मॉडलिटी निर्देश डेटा के साथ मॉडलिटी-विशिष्ट एक्सपर्ट्स को प्रशिक्षित करके एक्सपर्ट घटकों की प्राथमिकता को सक्रिय करता है। अंत में, Uni-MoE मॉडल मिश्रित मल्टीमॉडल निर्देश डेटा पर LoRA या लो-रैंक एडाप्टेशन लर्निंग तकनीक को लागू करता है ताकि मॉडल को ट्यून किया जा सके।












