рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
Mistral AI рдХрд╛ рдирд╡реАрдирддрдо рдорд┐рдХреНрд╕рдЪрд░ рдСрдл рдПрдХреНрд╕рдкрд░реНрдЯреНрд╕ (MoE) 8x7B рдореЙрдбрд▓

जो एक पेरिस स्थित ओपन-सोर्स मॉडल स्टार्टअप है, ने अपने नवीनतम बड़े भाषा मॉडल (LLM), MoE 8x7B को जारी करके परंपराओं को चुनौती दी है, जिसे एक सरल टोरेंट लिंक के माध्यम से जारी किया गया है। यह गूगल के पारंपरिक दृष्टिकोण से अलग है, जो अपने जेमिनी रिलीज के साथ है, जो एआई समुदाय के भीतर चर्चा और उत्साह को बढ़ावा दे रहा है।
Mistral AI का रिलीज के लिए दृष्टिकोण हमेशा से असामान्य रहा है। अक्सर पेपर, ब्लॉग या प्रेस रिलीज के सामान्य साथियों को छोड़ देते हुए, उनकी रणनीति एआई समुदाय का ध्यान आकर्षित करने में अद्वितीय रूप से प्रभावी रही है।
हाल ही में, कंपनी ने एक उल्लेखनीय $2 बिलियन मूल्यांकन हासिल किया है, जो एंड्रीसेन होरोविट्ज द्वारा नेतृत्व वाले फंडिंग राउंड के बाद है। यह फंडिंग राउंड ऐतिहासिक था, जो यूरोपीय इतिहास में सबसे बड़े $118 मिलियन सीड राउंड के साथ एक रिकॉर्ड स्थापित किया है। फंडिंग सफलताओं के अलावा, Mistral AI यूरोपीय संघ के एआई अधिनियम के आसपास की चर्चाओं में सक्रिय रूप से शामिल है, जो ओपन-सोर्स एआई में विनियमन में कमी की वकालत कर रहा है।
क्यों MoE 8x7B ध्यान आकर्षित कर रहा है
एक “स्केल्ड-डाउन जीपीटी-4” के रूप में वर्णित, मिक्स्ट्रल 8x7B एक मिक्सचर ऑफ एक्सपर्ट्स (MoE) फ्रेमवर्क का उपयोग करता है जिसमें आठ विशेषज्ञ हैं। प्रत्येक विशेषज्ञ में 111B पैरामीटर हैं, जो 55B साझा ध्यान पैरामीटर के साथ जुड़े हुए हैं, जो प्रति मॉडल कुल 166B पैरामीटर देते हैं। यह डिज़ाइन विकल्प महत्वपूर्ण है क्योंकि यह प्रत्येक टोकन के अनुमान में केवल दो विशेषज्ञों को शामिल करने की अनुमति देता है, जो अधिक कुशल और केंद्रित एआई प्रसंस्करण की ओर एक बदलाव को दर्शाता है।
मिक्स्ट्रल की एक प्रमुख विशेषता इसकी व्यापक संदर्भ को संभालने की क्षमता है, जो 32,000 टोकन तक है, जो जटिल कार्यों को संभालने के लिए पर्याप्त स्कोप प्रदान करती है। मॉडल की बहुसांस्कृतिक क्षमताओं में अंग्रेजी, फ्रेंच, इतालवी, जर्मन और स्पेनिश के लिए मजबूत समर्थन शामिल है, जो एक वैश्विक डेवलपर समुदाय को पूरा करता है।
मिक्स्ट्रल का पूर्व-प्रशिक्षण खुले वेब से सourced डेटा का उपयोग करता है, जिसमें विशेषज्ञों और राउटर्स दोनों के लिए एक ही समय में प्रशिक्षण दृष्टिकोण है। यह विधि यह सुनिश्चित करती है कि मॉडल न केवल अपने पैरामीटर स्थान में विशाल है, बल्कि विशाल डेटा की बारीकियों के लिए भी बारीकी से ट्यून किया गया है जिसे यह उजागर किया गया है।

मिक्स्ट्रल 8x7B एक प्रभावशाली स्कोर प्राप्त करता है
मिक्स्ट्रल 8x7B एलएलएमए 2 70B और जीपीटी-3.5 को पार करता है, विशेष रूप से एमबीपीपी कार्य में 60.7% की सफलता दर के साथ, जो अपने समकक्षों की तुलना में काफी अधिक है। यहां तक कि एमटी-बेंच जैसे कार्य-आधारित मॉडल के लिए भी तैयार किए गए, मिक्स्ट्रल 8x7B एक प्रभावशाली स्कोर प्राप्त करता है, जो जीपीटी-3.5 के साथ लगभग मेल खाता है
मिक्सचर ऑफ एक्सपर्ट्स (MoE) फ्रेमवर्क को समझना
मिक्सचर ऑफ एक्सपर्ट्स (MoE) मॉडल, जो हाल के दिनों में मिस्ट्रल एआई के मोए 8×7बी जैसे स्टेट-ऑफ-द-आर्ट भाषा मॉडल में इसके एकीकरण के कारण ध्यान आकर्षित कर रहा है, वास्तव में कई वर्षों पूर्व की मूलभूत अवधारणाओं में इसकी जड़ें हैं। आइए इस विचार की उत्पत्ति को प्रमुख शोध पत्रों के माध्यम से देखें।
मोए की अवधारणा
मिक्सचर ऑफ एक्सपर्ट्स (MoE) न्यूरल नेटवर्क आर्किटेक्चर में एक परिवर्तन का प्रतिनिधित्व करता है। पारंपरिक मॉडल के विपरीत जो सभी प्रकार के डेटा को संसाधित करने के लिए एक एकल, समान नेटवर्क का उपयोग करते हैं, मोए एक अधिक विशेषज्ञ और मॉड्यूलर दृष्टिकोण अपनाता है। यह कई ‘विशेषज्ञ’ नेटवर्क से बना होता है, प्रत्येक विशिष्ट प्रकार के डेटा या कार्यों को संभालने के लिए डिज़ाइन किया गया है, जिसे एक ‘गेटिंग नेटवर्क’ द्वारा पर्यवेक्षण किया जाता है जो डायनामिक रूप से इनपुट डेटा को सबसे उपयुक्त विशेषज्ञ को निर्देशित करता है।

एक मिक्सचर ऑफ एक्सपर्ट्स (मोए) लेयर एक पुनरावृत्ति भाषा मॉडल के भीतर निहित है (स्रोत)
उपरोक्त छवि एक मोए लेयर का एक उच्च-स्तरीय दृश्य प्रस्तुत करती है जो एक भाषा मॉडल के भीतर निहित है। इसका सार, मोए लेयर में कई फीड-फॉरवर्ड सब-नेटवर्क शामिल हैं, जिन्हें ‘विशेषज्ञ’ कहा जाता है, प्रत्येक डेटा के विभिन्न पहलुओं को संसाधित करने में विशेषज्ञता प्राप्त करने की संभावना है। एक गेटिंग नेटवर्क, जो आरेख में हाइलाइट किया गया है, यह निर्धारित करता है कि इन विशेषज्ञों में से कौन सा संयोजन एक दिए गए इनपुट के लिए शामिल किया जाता है। यह सशर्त सक्रियण नेटवर्क को अपनी क्षमता को काफी बढ़ाने की अनुमति देता है बिना एक संबंधित वृद्धि के साथ गणनात्मक मांग में।

ट्रांसफॉर्मर एन्कोडर के साथ मोए लेयर्स (स्रोत)
दूसरी छवि ऊपर एक पारंपरिक ट्रांसफॉर्मर एन्कोडर की तुलना में एक मोए लेयर द्वारा बढ़ाया गया है। ट्रांसफॉर्मर आर्किटेक्चर, जो व्यापक रूप से भाषा संबंधित कार्यों में इसकी प्रभावशीलता के लिए जाना जाता है, पारंपरिक रूप से स्व-ध्यान और फीड-फॉरवर्ड लेयर्स से बना होता है जो क्रम में ढेर होते हैं। मोए लेयर्स का परिचय देने से इनमें से कुछ फीड-फॉरवर्ड लेयर्स को बदल दिया जाता है, जो मॉडल को अधिक प्रभावी ढंग से क्षमता के संबंध में स्केल करने की अनुमति देता है।
इस बढ़ाया मॉडल में, मोए लेयर्स को कई उपकरणों में शार्ड किया जाता है, जो एक मॉडल-समानांतर दृष्टिकोण को प्रदर्शित करता है। यह बहुत बड़े मॉडल को स्केल करने के लिए महत्वपूर्ण है, क्योंकि यह गणनात्मक भार और मेमोरी आवश्यकताओं को उपकरणों के समूह में वितरित करने की अनुमति देता है, जैसे जीपीयू या टीपीयू। यह शार्डिंग बड़े पैमाने पर कंप्यूट क्लस्टर पर सैकड़ों अरब से अधिक पैरामीटर वाले मॉडल को प्रशिक्षित और तैनात करने के लिए आवश्यक है।
स्पार्स मोए दृष्टिकोण के साथ निर्देश ट्यूनिंग ऑन एलएलएम
“स्पार्स मिक्सचर-ऑफ-एक्सपर्ट्स (मोए) फॉर स्केलेबल लैंग्वेज मॉडलिंग” शीर्षक वाला पत्र एक नवाचारी दृष्टिकोण पर चर्चा करता है जो मिक्सचर ऑफ एक्सपर्ट्स आर्किटेक्चर को निर्देश ट्यूनिंग तकनीकों के साथ एकीकृत करके बड़े भाषा मॉडल (एलएलएम) में सुधार करने के लिए है।
यह एक सामान्य चुनौती को उजागर करता है जहां मोए मॉडल समान गणनात्मक क्षमता वाले घने मॉडल की तुलना में विशिष्ट कार्यों के लिए फाइन-ट्यूनिंग के दौरान कम प्रदर्शन करते हैं क्योंकि सामान्य पूर्व-प्रशिक्षण और कार्य-विशिष्ट फाइन-ट्यूनिंग के बीच विसंगतियों के कारण।
निर्देश ट्यूनिंग एक प्रशिक्षण पद्धति है जिसमें मॉडल को प्राकृतिक भाषा निर्देशों का पालन करने में सुधार करने के लिए परिष्कृत किया जाता है, प्रभावी रूप से अपने कार्य प्रदर्शन में सुधार करता है। पत्र सुझाव देता है कि मोए मॉडल निर्देश ट्यूनिंग के साथ संयोजन में उल्लेखनीय सुधार प्रदर्शित करते हैं, विशेष रूप से अपने घने समकक्षों की तुलना में। यह तकनीक मॉडल के पूर्व-प्रशिक्षित प्रतिनिधित्व को निर्देशों का पालन करने के लिए संरेखित करती है, जिससे महत्वपूर्ण प्रदर्शन में वृद्धि होती है।
शोधकर्ताओं ने तीन प्रयोगात्मक सेटअप में अध्ययन किया, जो यह दर्शाता है कि मोए मॉडल प्रारंभ में सीधे कार्य-विशिष्ट फाइन-ट्यूनिंग में घने मॉडल की तुलना में कम प्रदर्शन करते हैं। हालांकि, जब निर्देश ट्यूनिंग लागू की जाती है, तो मोए मॉडल उत्कृष्ट प्रदर्शन करते हैं, विशेष रूप से जब आगे कार्य-विशिष्ट फाइन-ट्यूनिंग के साथ पूरक होते हैं। यह सुझाव देता है कि निर्देश ट्यूनिंग मोए मॉडल के लिए एक महत्वपूर्ण चरण है ताकि वे घने मॉडल की तुलना में डाउनस्ट्रीम कार्यों पर बेहतर प्रदर्शन कर सकें।
यह फ्लैन-मोए32बी मॉडल की भी शुरुआत करता है, जो इन अवधारणाओं के सफल अनुप्रयोग का प्रदर्शन करता है। विशेष रूप से, यह फ्लैन-पाल्म62बी, एक घने मॉडल की तुलना में बेंचमार्क कार्यों पर उत्कृष्ट प्रदर्शन करता है, जबकि केवल एक-तिहाई गणनात्मक संसाधनों का उपयोग करता है। यह स्पार्स मोए मॉडल और निर्देश ट्यूनिंग के संयोजन की क्षमता को प्रदर्शित करता है ताकि एलएलएम की दक्षता और प्रदर्शन के लिए नए मानक स्थापित किए जा सकें।
वास्तविक दुनिया के परिदृश्यों में मिक्सचर ऑफ एक्सपर्ट्स का कार्यान्वयन
मोए मॉडल की बहुमुखी प्रतिभा उन्हें विभिन्न अनुप्रयोगों के लिए उपयुक्त बनाती है:
- प्राकृतिक भाषा प्रसंस्करण (एनएलपी): मोए मॉडल मानव भाषा की बारीकियों और जटिलताओं को अधिक प्रभावी ढंग से संभाल सकते हैं, जो उन्हें उन्नत एनएलपी कार्यों के लिए उपयुक्त बनाता है।
- छवि और वीडियो प्रसंस्करण: उच्च-रिज़ॉल्यूशन प्रसंस्करण के कार्यों में, मोए छवियों या वीडियो फ्रेम्स के विभिन्न पहलुओं को प्रबंधित कर सकता है, दोनों गुणवत्ता और प्रसंस्करण गति में सुधार करता है।
- कस्टमाइज्ड एआई समाधान: व्यवसाय और शोधकर्ता मोए मॉडल को विशिष्ट कार्यों के लिए अनुकूलित कर सकते हैं, जिससे अधिक लक्षित और प्रभावी एआई समाधान संभव हो जाते हैं।
चुनौतियां और विचार
मोए मॉडल कई लाभ प्रदान करते हैं, लेकिन वे अद्वितीय चुनौतियां भी प्रस्तुत करते हैं:
- प्रशिक्षण और ट्यूनिंग में जटिलता: मोए मॉडल का वितरित स्वरूप प्रशिक्षण प्रक्रिया को जटिल बना सकता है, जिसमें विशेषज्ञों और गेटिंग नेटवर्क को सावधानीपूर्वक संतुलित और ट्यून करने की आवश्यकता होती है।
- संसाधन प्रबंधन: मोए मॉडल के लाभों को अधिकतम करने के लिए विभिन्न विशेषज्ञों में संसाधनों का कुशलता से प्रबंधन करना आवश्यक है।
न्यूरल नेटवर्क में मोए लेयर्स को एकीकृत करना, विशेष रूप से भाषा मॉडल के क्षेत्र में, गणनात्मक प्रतिबंधों के कारण पहले से असंभव मॉडल के आकार तक स्केल करने का एक मार्ग प्रदान करता है। मोए लेयर्स द्वारा संभव की गई सशर्त गणना संसाधनों के वितरण को अधिक कुशल बनाने की अनुमति देती है, जिससे बड़े और अधिक क्षमतावान मॉडल को प्रशिक्षित करना संभव हो जाता है। जैसा कि हम अपने एआई सिस्टम से अधिक मांग करते हैं, मोए-लैस ट्रांसफॉर्मर जैसे आर्किटेक्चर विभिन्न डोमेन में जटिल, बड़े पैमाने पर कार्यों को संभालने के लिए मानक बनने की संभावना है।













