Connect with us

Mistral AI рдХрд╛ рдирд╡реАрдирддрдо рдорд┐рдХреНрд╕рдЪрд░ рдСрдл рдПрдХреНрд╕рдкрд░реНрдЯреНрд╕ (MoE) 8x7B рдореЙрдбрд▓

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

Mistral AI рдХрд╛ рдирд╡реАрдирддрдо рдорд┐рдХреНрд╕рдЪрд░ рдСрдл рдПрдХреНрд╕рдкрд░реНрдЯреНрд╕ (MoE) 8x7B рдореЙрдбрд▓

mm
Mixture of Experts mistral ai

Mistral AI

जो एक पेरिस स्थित ओपन-सोर्स मॉडल स्टार्टअप है, ने अपने नवीनतम बड़े भाषा मॉडल (LLM), MoE 8x7B को जारी करके परंपराओं को चुनौती दी है, जिसे एक सरल टोरेंट लिंक के माध्यम से जारी किया गया है। यह गूगल के पारंपरिक दृष्टिकोण से अलग है, जो अपने जेमिनी रिलीज के साथ है, जो एआई समुदाय के भीतर चर्चा और उत्साह को बढ़ावा दे रहा है।

Mistral AI का रिलीज के लिए दृष्टिकोण हमेशा से असामान्य रहा है। अक्सर पेपर, ब्लॉग या प्रेस रिलीज के सामान्य साथियों को छोड़ देते हुए, उनकी रणनीति एआई समुदाय का ध्यान आकर्षित करने में अद्वितीय रूप से प्रभावी रही है।

हाल ही में, कंपनी ने एक उल्लेखनीय $2 बिलियन मूल्यांकन हासिल किया है, जो एंड्रीसेन होरोविट्ज द्वारा नेतृत्व वाले फंडिंग राउंड के बाद है। यह फंडिंग राउंड ऐतिहासिक था, जो यूरोपीय इतिहास में सबसे बड़े $118 मिलियन सीड राउंड के साथ एक रिकॉर्ड स्थापित किया है। फंडिंग सफलताओं के अलावा, Mistral AI यूरोपीय संघ के एआई अधिनियम के आसपास की चर्चाओं में सक्रिय रूप से शामिल है, जो ओपन-सोर्स एआई में विनियमन में कमी की वकालत कर रहा है।

क्यों MoE 8x7B ध्यान आकर्षित कर रहा है

एक “स्केल्ड-डाउन जीपीटी-4” के रूप में वर्णित, मिक्स्ट्रल 8x7B एक मिक्सचर ऑफ एक्सपर्ट्स (MoE) फ्रेमवर्क का उपयोग करता है जिसमें आठ विशेषज्ञ हैं। प्रत्येक विशेषज्ञ में 111B पैरामीटर हैं, जो 55B साझा ध्यान पैरामीटर के साथ जुड़े हुए हैं, जो प्रति मॉडल कुल 166B पैरामीटर देते हैं। यह डिज़ाइन विकल्प महत्वपूर्ण है क्योंकि यह प्रत्येक टोकन के अनुमान में केवल दो विशेषज्ञों को शामिल करने की अनुमति देता है, जो अधिक कुशल और केंद्रित एआई प्रसंस्करण की ओर एक बदलाव को दर्शाता है।

मिक्स्ट्रल की एक प्रमुख विशेषता इसकी व्यापक संदर्भ को संभालने की क्षमता है, जो 32,000 टोकन तक है, जो जटिल कार्यों को संभालने के लिए पर्याप्त स्कोप प्रदान करती है। मॉडल की बहुसांस्कृतिक क्षमताओं में अंग्रेजी, फ्रेंच, इतालवी, जर्मन और स्पेनिश के लिए मजबूत समर्थन शामिल है, जो एक वैश्विक डेवलपर समुदाय को पूरा करता है।

मिक्स्ट्रल का पूर्व-प्रशिक्षण खुले वेब से सourced डेटा का उपयोग करता है, जिसमें विशेषज्ञों और राउटर्स दोनों के लिए एक ही समय में प्रशिक्षण दृष्टिकोण है। यह विधि यह सुनिश्चित करती है कि मॉडल न केवल अपने पैरामीटर स्थान में विशाल है, बल्कि विशाल डेटा की बारीकियों के लिए भी बारीकी से ट्यून किया गया है जिसे यह उजागर किया गया है।

рдорд┐рдХреНрд╕реНрдЯреНрд░рд▓ 8x7B рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рд╕реНрдХреЛрд░ рдкреНрд░рд╛рдкреНрдд рдХрд░рддрд╛ рд╣реИ

मिक्स्ट्रल 8x7B एक प्रभावशाली स्कोर प्राप्त करता है

मिक्स्ट्रल 8x7B एलएलएमए 2 70B और जीपीटी-3.5 को पार करता है, विशेष रूप से एमबीपीपी कार्य में 60.7% की सफलता दर के साथ, जो अपने समकक्षों की तुलना में काफी अधिक है। यहां तक कि एमटी-बेंच जैसे कार्य-आधारित मॉडल के लिए भी तैयार किए गए, मिक्स्ट्रल 8x7B एक प्रभावशाली स्कोर प्राप्त करता है, जो जीपीटी-3.5 के साथ लगभग मेल खाता है

मिक्सचर ऑफ एक्सपर्ट्स (MoE) फ्रेमवर्क को समझना

मिक्सचर ऑफ एक्सपर्ट्स (MoE) मॉडल, जो हाल के दिनों में मिस्ट्रल एआई के मोए 8×7बी जैसे स्टेट-ऑफ-द-आर्ट भाषा मॉडल में इसके एकीकरण के कारण ध्यान आकर्षित कर रहा है, वास्तव में कई वर्षों पूर्व की मूलभूत अवधारणाओं में इसकी जड़ें हैं। आइए इस विचार की उत्पत्ति को प्रमुख शोध पत्रों के माध्यम से देखें।

मोए की अवधारणा

मिक्सचर ऑफ एक्सपर्ट्स (MoE) न्यूरल नेटवर्क आर्किटेक्चर में एक परिवर्तन का प्रतिनिधित्व करता है। पारंपरिक मॉडल के विपरीत जो सभी प्रकार के डेटा को संसाधित करने के लिए एक एकल, समान नेटवर्क का उपयोग करते हैं, मोए एक अधिक विशेषज्ञ और मॉड्यूलर दृष्टिकोण अपनाता है। यह कई ‘विशेषज्ञ’ नेटवर्क से बना होता है, प्रत्येक विशिष्ट प्रकार के डेटा या कार्यों को संभालने के लिए डिज़ाइन किया गया है, जिसे एक ‘गेटिंग नेटवर्क’ द्वारा पर्यवेक्षण किया जाता है जो डायनामिक रूप से इनपुट डेटा को सबसे उपयुक्त विशेषज्ञ को निर्देशित करता है।

рдПрдХ рдорд┐рдХреНрд╕рдЪрд░ рдСрдл рдПрдХреНрд╕рдкрд░реНрдЯреНрд╕ (рдореЛрдП) рд▓реЗрдпрд░ рдПрдХ рдкреБрдирд░рд╛рд╡реГрддреНрддрд┐ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдХреЗ рднреАрддрд░ рдирд┐рд╣рд┐рдд рд╣реИ

एक मिक्सचर ऑफ एक्सपर्ट्स (मोए) लेयर एक पुनरावृत्ति भाषा मॉडल के भीतर निहित है (स्रोत)

 

उपरोक्त छवि एक मोए लेयर का एक उच्च-स्तरीय दृश्य प्रस्तुत करती है जो एक भाषा मॉडल के भीतर निहित है। इसका सार, मोए लेयर में कई फीड-फॉरवर्ड सब-नेटवर्क शामिल हैं, जिन्हें ‘विशेषज्ञ’ कहा जाता है, प्रत्येक डेटा के विभिन्न पहलुओं को संसाधित करने में विशेषज्ञता प्राप्त करने की संभावना है। एक गेटिंग नेटवर्क, जो आरेख में हाइलाइट किया गया है, यह निर्धारित करता है कि इन विशेषज्ञों में से कौन सा संयोजन एक दिए गए इनपुट के लिए शामिल किया जाता है। यह सशर्त सक्रियण नेटवर्क को अपनी क्षमता को काफी बढ़ाने की अनुमति देता है बिना एक संबंधित वृद्धि के साथ गणनात्मक मांग में।

 

ट्रांसफॉर्मर एन्कोडर के साथ मोए लेयर्स (स्रोत)

दूसरी छवि ऊपर एक पारंपरिक ट्रांसफॉर्मर एन्कोडर की तुलना में एक मोए लेयर द्वारा बढ़ाया गया है। ट्रांसफॉर्मर आर्किटेक्चर, जो व्यापक रूप से भाषा संबंधित कार्यों में इसकी प्रभावशीलता के लिए जाना जाता है, पारंपरिक रूप से स्व-ध्यान और फीड-फॉरवर्ड लेयर्स से बना होता है जो क्रम में ढेर होते हैं। मोए लेयर्स का परिचय देने से इनमें से कुछ फीड-फॉरवर्ड लेयर्स को बदल दिया जाता है, जो मॉडल को अधिक प्रभावी ढंग से क्षमता के संबंध में स्केल करने की अनुमति देता है।

इस बढ़ाया मॉडल में, मोए लेयर्स को कई उपकरणों में शार्ड किया जाता है, जो एक मॉडल-समानांतर दृष्टिकोण को प्रदर्शित करता है। यह बहुत बड़े मॉडल को स्केल करने के लिए महत्वपूर्ण है, क्योंकि यह गणनात्मक भार और मेमोरी आवश्यकताओं को उपकरणों के समूह में वितरित करने की अनुमति देता है, जैसे जीपीयू या टीपीयू। यह शार्डिंग बड़े पैमाने पर कंप्यूट क्लस्टर पर सैकड़ों अरब से अधिक पैरामीटर वाले मॉडल को प्रशिक्षित और तैनात करने के लिए आवश्यक है।

स्पार्स मोए दृष्टिकोण के साथ निर्देश ट्यूनिंग ऑन एलएलएम

स्पार्स मिक्सचर-ऑफ-एक्सपर्ट्स (मोए) फॉर स्केलेबल लैंग्वेज मॉडलिंग” शीर्षक वाला पत्र एक नवाचारी दृष्टिकोण पर चर्चा करता है जो मिक्सचर ऑफ एक्सपर्ट्स आर्किटेक्चर को निर्देश ट्यूनिंग तकनीकों के साथ एकीकृत करके बड़े भाषा मॉडल (एलएलएम) में सुधार करने के लिए है।

यह एक सामान्य चुनौती को उजागर करता है जहां मोए मॉडल समान गणनात्मक क्षमता वाले घने मॉडल की तुलना में विशिष्ट कार्यों के लिए फाइन-ट्यूनिंग के दौरान कम प्रदर्शन करते हैं क्योंकि सामान्य पूर्व-प्रशिक्षण और कार्य-विशिष्ट फाइन-ट्यूनिंग के बीच विसंगतियों के कारण।

निर्देश ट्यूनिंग एक प्रशिक्षण पद्धति है जिसमें मॉडल को प्राकृतिक भाषा निर्देशों का पालन करने में सुधार करने के लिए परिष्कृत किया जाता है, प्रभावी रूप से अपने कार्य प्रदर्शन में सुधार करता है। पत्र सुझाव देता है कि मोए मॉडल निर्देश ट्यूनिंग के साथ संयोजन में उल्लेखनीय सुधार प्रदर्शित करते हैं, विशेष रूप से अपने घने समकक्षों की तुलना में। यह तकनीक मॉडल के पूर्व-प्रशिक्षित प्रतिनिधित्व को निर्देशों का पालन करने के लिए संरेखित करती है, जिससे महत्वपूर्ण प्रदर्शन में वृद्धि होती है।

शोधकर्ताओं ने तीन प्रयोगात्मक सेटअप में अध्ययन किया, जो यह दर्शाता है कि मोए मॉडल प्रारंभ में सीधे कार्य-विशिष्ट फाइन-ट्यूनिंग में घने मॉडल की तुलना में कम प्रदर्शन करते हैं। हालांकि, जब निर्देश ट्यूनिंग लागू की जाती है, तो मोए मॉडल उत्कृष्ट प्रदर्शन करते हैं, विशेष रूप से जब आगे कार्य-विशिष्ट फाइन-ट्यूनिंग के साथ पूरक होते हैं। यह सुझाव देता है कि निर्देश ट्यूनिंग मोए मॉडल के लिए एक महत्वपूर्ण चरण है ताकि वे घने मॉडल की तुलना में डाउनस्ट्रीम कार्यों पर बेहतर प्रदर्शन कर सकें।

рдореЛрдП рдкрд░ рдирд┐рд░реНрджреЗрд╢ рдЯреНрдпреВрдирд┐рдВрдЧ рдХрд╛ рдкреНрд░рднрд╛рд╡

मोए पर निर्देश ट्यूनिंग का प्रभाव

यह फ्लैन-मोए32बी मॉडल की भी शुरुआत करता है, जो इन अवधारणाओं के सफल अनुप्रयोग का प्रदर्शन करता है। विशेष रूप से, यह फ्लैन-पाल्म62बी, एक घने मॉडल की तुलना में बेंचमार्क कार्यों पर उत्कृष्ट प्रदर्शन करता है, जबकि केवल एक-तिहाई गणनात्मक संसाधनों का उपयोग करता है। यह स्पार्स मोए मॉडल और निर्देश ट्यूनिंग के संयोजन की क्षमता को प्रदर्शित करता है ताकि एलएलएम की दक्षता और प्रदर्शन के लिए नए मानक स्थापित किए जा सकें।

वास्तविक दुनिया के परिदृश्यों में मिक्सचर ऑफ एक्सपर्ट्स का कार्यान्वयन

मोए मॉडल की बहुमुखी प्रतिभा उन्हें विभिन्न अनुप्रयोगों के लिए उपयुक्त बनाती है:

  • प्राकृतिक भाषा प्रसंस्करण (एनएलपी): मोए मॉडल मानव भाषा की बारीकियों और जटिलताओं को अधिक प्रभावी ढंग से संभाल सकते हैं, जो उन्हें उन्नत एनएलपी कार्यों के लिए उपयुक्त बनाता है।
  • छवि और वीडियो प्रसंस्करण: उच्च-रिज़ॉल्यूशन प्रसंस्करण के कार्यों में, मोए छवियों या वीडियो फ्रेम्स के विभिन्न पहलुओं को प्रबंधित कर सकता है, दोनों गुणवत्ता और प्रसंस्करण गति में सुधार करता है।
  • कस्टमाइज्ड एआई समाधान: व्यवसाय और शोधकर्ता मोए मॉडल को विशिष्ट कार्यों के लिए अनुकूलित कर सकते हैं, जिससे अधिक लक्षित और प्रभावी एआई समाधान संभव हो जाते हैं।

चुनौतियां और विचार

मोए मॉडल कई लाभ प्रदान करते हैं, लेकिन वे अद्वितीय चुनौतियां भी प्रस्तुत करते हैं:

  • प्रशिक्षण और ट्यूनिंग में जटिलता: मोए मॉडल का वितरित स्वरूप प्रशिक्षण प्रक्रिया को जटिल बना सकता है, जिसमें विशेषज्ञों और गेटिंग नेटवर्क को सावधानीपूर्वक संतुलित और ट्यून करने की आवश्यकता होती है।
  • संसाधन प्रबंधन: मोए मॉडल के लाभों को अधिकतम करने के लिए विभिन्न विशेषज्ञों में संसाधनों का कुशलता से प्रबंधन करना आवश्यक है।

न्यूरल नेटवर्क में मोए लेयर्स को एकीकृत करना, विशेष रूप से भाषा मॉडल के क्षेत्र में, गणनात्मक प्रतिबंधों के कारण पहले से असंभव मॉडल के आकार तक स्केल करने का एक मार्ग प्रदान करता है। मोए लेयर्स द्वारा संभव की गई सशर्त गणना संसाधनों के वितरण को अधिक कुशल बनाने की अनुमति देती है, जिससे बड़े और अधिक क्षमतावान मॉडल को प्रशिक्षित करना संभव हो जाता है। जैसा कि हम अपने एआई सिस्टम से अधिक मांग करते हैं, मोए-लैस ट्रांसफॉर्मर जैसे आर्किटेक्चर विभिन्न डोमेन में जटिल, बड़े पैमाने पर कार्यों को संभालने के लिए मानक बनने की संभावना है।

рдореИрдВ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рдЖрдХрд░реНрд╖рдХ рджреБрдирд┐рдпрд╛ рдореЗрдВ рдЦреБрдж рдХреЛ рдбреВрдмрд╛ рд░рд╣рд╛ рд╣реВрдВред рдореЗрд░рд╛ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдореЗрд░реА рд▓рдЧрд╛рддрд╛рд░ рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬреЛ рдПрдХ рдХреНрд╖реЗрддреНрд░ рд╣реИ рдЬрд┐рд╕реЗ рдореИрдВ рдЖрдЧреЗ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред