рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдорд┐рд╕реНрдЯреНрд░рд▓ рдПрдЖрдИ: рд▓рд╛рдорд╛ 2 рдХреЗ рдмeyond рдирдП рдмреЗрдВрдЪрдорд╛рд░реНрдХ рд╕реНрдерд╛рдкрд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдУрдкрди-рд╕реЛрд░реНрд╕ рд╕реНрдкреЗрд╕ рдореЗрдВ

बड़े भाषा मॉडल (LLM) हाल ही में केंद्र चरण पर ले लिया है, धन्यवाद आउटस्टैंडिंग प्रदर्शनकर्ता जैसे ChatGPT. जब मेटा ने अपने लामा मॉडल पेश किए, तो यह ओपन-सोर्स एलएलएम में रुचि को फिर से जगाया। उद्देश्य? सस्ते, ओपन-सोर्स एलएलएम बनाने के लिए जो शीर्ष-स्तरीय मॉडल जैसे जीपीटी -4 के समान हों, लेकिन बिना भारी मूल्य टैग या जटिलता के।
इस मिश्रण ने न केवल नए अवसर खोले हैं अनुसंधानकर्ताओं और विकासकर्ताओं के लिए, बल्कि प्राकृतिक भाषा प्रसंस्करण में तकनीकी प्रगति के लिए एक नए युग के मंच को भी तैयार किया है।
हाल ही में, जनरेटिव एआई स्टार्टअप्स ने फंडिंग में एक रोल पर हैं। साथ में 20 मिलियन डॉलर जुटाया, ओपन-सोर्स एआई को आकार देने के लिए। एंथ्रोपिक ने भी 450 मिलियन डॉलर का एक प्रभावशाली निवेश हासिल किया, और कोहेरे, गूगल क्लाउड के साथ साझेदारी में, 270 मिलियन डॉलर जून में इस साल सुरक्षित किया।
मिस्ट्रल 7बी की शुरुआत: आकार और उपलब्धता
मिस्ट्रल एआई, पेरिस में स्थित और गूगल के डीपमाइंड और मेटा के पूर्व छात्रों द्वारा सह-स्थापित, ने अपना पहला बड़ा भाषा मॉडल घोषित किया: मिस्ट्रल 7बी। यह मॉडल किसी को भी गिटहब से आसानी से डाउनलोड किया जा सकता है और यहां तक कि 13.4-गिगाबाइट टॉरेंट के माध्यम से भी।
इस स्टार्टअप ने रिकॉर्ड तोड़ सीड फंडिंग हासिल की इससे पहले कि वे उत्पाद बाजार में लाए। मिस्ट्रल एआई का पहला मॉडल 7 बिलियन पैरामीटर मॉडल लामा 2 13बी को सभी परीक्षणों में पार करता है और लामा 1 34बी को कई मापदंडों में मात देता है।
लामा 2 जैसे अन्य मॉडल की तुलना में, मिस्ट्रल 7बी समान या बेहतर क्षमताएं प्रदान करता है लेकिन कम गणनात्मक ओवरहेड के साथ। जबकि आधार मॉडल जैसे जीपीटी -4 अधिक हासिल कर सकते हैं, वे उच्च लागत और उपयोगकर्ता-मित्रता की कमी के साथ आते हैं क्योंकि वे मुख्य रूप से एपीआई के माध्यम से सुलभ होते हैं।
कोडिंग कार्यों के लिए, मिस्ट्रल 7बी कोडलामा 7बी को कड़ी चुनौती देता है। इसके अलावा, यह 13.4 जीबी में कॉम्पैक्ट होने के कारण मानक मशीनों पर चलने में सक्षम है।
इसके अलावा, मिस्ट्रल 7बी निर्देश, जो विशेष रूप से हगिंग फेस पर निर्देशात्मक डेटासेट के लिए ट्यून किया गया है, ने महान प्रदर्शन दिखाया है। यह एमटी-बेंच पर अन्य 7बी मॉडल से बेहतर प्रदर्शन करता है और 13बी चैट मॉडल के साथ कंधे से कंधा मिलाकर खड़ा है।

हगिंग फेस मिस्ट्रल 7बी उदाहरण
प्रदर्शन बेंचमार्किंग
एक विस्तृत प्रदर्शन विश्लेषण में, मिस्ट्रल 7बी को लामा 2 परिवार मॉडल के खिलाफ मापा गया था। परिणाम स्पष्ट थे: मिस्ट्रल 7बी ने सभी बेंचमार्क पर लामा 2 13बी को काफी पीछे छोड़ दिया। वास्तव में, यह लामा 34बी के प्रदर्शन को मिलाने में सफल रहा, विशेष रूप से कोड और तर्क बेंचमार्क में खड़ा है।
बेंचमार्क को कई श्रेणियों में विभाजित किया गया था, जैसे कि सामान्य ज्ञान तर्क, विश्व ज्ञान, पढ़ने की समझ, गणित, और कोड, अन्य। एक विशेष रूप से उल्लेखनीय अवलोकन मिस्ट्रल 7बी का लागत-प्रदर्शन मीट्रिक था, जिसे “समकक्ष मॉडल आकार” कहा जाता है। तर्क और समझ जैसे क्षेत्रों में, मिस्ट्रल 7बी ने लामा 2 मॉडल के तीन गुना आकार के समान प्रदर्शन प्रदर्शित किया, जो स्मृति में संभावित बचत और थ्रूपुट में वृद्धि का संकेत देता है। हालांकि, ज्ञान बेंचमार्क में, मिस्ट्रल 7बी लामा 2 13बी के साथ संरेखित था, जो संभवतः इसके पैरामीटर सीमाओं के कारण ज्ञान संपीड़न को प्रभावित करता है।
मिस्ट्रल 7बी मॉडल वास्तव में अधिकांश अन्य भाषा मॉडल से बेहतर क्या बनाता है?
ध्यान तंत्र को सरल बनाना
ध्यान तंत्र की बारीकियां तकनीकी हैं, लेकिन उनका मूल विचार अपेक्षाकृत सरल है। एक पुस्तक पढ़ने और महत्वपूर्ण वाक्यों को हाइलाइट करने की कल्पना करें; यह ध्यान तंत्र के समान है जो डेटा के विशिष्ट बिंदुओं को “हाइलाइट” या महत्व देता है।
भाषा मॉडल के संदर्भ में, ये तंत्र मॉडल को इनपुट डेटा के सबसे प्रासंगिक भागों पर ध्यान केंद्रित करने में सक्षम बनाते हैं, यह सुनिश्चित करते हुए कि आउटपुट सुसंगत और संदर्भ से सटीक है।
मानक ट्रांसफॉर्मर में, ध्यान स्कोर सूत्र के साथ गणना की जाती है:
इन स्कोर के लिए सूत्र में एक महत्वपूर्ण चरण शामिल है – क्यू और के का मैट्रिक्स गुणन। यहाँ की चुनौती यह है कि जैसे ही अनुक्रम की लंबाई बढ़ती है, दोनों मैट्रिक्स भी विस्तारित होते हैं, जिससे एक गणनात्मक रूप से गहन प्रक्रिया होती है। यह स्केलेबिलिटी चिंता मानक ट्रांसफॉर्मर को धीमा बनाने का एक प्रमुख कारण है, विशेष रूप से लंबे अनुक्रमों के साथ।

बहु-प्रश्न ध्यान (MQA) चीजों को तेज करता है एक ‘की-मूल्य’ सिर का उपयोग करके, लेकिन कभी-कभी गुणवत्ता का बलिदान देता है। अब, आप सोच सकते हैं, क्यों न MQA की गति के साथ बहु-सिर ध्यान की गुणवत्ता को जोड़ा जाए? यहीं पर समूहीकृत-प्रश्न ध्यान (GQA) आता है।
समूहीकृत-प्रश्न ध्यान (GQA)
जीक्यूए एक मध्यवर्ती समाधान है। एक या कई ‘की-मूल्य’ सिर का उपयोग करने के बजाय, यह उन्हें समूहित करता है। इस तरह, जीक्यूए विस्तृत बहु-सिर ध्यान के समान प्रदर्शन प्राप्त करता है लेकिन एमक्यूए की गति के साथ। मिस्ट्रल जैसे मॉडल के लिए, इसका अर्थ है कि गुणवत्ता से समझौता किए बिना कुशल प्रदर्शन।
स्लाइडिंग विंडो ध्यान (SWA)
स्लाइडिंग विंडो एक और तरीका है जो अनुक्रम ध्यान प्रसंस्करण में उपयोग किया जाता है। इस विधि में, प्रत्येक टोकन के चारों ओर एक निश्चित आकार की ध्यान विंडो का उपयोग किया जाता है। कई परतें इस विंडो वाले ध्यान को स्टैक करती हैं, शीर्ष परतें अंततः पूरे इनपुट से जानकारी को शामिल करने वाली एक व्यापक दृष्टि प्राप्त करती हैं। यह तंत्र कॉन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) में देखे जाने वाले रिसेप्टिव फील्ड के समान है।
दूसरी ओर, लॉन्गफॉर्मर मॉडल का “डिलेटेड स्लाइडिंग विंडो ध्यान”, जो स्लाइडिंग विंडो विधि के समान है, क्यू के टी मैट्रिक्स के केवल कुछ विकर्णों की गणना करता है। यह परिवर्तन परिणामस्वरूप मेमोरी उपयोग में रैखिक वृद्धि की ओर ले जाता है, न कि द्विगुणित, जिससे यह लंबे अनुक्रमों के लिए एक अधिक कुशल विधि बन जाती है।
मिस्ट्रल एआई की पारदर्शिता बनाम विकेंद्रीकरण में सुरक्षा चिंताएं
अपनी घोषणा में, मिस्ट्रल एआई ने पारदर्शिता पर जोर दिया यह बयान देकर: “कोई चाल नहीं, कोई प्रोप्राइटरी डेटा नहीं।” लेकिन इस समय उनका एकमात्र उपलब्ध मॉडल ‘मिस्ट्रल-7बी-व0.1’ एक प्रीट्रेन्ड बेस मॉडल है, जो किसी भी प्रश्न का उत्तर दे सकता है बिना मॉडरेशन के, जो संभावित सुरक्षा चिंताएं उठाता है। जबकि मॉडल जैसे जीपीटी और लामा के पास उत्तर देने पर विचार करने के लिए तंत्र हैं, मिस्ट्रल की पूरी तरह से विकेंद्रित प्रकृति का दुरुपयोग बुरे अभिनेता कर सकते हैं।
हालांकि, बड़े भाषा मॉडल का विकेंद्रीकरण अपने फायदे हैं। जबकि कुछ इसका दुरुपयोग कर सकते हैं, लोग इसकी शक्ति का उपयोग समाज के लिए अच्छे के लिए कर सकते हैं और सभी के लिए बुद्धिमत्ता को सुलभ बना सकते हैं।
तैनाती लचीलापन
एक हाइलाइट यह है कि मिस्ट्रल 7बी अपाचे 2.0 लाइसेंस के तहत उपलब्ध है। इसका अर्थ है कि इसका उपयोग करने में कोई वास्तविक बाधा नहीं है – चाहे आप इसका उपयोग व्यक्तिगत उद्देश्यों के लिए कर रहे हों, एक बड़े निगम के लिए, या यहां तक कि एक सरकारी इकाई के लिए भी। आपको बस इसके लिए सही सिस्टम की आवश्यकता है, या आपको क्लाउड संसाधनों में निवेश करने की आवश्यकता हो सकती है।
जबकि अन्य लाइसेंस जैसे सरल एमआईटी लाइसेंस और सहयोगी सीसी बाय-एसए-4.0 हैं, जो डेरिवेटिव के लिए श्रेय और समान लाइसेंसिंग की मांग करता है, अपाचे 2.0 बड़े पैमाने पर प्रयासों के लिए एक मजबूत आधार प्रदान करता है।
अंतिम विचार
ओपन-सोर्स बड़े भाषा मॉडल जैसे मिस्ट्रल 7बी का उदय एआई उद्योग में एक महत्वपूर्ण बदलाव को दर्शाता है, जो उच्च गुणवत्ता वाले भाषा मॉडल को व्यापक दर्शकों के लिए सुलभ बनाता है। मिस्ट्रल एआई के नवाचारी दृष्टिकोण, जैसे कि समूहीकृत-प्रश्न ध्यान और स्लाइडिंग विंडो ध्यान, कुशल प्रदर्शन का वादा करते हैं जो गुणवत्ता से समझौता नहीं करता है।
मिस्ट्रल की विकेंद्रित प्रकृति कुछ चुनौतियां प्रस्तुत करती है, लेकिन इसकी लचीलापन और ओपन-सोर्स लाइसेंसिंग एआई को लोकतांत्रिक बनाने की संभावना को रेखांकित करते हैं। जैसे ही परिदृश्य विकसित होता है, ध्यान इन मॉडलों की शक्ति को नैतिक विचारों और सुरक्षा तंत्र के साथ संतुलित करने पर होगा।
मिस्ट्रल के लिए आगे क्या है? 7बी मॉडल केवल शुरुआत था। टीम जल्द ही बड़े मॉडल लॉन्च करने का लक्ष्य रखती है। यदि ये नए मॉडल 7बी के प्रदर्शन को मिलाने में सफल होते हैं, तो मिस्ट्रल उद्योग में शीर्ष खिलाड़ी के रूप में तेजी से उभर सकता है, सभी अपने पहले वर्ष के भीतर।

















