कृत्रिम बुद्धिमत्ता

मिस्ट्रल एआई: लामा 2 के बeyond नए बेंचमार्क स्थापित करने वाले ओपन-सोर्स स्पेस में

प्रकाशित 3 अक्टूबर 2023

अपडेट किया गया 22 मई 2026

Aayush Mittal मित्तल

बड़े भाषा मॉडल (LLM) हाल ही में केंद्र चरण पर ले लिया है, धन्यवाद आउटस्टैंडिंग प्रदर्शनकर्ता जैसे ChatGPT. जब मेटा ने अपने लामा मॉडल पेश किए, तो यह ओपन-सोर्स एलएलएम में रुचि को फिर से जगाया। उद्देश्य? सस्ते, ओपन-सोर्स एलएलएम बनाने के लिए जो शीर्ष-स्तरीय मॉडल जैसे जीपीटी -4 के समान हों, लेकिन बिना भारी मूल्य टैग या जटिलता के।

इस मिश्रण ने न केवल नए अवसर खोले हैं अनुसंधानकर्ताओं और विकासकर्ताओं के लिए, बल्कि प्राकृतिक भाषा प्रसंस्करण में तकनीकी प्रगति के लिए एक नए युग के मंच को भी तैयार किया है।

हाल ही में, जनरेटिव एआई स्टार्टअप्स ने फंडिंग में एक रोल पर हैं। साथ में 20 मिलियन डॉलर जुटाया, ओपन-सोर्स एआई को आकार देने के लिए। एंथ्रोपिक ने भी 450 मिलियन डॉलर का एक प्रभावशाली निवेश हासिल किया, और कोहेरे, गूगल क्लाउड के साथ साझेदारी में, 270 मिलियन डॉलर जून में इस साल सुरक्षित किया।

मिस्ट्रल 7बी की शुरुआत: आकार और उपलब्धता

मिस्ट्रल एआई, पेरिस में स्थित और गूगल के डीपमाइंड और मेटा के पूर्व छात्रों द्वारा सह-स्थापित, ने अपना पहला बड़ा भाषा मॉडल घोषित किया: मिस्ट्रल 7बी। यह मॉडल किसी को भी गिटहब से आसानी से डाउनलोड किया जा सकता है और यहां तक कि 13.4-गिगाबाइट टॉरेंट के माध्यम से भी।

इस स्टार्टअप ने रिकॉर्ड तोड़ सीड फंडिंग हासिल की इससे पहले कि वे उत्पाद बाजार में लाए। मिस्ट्रल एआई का पहला मॉडल 7 बिलियन पैरामीटर मॉडल लामा 2 13बी को सभी परीक्षणों में पार करता है और लामा 1 34बी को कई मापदंडों में मात देता है।

लामा 2 जैसे अन्य मॉडल की तुलना में, मिस्ट्रल 7बी समान या बेहतर क्षमताएं प्रदान करता है लेकिन कम गणनात्मक ओवरहेड के साथ। जबकि आधार मॉडल जैसे जीपीटी -4 अधिक हासिल कर सकते हैं, वे उच्च लागत और उपयोगकर्ता-मित्रता की कमी के साथ आते हैं क्योंकि वे मुख्य रूप से एपीआई के माध्यम से सुलभ होते हैं।

कोडिंग कार्यों के लिए, मिस्ट्रल 7बी कोडलामा 7बी को कड़ी चुनौती देता है। इसके अलावा, यह 13.4 जीबी में कॉम्पैक्ट होने के कारण मानक मशीनों पर चलने में सक्षम है।

इसके अलावा, मिस्ट्रल 7बी निर्देश, जो विशेष रूप से हगिंग फेस पर निर्देशात्मक डेटासेट के लिए ट्यून किया गया है, ने महान प्रदर्शन दिखाया है। यह एमटी-बेंच पर अन्य 7बी मॉडल से बेहतर प्रदर्शन करता है और 13बी चैट मॉडल के साथ कंधे से कंधा मिलाकर खड़ा है।

हगिंग फेस मिस्ट्रल 7बी उदाहरण

प्रदर्शन बेंचमार्किंग

एक विस्तृत प्रदर्शन विश्लेषण में, मिस्ट्रल 7बी को लामा 2 परिवार मॉडल के खिलाफ मापा गया था। परिणाम स्पष्ट थे: मिस्ट्रल 7बी ने सभी बेंचमार्क पर लामा 2 13बी को काफी पीछे छोड़ दिया। वास्तव में, यह लामा 34बी के प्रदर्शन को मिलाने में सफल रहा, विशेष रूप से कोड और तर्क बेंचमार्क में खड़ा है।

बेंचमार्क को कई श्रेणियों में विभाजित किया गया था, जैसे कि सामान्य ज्ञान तर्क, विश्व ज्ञान, पढ़ने की समझ, गणित, और कोड, अन्य। एक विशेष रूप से उल्लेखनीय अवलोकन मिस्ट्रल 7बी का लागत-प्रदर्शन मीट्रिक था, जिसे “समकक्ष मॉडल आकार” कहा जाता है। तर्क और समझ जैसे क्षेत्रों में, मिस्ट्रल 7बी ने लामा 2 मॉडल के तीन गुना आकार के समान प्रदर्शन प्रदर्शित किया, जो स्मृति में संभावित बचत और थ्रूपुट में वृद्धि का संकेत देता है। हालांकि, ज्ञान बेंचमार्क में, मिस्ट्रल 7बी लामा 2 13बी के साथ संरेखित था, जो संभवतः इसके पैरामीटर सीमाओं के कारण ज्ञान संपीड़न को प्रभावित करता है।

मिस्ट्रल 7बी मॉडल वास्तव में अधिकांश अन्य भाषा मॉडल से बेहतर क्या बनाता है?

ध्यान तंत्र को सरल बनाना

ध्यान तंत्र की बारीकियां तकनीकी हैं, लेकिन उनका मूल विचार अपेक्षाकृत सरल है। एक पुस्तक पढ़ने और महत्वपूर्ण वाक्यों को हाइलाइट करने की कल्पना करें; यह ध्यान तंत्र के समान है जो डेटा के विशिष्ट बिंदुओं को “हाइलाइट” या महत्व देता है।

भाषा मॉडल के संदर्भ में, ये तंत्र मॉडल को इनपुट डेटा के सबसे प्रासंगिक भागों पर ध्यान केंद्रित करने में सक्षम बनाते हैं, यह सुनिश्चित करते हुए कि आउटपुट सुसंगत और संदर्भ से सटीक है।

मानक ट्रांसफॉर्मर में, ध्यान स्कोर सूत्र के साथ गणना की जाती है:

ट्रांसफॉर्मर ध्यान सूत्र

इन स्कोर के लिए सूत्र में एक महत्वपूर्ण चरण शामिल है – क्यू और के का मैट्रिक्स गुणन। यहाँ की चुनौती यह है कि जैसे ही अनुक्रम की लंबाई बढ़ती है, दोनों मैट्रिक्स भी विस्तारित होते हैं, जिससे एक गणनात्मक रूप से गहन प्रक्रिया होती है। यह स्केलेबिलिटी चिंता मानक ट्रांसफॉर्मर को धीमा बनाने का एक प्रमुख कारण है, विशेष रूप से लंबे अनुक्रमों के साथ।

ट्रांसफॉर्मर ध्यान तंत्र मॉडल को इनपुट डेटा के विशिष्ट भागों पर ध्यान केंद्रित करने में मदद करते हैं। आमतौर पर, ये तंत्र ‘सिर’ का उपयोग ध्यान प्रबंधन के लिए करते हैं। आपके पास जितने अधिक सिर हैं, उतना ही विशिष्ट ध्यान होगा, लेकिन यह जटिल और धीमा भी हो जाता है। ट्रांसफॉर्मर और ध्यान तंत्र के बारे में गहराई से जानें यहाँ。

बहु-प्रश्न ध्यान (MQA) चीजों को तेज करता है एक ‘की-मूल्य’ सिर का उपयोग करके, लेकिन कभी-कभी गुणवत्ता का बलिदान देता है। अब, आप सोच सकते हैं, क्यों न MQA की गति के साथ बहु-सिर ध्यान की गुणवत्ता को जोड़ा जाए? यहीं पर समूहीकृत-प्रश्न ध्यान (GQA) आता है।

समूहीकृत-प्रश्न ध्यान (GQA)

समूहीकृत-प्रश्न ध्यान

जीक्यूए एक मध्यवर्ती समाधान है। एक या कई ‘की-मूल्य’ सिर का उपयोग करने के बजाय, यह उन्हें समूहित करता है। इस तरह, जीक्यूए विस्तृत बहु-सिर ध्यान के समान प्रदर्शन प्राप्त करता है लेकिन एमक्यूए की गति के साथ। मिस्ट्रल जैसे मॉडल के लिए, इसका अर्थ है कि गुणवत्ता से समझौता किए बिना कुशल प्रदर्शन।

स्लाइडिंग विंडो ध्यान (SWA)

स्लाइडिंग विंडो एक और तरीका है जो अनुक्रम ध्यान प्रसंस्करण में उपयोग किया जाता है। इस विधि में, प्रत्येक टोकन के चारों ओर एक निश्चित आकार की ध्यान विंडो का उपयोग किया जाता है। कई परतें इस विंडो वाले ध्यान को स्टैक करती हैं, शीर्ष परतें अंततः पूरे इनपुट से जानकारी को शामिल करने वाली एक व्यापक दृष्टि प्राप्त करती हैं। यह तंत्र कॉन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) में देखे जाने वाले रिसेप्टिव फील्ड के समान है।

दूसरी ओर, लॉन्गफॉर्मर मॉडल का “डिलेटेड स्लाइडिंग विंडो ध्यान”, जो स्लाइडिंग विंडो विधि के समान है, क्यू के टी मैट्रिक्स के केवल कुछ विकर्णों की गणना करता है। यह परिवर्तन परिणामस्वरूप मेमोरी उपयोग में रैखिक वृद्धि की ओर ले जाता है, न कि द्विगुणित, जिससे यह लंबे अनुक्रमों के लिए एक अधिक कुशल विधि बन जाती है।

मिस्ट्रल एआई की पारदर्शिता बनाम विकेंद्रीकरण में सुरक्षा चिंताएं

अपनी घोषणा में, मिस्ट्रल एआई ने पारदर्शिता पर जोर दिया यह बयान देकर: “कोई चाल नहीं, कोई प्रोप्राइटरी डेटा नहीं।” लेकिन इस समय उनका एकमात्र उपलब्ध मॉडल ‘मिस्ट्रल-7बी-व0.1’ एक प्रीट्रेन्ड बेस मॉडल है, जो किसी भी प्रश्न का उत्तर दे सकता है बिना मॉडरेशन के, जो संभावित सुरक्षा चिंताएं उठाता है। जबकि मॉडल जैसे जीपीटी और लामा के पास उत्तर देने पर विचार करने के लिए तंत्र हैं, मिस्ट्रल की पूरी तरह से विकेंद्रित प्रकृति का दुरुपयोग बुरे अभिनेता कर सकते हैं।

हालांकि, बड़े भाषा मॉडल का विकेंद्रीकरण अपने फायदे हैं। जबकि कुछ इसका दुरुपयोग कर सकते हैं, लोग इसकी शक्ति का उपयोग समाज के लिए अच्छे के लिए कर सकते हैं और सभी के लिए बुद्धिमत्ता को सुलभ बना सकते हैं।

तैनाती लचीलापन

एक हाइलाइट यह है कि मिस्ट्रल 7बी अपाचे 2.0 लाइसेंस के तहत उपलब्ध है। इसका अर्थ है कि इसका उपयोग करने में कोई वास्तविक बाधा नहीं है – चाहे आप इसका उपयोग व्यक्तिगत उद्देश्यों के लिए कर रहे हों, एक बड़े निगम के लिए, या यहां तक कि एक सरकारी इकाई के लिए भी। आपको बस इसके लिए सही सिस्टम की आवश्यकता है, या आपको क्लाउड संसाधनों में निवेश करने की आवश्यकता हो सकती है।

जबकि अन्य लाइसेंस जैसे सरल एमआईटी लाइसेंस और सहयोगी सीसी बाय-एसए-4.0 हैं, जो डेरिवेटिव के लिए श्रेय और समान लाइसेंसिंग की मांग करता है, अपाचे 2.0 बड़े पैमाने पर प्रयासों के लिए एक मजबूत आधार प्रदान करता है।

अंतिम विचार

ओपन-सोर्स बड़े भाषा मॉडल जैसे मिस्ट्रल 7बी का उदय एआई उद्योग में एक महत्वपूर्ण बदलाव को दर्शाता है, जो उच्च गुणवत्ता वाले भाषा मॉडल को व्यापक दर्शकों के लिए सुलभ बनाता है। मिस्ट्रल एआई के नवाचारी दृष्टिकोण, जैसे कि समूहीकृत-प्रश्न ध्यान और स्लाइडिंग विंडो ध्यान, कुशल प्रदर्शन का वादा करते हैं जो गुणवत्ता से समझौता नहीं करता है।

मिस्ट्रल की विकेंद्रित प्रकृति कुछ चुनौतियां प्रस्तुत करती है, लेकिन इसकी लचीलापन और ओपन-सोर्स लाइसेंसिंग एआई को लोकतांत्रिक बनाने की संभावना को रेखांकित करते हैं। जैसे ही परिदृश्य विकसित होता है, ध्यान इन मॉडलों की शक्ति को नैतिक विचारों और सुरक्षा तंत्र के साथ संतुलित करने पर होगा।

मिस्ट्रल के लिए आगे क्या है? 7बी मॉडल केवल शुरुआत था। टीम जल्द ही बड़े मॉडल लॉन्च करने का लक्ष्य रखती है। यदि ये नए मॉडल 7बी के प्रदर्शन को मिलाने में सफल होते हैं, तो मिस्ट्रल उद्योग में शीर्ष खिलाड़ी के रूप में तेजी से उभर सकता है, सभी अपने पहले वर्ष के भीतर।

Aayush Mittal, मित्तल

मैं पिछले पांच वर्षों से मशीन लर्निंग और डीप लर्निंग की दुनिया में खुद को डूबो रहा हूं। मेरा जुनून और विशेषज्ञता ने मुझे 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान देने के लिए प्रेरित किया है, जिनमें से अधिकांश में एआई/एमएल पर विशेष ध्यान केंद्रित किया गया है। मेरी जारी जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर आकर्षित किया है, जिस क्षेत्र को मैं आगे अन्वेषण करने के लिए उत्सुक हूं।

Unite.AI