рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдорд┐рд╕реНрдЯреНрд░рд▓ рдПрдЖрдИ: рд▓рд╛рдорд╛ 2 рдХреЗ рдмeyond рдирдП рдмреЗрдВрдЪрдорд╛рд░реНрдХ рд╕реНрдерд╛рдкрд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдУрдкрди-рд╕реЛрд░реНрд╕ рд╕реНрдкреЗрд╕ рдореЗрдВ

mm
Mistral 7B LLM

बड़े भाषा मॉडल (LLM) हाल ही में केंद्र चरण पर ले लिया है, धन्यवाद आउटस्टैंडिंग प्रदर्शनकर्ता जैसे ChatGPT. जब मेटा ने अपने लामा मॉडल पेश किए, तो यह ओपन-सोर्स एलएलएम में रुचि को फिर से जगाया। उद्देश्य? सस्ते, ओपन-सोर्स एलएलएम बनाने के लिए जो शीर्ष-स्तरीय मॉडल जैसे जीपीटी -4 के समान हों, लेकिन बिना भारी मूल्य टैग या जटिलता के।

इस मिश्रण ने न केवल नए अवसर खोले हैं अनुसंधानकर्ताओं और विकासकर्ताओं के लिए, बल्कि प्राकृतिक भाषा प्रसंस्करण में तकनीकी प्रगति के लिए एक नए युग के मंच को भी तैयार किया है।

हाल ही में, जनरेटिव एआई स्टार्टअप्स ने फंडिंग में एक रोल पर हैं। साथ में 20 मिलियन डॉलर जुटाया, ओपन-सोर्स एआई को आकार देने के लिए। एंथ्रोपिक ने भी 450 मिलियन डॉलर का एक प्रभावशाली निवेश हासिल किया, और कोहेरे, गूगल क्लाउड के साथ साझेदारी में, 270 मिलियन डॉलर जून में इस साल सुरक्षित किया।

मिस्ट्रल 7बी की शुरुआत: आकार और उपलब्धता

рдорд┐рд╕реНрдЯреНрд░рд▓ рдПрдЖрдИ

मिस्ट्रल एआई, पेरिस में स्थित और गूगल के डीपमाइंड और मेटा के पूर्व छात्रों द्वारा सह-स्थापित, ने अपना पहला बड़ा भाषा मॉडल घोषित किया: मिस्ट्रल 7बी। यह मॉडल किसी को भी गिटहब से आसानी से डाउनलोड किया जा सकता है और यहां तक कि 13.4-गिगाबाइट टॉरेंट के माध्यम से भी।

इस स्टार्टअप ने रिकॉर्ड तोड़ सीड फंडिंग हासिल की इससे पहले कि वे उत्पाद बाजार में लाए। मिस्ट्रल एआई का पहला मॉडल 7 बिलियन पैरामीटर मॉडल लामा 2 13बी को सभी परीक्षणों में पार करता है और लामा 1 34बी को कई मापदंडों में मात देता है।

लामा 2 जैसे अन्य मॉडल की तुलना में, मिस्ट्रल 7बी समान या बेहतर क्षमताएं प्रदान करता है लेकिन कम गणनात्मक ओवरहेड के साथ। जबकि आधार मॉडल जैसे जीपीटी -4 अधिक हासिल कर सकते हैं, वे उच्च लागत और उपयोगकर्ता-मित्रता की कमी के साथ आते हैं क्योंकि वे मुख्य रूप से एपीआई के माध्यम से सुलभ होते हैं।

कोडिंग कार्यों के लिए, मिस्ट्रल 7बी कोडलामा 7बी को कड़ी चुनौती देता है। इसके अलावा, यह 13.4 जीबी में कॉम्पैक्ट होने के कारण मानक मशीनों पर चलने में सक्षम है।

इसके अलावा, मिस्ट्रल 7बी निर्देश, जो विशेष रूप से हगिंग फेस पर निर्देशात्मक डेटासेट के लिए ट्यून किया गया है, ने महान प्रदर्शन दिखाया है। यह एमटी-बेंच पर अन्य 7बी मॉडल से बेहतर प्रदर्शन करता है और 13बी चैट मॉडल के साथ कंधे से कंधा मिलाकर खड़ा है।

प्रदर्शन बेंचमार्किंग

एक विस्तृत प्रदर्शन विश्लेषण में, मिस्ट्रल 7बी को लामा 2 परिवार मॉडल के खिलाफ मापा गया था। परिणाम स्पष्ट थे: मिस्ट्रल 7बी ने सभी बेंचमार्क पर लामा 2 13बी को काफी पीछे छोड़ दिया। वास्तव में, यह लामा 34बी के प्रदर्शन को मिलाने में सफल रहा, विशेष रूप से कोड और तर्क बेंचमार्क में खड़ा है।

बेंचमार्क को कई श्रेणियों में विभाजित किया गया था, जैसे कि सामान्य ज्ञान तर्क, विश्व ज्ञान, पढ़ने की समझ, गणित, और कोड, अन्य। एक विशेष रूप से उल्लेखनीय अवलोकन मिस्ट्रल 7बी का लागत-प्रदर्शन मीट्रिक था, जिसे “समकक्ष मॉडल आकार” कहा जाता है। तर्क और समझ जैसे क्षेत्रों में, मिस्ट्रल 7बी ने लामा 2 मॉडल के तीन गुना आकार के समान प्रदर्शन प्रदर्शित किया, जो स्मृति में संभावित बचत और थ्रूपुट में वृद्धि का संकेत देता है। हालांकि, ज्ञान बेंचमार्क में, मिस्ट्रल 7बी लामा 2 13बी के साथ संरेखित था, जो संभवतः इसके पैरामीटर सीमाओं के कारण ज्ञान संपीड़न को प्रभावित करता है।

मिस्ट्रल 7बी मॉडल वास्तव में अधिकांश अन्य भाषा मॉडल से बेहतर क्या बनाता है?

ध्यान तंत्र को सरल बनाना

ध्यान तंत्र की बारीकियां तकनीकी हैं, लेकिन उनका मूल विचार अपेक्षाकृत सरल है। एक पुस्तक पढ़ने और महत्वपूर्ण वाक्यों को हाइलाइट करने की कल्पना करें; यह ध्यान तंत्र के समान है जो डेटा के विशिष्ट बिंदुओं को “हाइलाइट” या महत्व देता है।

भाषा मॉडल के संदर्भ में, ये तंत्र मॉडल को इनपुट डेटा के सबसे प्रासंगिक भागों पर ध्यान केंद्रित करने में सक्षम बनाते हैं, यह सुनिश्चित करते हुए कि आउटपुट सुसंगत और संदर्भ से सटीक है।

मानक ट्रांसफॉर्मर में, ध्यान स्कोर सूत्र के साथ गणना की जाती है:

рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдзреНрдпрд╛рди рд╕реВрддреНрд░

ट्रांसफॉर्मर ध्यान सूत्र

इन स्कोर के लिए सूत्र में एक महत्वपूर्ण चरण शामिल है – क्यू और के का मैट्रिक्स गुणन। यहाँ की चुनौती यह है कि जैसे ही अनुक्रम की लंबाई बढ़ती है, दोनों मैट्रिक्स भी विस्तारित होते हैं, जिससे एक गणनात्मक रूप से गहन प्रक्रिया होती है। यह स्केलेबिलिटी चिंता मानक ट्रांसफॉर्मर को धीमा बनाने का एक प्रमुख कारण है, विशेष रूप से लंबे अनुक्रमों के साथ।

рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ध्यान तंत्र मॉडल को इनपुट डेटा के विशिष्ट भागों पर ध्यान केंद्रित करने में मदद करते हैं। आमतौर पर, ये तंत्र ‘सिर’ का उपयोग ध्यान प्रबंधन के लिए करते हैं। आपके पास जितने अधिक सिर हैं, उतना ही विशिष्ट ध्यान होगा, लेकिन यह जटिल और धीमा भी हो जाता है। ट्रांसफॉर्मर और ध्यान तंत्र के बारे में गहराई से जानें यहाँ

बहु-प्रश्न ध्यान (MQA) चीजों को तेज करता है एक ‘की-मूल्य’ सिर का उपयोग करके, लेकिन कभी-कभी गुणवत्ता का बलिदान देता है। अब, आप सोच सकते हैं, क्यों न MQA की गति के साथ बहु-सिर ध्यान की गुणवत्ता को जोड़ा जाए? यहीं पर समूहीकृत-प्रश्न ध्यान (GQA) आता है।

समूहीकृत-प्रश्न ध्यान (GQA)

рд╕рдореВрд╣реАрдХреГрдд-рдкреНрд░рд╢реНрди рдзреНрдпрд╛рди

समूहीकृत-प्रश्न ध्यान

जीक्यूए एक मध्यवर्ती समाधान है। एक या कई ‘की-मूल्य’ सिर का उपयोग करने के बजाय, यह उन्हें समूहित करता है। इस तरह, जीक्यूए विस्तृत बहु-सिर ध्यान के समान प्रदर्शन प्राप्त करता है लेकिन एमक्यूए की गति के साथ। मिस्ट्रल जैसे मॉडल के लिए, इसका अर्थ है कि गुणवत्ता से समझौता किए बिना कुशल प्रदर्शन।

स्लाइडिंग विंडो ध्यान (SWA)

рд▓реЙрдиреНрдЧрдлреЙрд░реНрдорд░ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рд╕реНрд▓рд╛рдЗрдбрд┐рдВрдЧ рд╡рд┐рдВрдбреЛ

स्लाइडिंग विंडो एक और तरीका है जो अनुक्रम ध्यान प्रसंस्करण में उपयोग किया जाता है। इस विधि में, प्रत्येक टोकन के चारों ओर एक निश्चित आकार की ध्यान विंडो का उपयोग किया जाता है। कई परतें इस विंडो वाले ध्यान को स्टैक करती हैं, शीर्ष परतें अंततः पूरे इनपुट से जानकारी को शामिल करने वाली एक व्यापक दृष्टि प्राप्त करती हैं। यह तंत्र कॉन्वोल्यूशनल न्यूरल नेटवर्क (सीएनएन) में देखे जाने वाले रिसेप्टिव फील्ड के समान है।

दूसरी ओर, लॉन्गफॉर्मर मॉडल का “डिलेटेड स्लाइडिंग विंडो ध्यान”, जो स्लाइडिंग विंडो विधि के समान है, क्यू के टी मैट्रिक्स के केवल कुछ विकर्णों की गणना करता है। यह परिवर्तन परिणामस्वरूप मेमोरी उपयोग में रैखिक वृद्धि की ओर ले जाता है, न कि द्विगुणित, जिससे यह लंबे अनुक्रमों के लिए एक अधिक कुशल विधि बन जाती है।

मिस्ट्रल एआई की पारदर्शिता बनाम विकेंद्रीकरण में सुरक्षा चिंताएं

अपनी घोषणा में, मिस्ट्रल एआई ने पारदर्शिता पर जोर दिया यह बयान देकर: “कोई चाल नहीं, कोई प्रोप्राइटरी डेटा नहीं।” लेकिन इस समय उनका एकमात्र उपलब्ध मॉडल ‘मिस्ट्रल-7बी-व0.1’ एक प्रीट्रेन्ड बेस मॉडल है, जो किसी भी प्रश्न का उत्तर दे सकता है बिना मॉडरेशन के, जो संभावित सुरक्षा चिंताएं उठाता है। जबकि मॉडल जैसे जीपीटी और लामा के पास उत्तर देने पर विचार करने के लिए तंत्र हैं, मिस्ट्रल की पूरी तरह से विकेंद्रित प्रकृति का दुरुपयोग बुरे अभिनेता कर सकते हैं।

हालांकि, बड़े भाषा मॉडल का विकेंद्रीकरण अपने फायदे हैं। जबकि कुछ इसका दुरुपयोग कर सकते हैं, लोग इसकी शक्ति का उपयोग समाज के लिए अच्छे के लिए कर सकते हैं और सभी के लिए बुद्धिमत्ता को सुलभ बना सकते हैं।

तैनाती लचीलापन

एक हाइलाइट यह है कि मिस्ट्रल 7बी अपाचे 2.0 लाइसेंस के तहत उपलब्ध है। इसका अर्थ है कि इसका उपयोग करने में कोई वास्तविक बाधा नहीं है – चाहे आप इसका उपयोग व्यक्तिगत उद्देश्यों के लिए कर रहे हों, एक बड़े निगम के लिए, या यहां तक कि एक सरकारी इकाई के लिए भी। आपको बस इसके लिए सही सिस्टम की आवश्यकता है, या आपको क्लाउड संसाधनों में निवेश करने की आवश्यकता हो सकती है।

जबकि अन्य लाइसेंस जैसे सरल एमआईटी लाइसेंस और सहयोगी सीसी बाय-एसए-4.0 हैं, जो डेरिवेटिव के लिए श्रेय और समान लाइसेंसिंग की मांग करता है, अपाचे 2.0 बड़े पैमाने पर प्रयासों के लिए एक मजबूत आधार प्रदान करता है।

अंतिम विचार

ओपन-सोर्स बड़े भाषा मॉडल जैसे मिस्ट्रल 7बी का उदय एआई उद्योग में एक महत्वपूर्ण बदलाव को दर्शाता है, जो उच्च गुणवत्ता वाले भाषा मॉडल को व्यापक दर्शकों के लिए सुलभ बनाता है। मिस्ट्रल एआई के नवाचारी दृष्टिकोण, जैसे कि समूहीकृत-प्रश्न ध्यान और स्लाइडिंग विंडो ध्यान, कुशल प्रदर्शन का वादा करते हैं जो गुणवत्ता से समझौता नहीं करता है।

मिस्ट्रल की विकेंद्रित प्रकृति कुछ चुनौतियां प्रस्तुत करती है, लेकिन इसकी लचीलापन और ओपन-सोर्स लाइसेंसिंग एआई को लोकतांत्रिक बनाने की संभावना को रेखांकित करते हैं। जैसे ही परिदृश्य विकसित होता है, ध्यान इन मॉडलों की शक्ति को नैतिक विचारों और सुरक्षा तंत्र के साथ संतुलित करने पर होगा।

मिस्ट्रल के लिए आगे क्या है? 7बी मॉडल केवल शुरुआत था। टीम जल्द ही बड़े मॉडल लॉन्च करने का लक्ष्य रखती है। यदि ये नए मॉडल 7बी के प्रदर्शन को मिलाने में सफल होते हैं, तो मिस्ट्रल उद्योग में शीर्ष खिलाड़ी के रूप में तेजी से उभर सकता है, सभी अपने पहले वर्ष के भीतर।

рдореИрдВ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рджреБрдирд┐рдпрд╛ рдореЗрдВ рдЦреБрдж рдХреЛ рдбреВрдмреЛ рд░рд╣рд╛ рд╣реВрдВред рдореЗрд░рд╛ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рдирдореЗрдВ рд╕реЗ рдЕрдзрд┐рдХрд╛рдВрд╢ рдореЗрдВ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рд╡рд┐рд╢реЗрд╖ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдореЗрд░реА рдЬрд╛рд░реА рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдЬрд┐рд╕ рдХреНрд╖реЗрддреНрд░ рдХреЛ рдореИрдВ рдЖрдЧреЗ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред