ठूंठ एमपीटी-30बी: मोज़ेकएमएल ने एनएलपी की सीमाओं को आगे बढ़ाने के लिए एक नए एलएलएम के साथ जीपीटी-3 को पछाड़ दिया - यूनाइट.एआई
हमसे जुडे

Artificial Intelligence

एमपीटी-30बी: मोज़ेकएमएल ने एनएलपी की सीमाओं को आगे बढ़ाने के लिए एक नए एलएलएम के साथ जीपीटी-3 को पीछे छोड़ दिया

mm

प्रकाशित

 on

विशेष ब्लॉग छवि-एमपीटी-30बी: मोज़ेकएमएल ने भाषा मॉडल की सीमाओं को आगे बढ़ाने के लिए एक नए एलएलएम के साथ जीपीटी-3 को मात दी

मोज़ेक एमएल एक जनरेटिव ए.आई. कंपनी जो AI परिनियोजन और स्केलेबिलिटी समाधान प्रदान करती है। उनका नवीनतम बड़ा भाषा मॉडल (एलएलएम) एमपीटी-30बी एआई समुदाय में लहरें पैदा कर रहा है।

मोज़ेकएमएल की एलएलएम यात्रा की शुरुआत के साथ हुई एमपीटी-7बी (मोज़ेक प्रीट्रेंड ट्रांसफार्मर) मई 2023 में जो तीन वेरिएंट के साथ आया:

  1. MPT-7B-StoryWriter-65k+ (लंबे प्रारूप वाली कहानी निर्माण के लिए)
  2. एमपीटी-7बी-निर्देश (निम्नलिखित संक्षिप्त रूप निर्देश के लिए)
  3. एमपीटी-7बी-चैट (संवाद निर्माण के लिए)

मॉडलों को उनकी ओपन-सोर्स प्रकृति, व्यावसायिक उपयोगिता और विस्तारित संदर्भ विंडो को संभालने की असाधारण क्षमता के कारण एमएल समुदाय में भारी सफलता मिली।

सबसे महत्वपूर्ण बात यह है कि मॉडल बराबर था और, कुछ मामलों में, अन्य तुलनीय मॉडलों से बेहतर प्रदर्शन किया (एलएलएएमए-7बी, स्थिरएलएम 7बी, वगैरह)। जून तक, MPT-7B श्रृंखला को 3 मिलियन से अधिक बार डाउनलोड किया गया था। 22 जून को मोज़ेकएमएल जारी किया गया एमपीटी-30बी जिसने ओपन-सोर्स फाउंडेशन मॉडल के लिए मानक को और भी ऊपर उठाया।

एमपीटी-30बी: एक शक्तिशाली एलएलएम जो जीपीटी-3 से भी आगे है

एमपीटी-30बी एक ओपन-सोर्स और व्यावसायिक रूप से लाइसेंस प्राप्त डिकोडर-आधारित एलएलएम है जो इससे अधिक शक्तिशाली है जीपीटी-3-175बी GPT-17 मापदंडों के केवल 3% के साथ, अर्थात, 30B। यह कई कार्यों में GPT-3 से बेहतर प्रदर्शन करता है। यहां MPT-30B और GPT-3 के बीच तुलना दी गई है।

MPT-30B पिछले MPT-7B मॉडल पर आधारित है। समान आकार वाले मॉडलों की तुलना में इसे प्रशिक्षित करना कम्प्यूटेशनल रूप से कुशल है। उदाहरण के लिए, LLaMA-30B ने MPT-1.44B की तुलना में लगभग 30 गुना अधिक FLOPs बजट का उपयोग किया, जबकि फाल्कन-40B में MPT-1.27B की तुलना में 30 गुना अधिक FLOPs बजट था। यहां अपने पूर्ववर्ती की तुलना में विभिन्न कार्यों में एमपीटी-30बी के सुधार का एक उदाहरण दिया गया है।

MPT-30B की कुछ विशेष विशेषताएं इस प्रकार हैं:

8k टोकन संदर्भ विंडो

एलएलएम में संदर्भ विंडो उन टोकन की सीमा को संदर्भित करती है जिन पर मॉडल आउटपुट उत्पन्न करने से पहले विचार कर सकता है। एमपीटी-30बी में प्रशिक्षण के समय 8000 टोकन की एक संदर्भ विंडो थी। इसे पहले 1k टोकन अनुक्रमों का उपयोग करके 2T टोकन पर प्रशिक्षित किया गया था और फिर 50k टोकन अनुक्रमों के अतिरिक्त 8B टोकन (लगभग) 6000 शब्द).

अलीबी समर्थन

इस सुविधा को समझाने के लिए, आइए एक प्रश्न पर विचार करें:

एमपीटी-30बी जिस पर प्रशिक्षित किया गया था उससे अधिक लंबे अनुक्रमों को कैसे समझ सकता है और भविष्यवाणी कर सकता है?

MPT-30B एक का उपयोग करता है रैखिक पूर्वाग्रहों के साथ ध्यान (ALiBi) लंबे अनुक्रमों को समझने और फ़ाइनट्यूनिंग या अनुमान के दौरान संदर्भ विंडो को 8k टोकन से आगे बढ़ाने की तकनीक।

स्थितीय एम्बेडिंग की गणना करने के बजाय जिसमें हम अनुक्रम में प्रत्येक शब्द के लिए एक वेक्टर निर्दिष्ट करते हैं, ALiBi कुंजी और क्वेरी टोकन के बीच ध्यान स्कोर की गणना करता है। जब कुंजी और क्वेरी टोकन एक-दूसरे के करीब होते हैं, तो जुर्माना कम होता है, लेकिन अन्यथा अधिक होता है। परिणामस्वरूप, अंतर्निहित ट्रांसफार्मर वास्तुकला दीर्घ-फ़ॉर्म इनपुट के लिए एक्सट्रपलेशन कर सकते हैं।

फ्लैशअटेंशन के माध्यम से कुशल अनुमान और प्रशिक्षण प्रदर्शन

ध्यान अर्थात, इनपुट अनुक्रम के प्रासंगिक भागों पर ध्यान केंद्रित करना, ट्रांसफार्मर का एक महत्वपूर्ण घटक है, लेकिन यह धीमा और स्मृति-गहन हो सकता है, खासकर लंबे पाठ अनुक्रमों को संसाधित करते समय।

फ़्लैश ध्यान कॉर्नेल विश्वविद्यालय के शोधकर्ताओं द्वारा प्रस्तावित एक दृष्टिकोण है जो एमपीटी-30बी के लिए इस समस्या का समाधान करता है। टाइलिंग नामक तकनीक का उपयोग करते हुए, फ्लैशअटेंशन मॉडल को मेमोरी से पढ़ने या लिखने की आवश्यकता की संख्या को कम कर देता है, जिससे प्रसंस्करण तेज हो जाता है। इसलिए, मॉडल अत्याधुनिक फ्लैशअटेंशन तकनीक और NVIDIA का उपयोग करता है तेज़ ट्रांसफार्मर कुशल प्रशिक्षण और अनुमान के लिए अनुकूलन पुस्तकालय।

प्रशिक्षण एवं तैनाती में आसानी

डेवलपर्स एमपीटी-30बी को शुरू से ही प्रशिक्षित कर सकते हैं या त्वरित तैनाती के लिए मोज़ेकएमएल की चौकियों का उपयोग कर सकते हैं। साथ ही, इसे किसी विशेष डेटासेट पर डोमेन-विशिष्ट उपयोग के मामलों के लिए ठीक किया जा सकता है।

मॉडल का आकार एकल जीपीयू पर सहज तैनाती को सक्षम करने के लिए चुना गया था, विशेष रूप से 1-बिट परिशुद्धता में 100xA80-16GB या 1-बिट परिशुद्धता में 100xA40-8GB। इसका मतलब यह है कि मॉडल को इन जीपीयू की मेमोरी सीमाओं के भीतर फिट होने के लिए डिज़ाइन किया गया था।

कोडिंग क्षमता

MPT-30B असाधारण कोडिंग क्षमताएं भी प्रदान करता है। ह्यूमनएवल OpenAI द्वारा जारी एक डेटासेट है जिसमें 164 हस्तनिर्मित प्रोग्रामिंग समस्याएं हैं। ह्यूमनएवल डेटासेट पर, मॉडल उद्देश्य-निर्मित एलएलएम मॉडल से आगे निकल जाता है, जैसे स्टारकोडर श्रृंखला.

फाइन-ट्यून वेरिएंट: एमपीटी-30बी-इंस्ट्रक्शन और एमपीटी-30बी-चैट

एमपीटी-30बी-निर्देश

एलएलएम का उपयोग मुख्य रूप से प्रश्नों का उत्तर देना, पाठ सारांश, भाषा अनुवाद आदि जैसे निर्देशों के लिए किया जाता है। एमपीटी-30बी-इंस्ट्रक्ट एक व्यावसायिक रूप से प्रयोग करने योग्य (वाणिज्यिक सीसी-बाय-एसए-3.0 लाइसेंस बनाए रखता है) एमपीटी-30बी का संस्करण है जिसे विशेष रूप से ठीक किया गया है। अनुदेश निम्नलिखित कार्य. फ़ाइन-ट्यूनिंग के लिए, निम्नलिखित डेटासेट का उपयोग किया गया:

  1. फ़्लान
  2. P3
  3. उसकी ऊन का कपड़ा
  4. डॉली-15k

डॉली डेटासेट को और अधिक संवर्धित किया गया एंथ्रोपिक का सहायक और हानिरहित डेटासेट अनुदेश परिशोधन के लिए. इसके अतिरिक्त, डेटा संवर्द्धन के लिए विभिन्न प्रकार के डेटासेट का उपयोग किया गया, जो इस प्रकार हैं:

  1. प्रतियोगितागणित
  2. ग्रेडस्कूलगणित
  3. डायलॉगसम
  4. डुओआरसी
  5. कास्पर
  6. गुणवत्ता
  7. समस्क्रीन
  8. मकड़ी

एमपीटी-30बी-चैट

एमपीटी-30बी-चैट संवाद सृजन के लिए एमपीटी-30बी का एक परिष्कृत संस्करण है। यह CC-By-NC-SA-4.0 लाइसेंस के तहत जारी एक शोध कलाकृति है, जो केवल गैर-व्यावसायिक उपयोग की अनुमति देती है। मॉडल को विभिन्न भाषा डेटासेट का उपयोग करके ठीक किया गया था, जिनमें शामिल हैं:

  1. ऐरोबोरोस/जीपीटी4-1.2
  2. बेज
  3. ऊंट
  4. जीपीटीचर
  5. guanaco
  6. लंबी बातचीत
  7. शेयरजीपीटी
  8. विज़ार्डएलएम

एलएलएम इसका एक बड़ा हिस्सा साझा करते हैं मल्टी बिलियन डॉलर जेनरेटिव एआई बाजार, जिसने पिछले साल चैटजीपीटी द्वारा परिदृश्य में क्रांति लाने के बाद कुछ ही समय में जबरदस्त वृद्धि का अनुभव किया है। एमपीटी परिवार इस क्रांति का एक मूलभूत हिस्सा है। निकट भविष्य में, हम व्यावसायिक रूप से उपलब्ध ओपन-सोर्स मॉडल देखने की उम्मीद कर सकते हैं जो एमपीटी परिवार की तुलना में कहीं अधिक शक्तिशाली और कुशल हैं।

नवीनतम एआई समाचार के लिए, यहां जाएं एकजुट.एआई.