рдШреЛрд╖рдгрд╛рдПрдБ

рдорд┐рдиреАрдореИрдХреНрд╕ рдиреЗ рдПрдо2.7 рдХреЛ рдУрдкрди-рд╕реЛрд░реНрд╕ рдХрд┐рдпрд╛, рдПрдХ рд╕реНрд╡-рд╡рд┐рдХрд╕рд┐рдд рдПрдЬреЗрдВрдЯ рдореЙрдбрд▓

mm

चीनी एआई कंपनी मिनीमैक्स ने मिनीमैक्स एम2.7 के लिए वजन जारी किए हैं, जो 229-बिलियन-पैरामीटर मिक्स्चर-ऑफ-एक्सपर्ट मॉडल है जिसने अपने स्वयं के विकास चक्र में भाग लिया – जिसे कंपनी स्व-विकसित एआई स्व-विकास की पहली कदम के रूप में कहती है।

मूल रूप से 18 मार्च को घोषित किया गया, मिनीमैक्स एम2.7 अब हगिंग फेस पर मुफ्त में उपलब्ध है और एसजीएलएंग, वीएलएलएम, ट्रांसफॉर्मर्स और एनवीडिया एनआईएम के लिए डिप्लॉयमेंट समर्थन के साथ आता है। मॉडल एसडब्ल्यूई-प्रो पर 56.22% और टर्मिनल बेंच 2 पर 57.0% स्कोर करता है, जो इसे वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग कार्यों के लिए सबसे मजबूत ओपन-सोर्स एलएलएम में से एक बनाता है।

मॉडल ने अपने आप को कैसे बनाया

एम2.7 के बारे में सबसे उल्लेखनीय दावा इसकी अपनी पुनरावृत्ति में इसकी भूमिका है। मिनीमैक्स ने एक आंतरिक संस्करण को एक प्रोग्रामिंग स्कैफोल्ड को अनुकूलित करने के लिए कार्य सौंपा, जिसे 100 से अधिक स्वायत्त अनुकूलन दौर के लिए स्वतंत्र रूप से चलाया गया था। उस प्रक्रिया के दौरान, एम2.7 ने विफलता ट्रैक्टरी, स्कैफोल्ड कोड में संशोधन, मूल्यांकन चलाया और तय किया कि प्रत्येक परिवर्तन को बनाए रखना है या वापस लेना है।

मॉडल ने स्वयं अनुकूलन की खोज की: तापमान और आवृत्ति दंड जैसे अनुकूल नमूना पैरामीटर के लिए व्यवस्थित रूप से खोज की, कार्य प्रवाह दिशानिर्देश जैसे स्वचालित रूप से एक फिक्स के बाद फाइलों में समान बग पैटर्न की जांच करना, और स्कैफोल्ड के एजेंट लूप में लूप डिटेक्शन जोड़ना। मिनीमैक्स एक स्वायत्त प्रक्रिया से 30% के आंतरिक बेंचमार्क में सुधार की रिपोर्ट करता है।

मिनीमैक्स की पुनरावृत्ति सीखने वाली टीम के भीतर, एम2.7 अब 30% से 50% दैनिक कार्य प्रवाह को अंत से अंत तक संभालता है। शोधकर्ता केवल महत्वपूर्ण निर्णयों के लिए बातचीत करते हैं, जबकि मॉडल साहित्य समीक्षा, प्रयोग ट्रैकिंग, डेटा पाइपलाइन, डिबगिंग और मर्ज अनुरोधों का प्रबंधन करता है।

मिनीमैक्स ने एम2.7 को एमएलई बेंच लाइट पर भी परीक्षण किया, जो ओपनएआई की 22 मशीन लर्निंग प्रतियोगिताओं का सूट है जो एक एकल ए30 जीपीयू पर चलता है। तीन 24-घंटे के परीक्षणों में, मॉडल के सर्वश्रेष्ठ रन ने 9 स्वर्ण पदक, 5 रजत पदक और 1 कांस्य पदक उत्पादित किए। 66.6% की औसत पदक दर जेमिनी 3.1 के साथ बंधी और केवल ओपस 4.6 (75.7%) और जीपीटी -5.4 (71.2%) से पीछे रही।

इंजीनियरिंग और ऑफिस कार्य में बेंचमार्क प्रदर्शन

सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर, एम2.7 फ्रंटियर क्लोज्ड-सोर्स मॉडल के साथ मेल खाता है या उनके करीब आता है। इसका एसडब्ल्यूई-प्रो पर 56.22% – एक बेंचमार्क जो लॉग विश्लेषण, बग ट्रoubleshooting, कोड सुरक्षा समीक्षा और एमएल कार्य प्रवाह डिबगिंग को कवर करता है – जीपीटी -5.3- कोडेक्स के साथ मेल खाता है। वIBE- प्रो पर, एक रेपो-स्तर के कोड जेनरेशन बेंचमार्क पर, यह 55.6% स्कोर किया, और यह एसडब्ल्यूई मल्टीलिंगुअल पर 76.5 और मल्टी एसडब्ल्यूई बेंच पर 52.7 पर पंजीकृत किया गया।

एआई कोड जनरेटरों से परे, मिनीमैक्स ने एम2.7 को पेशेवर कार्यालय कार्यों के लिए स्थिति दी। जीडीपीवैल-एए पर, जो 45 मॉडलों में डोमेन विशेषज्ञता का मूल्यांकन करता है, एम2.7 ने 1495 का ईएलओ स्कोर हासिल किया – ओपन-सोर्स मॉडलों में से सबसे उच्च, केवल ओपस 4.6, सोनेट 4.6 और जीपीटी -5.4 के पीछे। टूलाथन पर, यह 46.3% सटीकता तक पहुंच गया, और मिनीमैक्स के एमएम क्लॉ मूल्यांकन में 40 जटिल कौशल (प्रत्येक 2,000 टोकन से अधिक) में 97% कौशल अनुपालन दर बनाए रखी।

मॉडल मिनीमैक्स द्वारा एजेंट टीमों के रूप में कहे जाने वाले मूल एजेंट सहयोग का समर्थन करता है, जहां कई मॉडल उदाहरण विभिन्न भूमिका पहचानों को बनाए रखते हैं और कार्यों पर एक साथ काम करते हैं। यह क्षमता व्यवसाय स्वचालन के लिए एआई एजेंट दृश्यों को लक्षित करती है जहां स्थिर भूमिका सीमाएं और एजेंटों के बीच प्रतिद्वंद्वी तर्क आवश्यक हैं।

मिनीमैक्स ने एम2.7 को मिक्स्चर-ऑफ-एक्सपर्ट आर्किटेक्चर पर बनाया, जिसका अर्थ है कि किसी भी एकल अनुमान पास के दौरान इसके 229 बिलियन कुल पैरामीटर में से केवल एक उपसेट सक्रिय होता है। इससे मॉडल घने मॉडल की तुलना में सस्ता और तेजी से परोसने में आसान हो जाता है – जो उन विकासकर्ताओं के लिए एक महत्वपूर्ण विचार है जो स्थानीय रूप से मॉडल चलाना चाहते हैं या सीमित बुनियादी ढांचे पर।

मिनीमैक्स ने ओपनरूम को भी ओपन-सोर्स किया है, जो एक इंटरैक्टिव डेमो है जो मुख्य रूप से एआई द्वारा निर्मित है और एजेंट इंटरैक्शन को वेब जीयूआई में रखता है जिसमें वास्तविक समय विज़ुअल फीडबैक होता है, जो बड़े भाषा मॉडलों को उत्पादकता से परे इंटरैक्टिव मनोरंजन में विस्तारित करने में इसकी रुचि का संकेत देता है।

रिलीज़ ओपन-वेट एजेंट कौशल परिदृश्य में एक और प्रतिस्पर्धी विकल्प जोड़ता है, जहां मेटा, अलीबाबा और डीपसीक जैसे मॉडल सीमाओं को आगे बढ़ा रहे हैं जो मुफ्त में उपलब्ध हैं। स्व-विकास कोण – जहां एक मॉडल अपने स्वयं के उत्तराधिकारी में सुधार करने में अर्थपूर्ण योगदान देता है – अभी भी प्रारंभिक चरण में है, लेकिन एम2.7 इस बात का पहला कंक्रीट डेटा पॉइंट प्रदान करता है कि वास्तविक अभ्यास में यह कैसा दिखता है: 100 से अधिक स्वायत्त अनुकूलन दौर से 30% का आंतरिक बेंचमार्क लाभ, लूप में मानव हस्तक्षेप के बिना।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред