рдШреЛрд╖рдгрд╛рдПрдБ
рдорд┐рдиреАрдореИрдХреНрд╕ рдиреЗ рдПрдореи.рен рдХреЛ рдУрдкрди рд╕реЛрд░реНрд╕ рдХрд┐рдпрд╛, рдПрдХ рд╕реНрд╡-рд╡рд┐рдХрд╕рд┐рдд рдПрдЬреЗрдВрдЯ рдореЙрдбрд▓

चीनी एआई कंपनी मिनीमैक्स ने मिनीमैक्स एम२.७ के लिए वजन जारी किया है, जो एक २२९-बिलियन-पैरामीटर मिक्सचर-ऑफ-एक्सपर्ट मॉडल है जिसने अपने स्वयं के विकास चक्र में भाग लिया – जिसे कंपनी स्व-विकसित एआई स्व-विकास की दिशा में पहला कदम कहती है।
मूल रूप से १८ मार्च को घोषित, मिनीमैक्स एम२.७ अब हगिंग फेस पर स्वतंत्र रूप से उपलब्ध है और एसजीलैंग, वीएलएलएम, ट्रांसफॉर्मर्स और एनवीआईडीआईए एनआईएम के लिए तैनाती समर्थन के साथ। मॉडल एसडब्ल्यूई-प्रो पर ५६.२२% और टर्मिनल बेंच २ पर ५७.०% स्कोर करता है, जो इसे वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग कार्यों के लिए सबसे मजबूत ओपन-सोर्स एलएलएम में से एक बनाता है।
मॉडल ने खुद को कैसे बनाया
एम२.७ के बारे में सबसे उल्लेखनीय दावा इसकी अपनी पुनरावृत्ति में इसकी भूमिका है। मिनीमैक्स ने एक आंतरिक संस्करण को एक प्रोग्रामिंग स्कैफोल्ड को अनुकूलित करने के लिए कार्य सौंपा, जो १०० से अधिक राउंड के लिए स्वायत्त रूप से चला। उस प्रक्रिया के दौरान, एम२.७ ने विफलता ट्रैक्टरी, स्कैफोल्ड कोड में संशोधन, मूल्यांकन चलाया और प्रत्येक परिवर्तन को रखने या पूर्ववत करने का निर्णय लिया।
मॉडल ने स्वयं अनुकूलन की खोज की: तापमान और आवृत्ति दंड जैसे नमूनाकरण पैरामीटर के लिए व्यवस्थित रूप से खोज की, कार्य प्रवाह दिशानिर्देश जैसे कि एक फिक्स के बाद फ़ाइलों में समान बग पैटर्न की जाँच करने के लिए स्वचालित रूप से और एजेंट लूप में लूप डिटेक्शन जोड़ना। मिनीमैक्स की रिपोर्ट में आंतरिक मूल्यांकन सेट से ३०% प्रदर्शन में सुधार हुआ है इस स्वायत्त प्रक्रिया से।
मिनीमैक्स की पुनरावृत्ति शिक्षा टीम के भीतर, एम२.७ अब दैनिक कार्य प्रवाह का ३०% से ५०% हिस्सा संभालता है। शोधकर्ता केवल महत्वपूर्ण निर्णयों के लिए बातचीत करते हैं, जबकि मॉडल साहित्य समीक्षा, प्रयोग ट्रैकिंग, डेटा पाइपलाइन, डीबगिंग और मर्ज अनुरोधों का प्रबंधन करता है।
मिनीमैक्स ने एम२.७ का परीक्षण एमएलई बेंच लाइट पर भी किया, जो ओपनएआई की २२ मशीन लर्निंग प्रतियोगिताओं का सूट है जो एक एकल ए३० जीपीयू पर चलता है। तीन २४-घंटे के परीक्षणों में, मॉडल के सर्वश्रेष्ठ रन ने ९ स्वर्ण पदक, ५ रजत पदक और १ कांस्य पदक उत्पादित किया। औसत पदक दर ६६.६% जेमिनी ३.१ के साथ बंधी और केवल ओपस ४.६ (७५.७%) और जीपीटी-५.४ (७१.२%) से पीछे रही।
बेंचमार्क प्रदर्शन इंजीनियरिंग और कार्यालय कार्य में
सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर, एम२.७ फ्रंटियर बंद-सोर्स मॉडल को मेल खाता है या पहुंचता है। इसका एसडब्ल्यूई-प्रो पर ५६.२२% – एक बेंचमार्क जो लॉग विश्लेषण, बग ट्राउब्लेशूटिंग, कोड सुरक्षा समीक्षा और एमएल वर्कफ्लो डीबगिंग को कवर करता है – जीपीटी-५.३-कोडेक्स के साथ मेल खाता है। वीआईबीई-प्रो पर, एक रेपो-स्तर के कोड जेनरेशन बेंचमार्क पर, यह ५५.६% स्कोर किया, और यह ७६.५ पर एसडब्ल्यूई मल्टीलिंगुअल और ५२.७ पर मल्टी एसडब्ल्यूई बेंच पर पंजीकृत किया गया।
एआई कोड जनरेटरों के अलावा, मिनीमैक्स ने एम२.७ को पेशेवर कार्यालय कार्यों के लिए स्थिति दी। जीडीपीवाल-एए पर, जो ४५ मॉडलों में डोमेन विशेषज्ञता का मूल्यांकन करता है, एम२.७ ने १४९५ का ईएलओ स्कोर हासिल किया – ओपन-सोर्स मॉडलों में से सबसे उच्च, केवल ओपस ४.६, सोनेट ४.६ और जीपीटी-५.४ से पीछे। टूलाथन पर, यह ४६.३% सटीकता तक पहुंच गया, और मिनीमैक्स के एमएम क्लॉ EVAL में ४० जटिल कौशल (प्रत्येक २,००० टोकन से अधिक) में ९७% कौशल अनुपालन दर बनाए रखी।
मॉडल मिनीमैक्स को एजेंट टीमों के माध्यम से स्वदेशी बहु-एजेंट सहयोग का समर्थन करता है, जहां मॉडल के कई उदाहरण विभिन्न भूमिका पहचानों को बनाए रखते हैं और कार्यों पर एक साथ काम करते हैं। यह क्षमता व्यवसाय स्वचालन परिदृश्यों के लिए लक्षित है जहां स्थिर भूमिका सीमाएं और एजेंटों के बीच प्रतिद्वंद्वी तर्क आवश्यक हैं।
मिनीमैक्स ने एम२.७ का निर्माण मिक्सचर-ऑफ-एक्सपर्ट आर्किटेक्चर पर किया है, जिसका अर्थ है कि किसी भी एकल अनुमान पास के दौरान इसके २२९ बिलियन कुल पैरामीटर में से केवल एक उपसेट सक्रिय होता है। इससे मॉडल एक घने मॉडल की तुलना में तुलनात्मक आउटपुट गुणवत्ता के साथ सस्ता और तेजी से परोसने योग्य हो जाता है – एक महत्वपूर्ण विचार उन विकासकर्ताओं के लिए जो स्थानीय रूप से मॉडल चलाना या सीमित बुनियादी ढांचे पर चाहते हैं।
मिनीमैक्स ने ओपनरूम को भी ओपन-सोर्स किया है, जो एक इंटरैक्टिव डेमो है जो मुख्य रूप से एआई द्वारा निर्मित है और एजेंट इंटरैक्शन को वेब जीयूआई में वास्तविक समय की दृश्य प्रतिक्रिया के साथ रखता है, जो बड़े भाषा मॉडलों को उत्पादकता से परे इंटरैक्टिव मनोरंजन में विस्तारित करने में इसकी रुचि का संकेत देता है।
रिलीज़ ओपन-वेट एजेंट कौशल परिदृश्य में एक और प्रतिस्पर्धी विकल्प जोड़ता है, जहां मेटा, अलीबाबा और डीपसीक जैसे मॉडल सीमाओं को आगे बढ़ा रहे हैं जो स्वतंत्र रूप से उपलब्ध हैं। स्व-विकास कोण – जहां एक मॉडल अपने स्वयं के उत्तराधिकारी में सुधार के लिए अर्थपूर्ण योगदान देता है – अभी भी प्रारंभिक चरण में है, लेकिन एम२.७ प्रथीति में क्या दिखता है इसके पहले कंक्रीट डेटा बिंदु प्रदान करता है: १००+ स्वायत्त अनुकूलन राउंड से ३०% आंतरिक बेंचमार्क लाभ, मानव हस्तक्षेप के बिना।












