рдШреЛрд╖рдгрд╛рдПрдБ
рдорд┐рдиреАрдореИрдХреНрд╕ рдиреЗ рдПрдо2.7 рдХреЛ рдУрдкрди-рд╕реЛрд░реНрд╕ рдХрд┐рдпрд╛, рдПрдХ рд╕реНрд╡-рд╡рд┐рдХрд╕рд┐рдд рдПрдЬреЗрдВрдЯ рдореЙрдбрд▓

चीनी एआई कंपनी मिनीमैक्स ने मिनीमैक्स एम2.7 के लिए वजन जारी किए हैं, जो 229-बिलियन-पैरामीटर मिक्स्चर-ऑफ-एक्सपर्ट मॉडल है जिसने अपने स्वयं के विकास चक्र में भाग लिया – जिसे कंपनी स्व-विकसित एआई स्व-विकास की पहली कदम के रूप में कहती है।
मूल रूप से 18 मार्च को घोषित किया गया, मिनीमैक्स एम2.7 अब हगिंग फेस पर मुफ्त में उपलब्ध है और एसजीएलएंग, वीएलएलएम, ट्रांसफॉर्मर्स और एनवीडिया एनआईएम के लिए डिप्लॉयमेंट समर्थन के साथ आता है। मॉडल एसडब्ल्यूई-प्रो पर 56.22% और टर्मिनल बेंच 2 पर 57.0% स्कोर करता है, जो इसे वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग कार्यों के लिए सबसे मजबूत ओपन-सोर्स एलएलएम में से एक बनाता है।
मॉडल ने अपने आप को कैसे बनाया
एम2.7 के बारे में सबसे उल्लेखनीय दावा इसकी अपनी पुनरावृत्ति में इसकी भूमिका है। मिनीमैक्स ने एक आंतरिक संस्करण को एक प्रोग्रामिंग स्कैफोल्ड को अनुकूलित करने के लिए कार्य सौंपा, जिसे 100 से अधिक स्वायत्त अनुकूलन दौर के लिए स्वतंत्र रूप से चलाया गया था। उस प्रक्रिया के दौरान, एम2.7 ने विफलता ट्रैक्टरी, स्कैफोल्ड कोड में संशोधन, मूल्यांकन चलाया और तय किया कि प्रत्येक परिवर्तन को बनाए रखना है या वापस लेना है।
मॉडल ने स्वयं अनुकूलन की खोज की: तापमान और आवृत्ति दंड जैसे अनुकूल नमूना पैरामीटर के लिए व्यवस्थित रूप से खोज की, कार्य प्रवाह दिशानिर्देश जैसे स्वचालित रूप से एक फिक्स के बाद फाइलों में समान बग पैटर्न की जांच करना, और स्कैफोल्ड के एजेंट लूप में लूप डिटेक्शन जोड़ना। मिनीमैक्स एक स्वायत्त प्रक्रिया से 30% के आंतरिक बेंचमार्क में सुधार की रिपोर्ट करता है।
मिनीमैक्स की पुनरावृत्ति सीखने वाली टीम के भीतर, एम2.7 अब 30% से 50% दैनिक कार्य प्रवाह को अंत से अंत तक संभालता है। शोधकर्ता केवल महत्वपूर्ण निर्णयों के लिए बातचीत करते हैं, जबकि मॉडल साहित्य समीक्षा, प्रयोग ट्रैकिंग, डेटा पाइपलाइन, डिबगिंग और मर्ज अनुरोधों का प्रबंधन करता है।
मिनीमैक्स ने एम2.7 को एमएलई बेंच लाइट पर भी परीक्षण किया, जो ओपनएआई की 22 मशीन लर्निंग प्रतियोगिताओं का सूट है जो एक एकल ए30 जीपीयू पर चलता है। तीन 24-घंटे के परीक्षणों में, मॉडल के सर्वश्रेष्ठ रन ने 9 स्वर्ण पदक, 5 रजत पदक और 1 कांस्य पदक उत्पादित किए। 66.6% की औसत पदक दर जेमिनी 3.1 के साथ बंधी और केवल ओपस 4.6 (75.7%) और जीपीटी -5.4 (71.2%) से पीछे रही।
इंजीनियरिंग और ऑफिस कार्य में बेंचमार्क प्रदर्शन
सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर, एम2.7 फ्रंटियर क्लोज्ड-सोर्स मॉडल के साथ मेल खाता है या उनके करीब आता है। इसका एसडब्ल्यूई-प्रो पर 56.22% – एक बेंचमार्क जो लॉग विश्लेषण, बग ट्रoubleshooting, कोड सुरक्षा समीक्षा और एमएल कार्य प्रवाह डिबगिंग को कवर करता है – जीपीटी -5.3- कोडेक्स के साथ मेल खाता है। वIBE- प्रो पर, एक रेपो-स्तर के कोड जेनरेशन बेंचमार्क पर, यह 55.6% स्कोर किया, और यह एसडब्ल्यूई मल्टीलिंगुअल पर 76.5 और मल्टी एसडब्ल्यूई बेंच पर 52.7 पर पंजीकृत किया गया।
एआई कोड जनरेटरों से परे, मिनीमैक्स ने एम2.7 को पेशेवर कार्यालय कार्यों के लिए स्थिति दी। जीडीपीवैल-एए पर, जो 45 मॉडलों में डोमेन विशेषज्ञता का मूल्यांकन करता है, एम2.7 ने 1495 का ईएलओ स्कोर हासिल किया – ओपन-सोर्स मॉडलों में से सबसे उच्च, केवल ओपस 4.6, सोनेट 4.6 और जीपीटी -5.4 के पीछे। टूलाथन पर, यह 46.3% सटीकता तक पहुंच गया, और मिनीमैक्स के एमएम क्लॉ मूल्यांकन में 40 जटिल कौशल (प्रत्येक 2,000 टोकन से अधिक) में 97% कौशल अनुपालन दर बनाए रखी।
मॉडल मिनीमैक्स द्वारा एजेंट टीमों के रूप में कहे जाने वाले मूल एजेंट सहयोग का समर्थन करता है, जहां कई मॉडल उदाहरण विभिन्न भूमिका पहचानों को बनाए रखते हैं और कार्यों पर एक साथ काम करते हैं। यह क्षमता व्यवसाय स्वचालन के लिए एआई एजेंट दृश्यों को लक्षित करती है जहां स्थिर भूमिका सीमाएं और एजेंटों के बीच प्रतिद्वंद्वी तर्क आवश्यक हैं।
मिनीमैक्स ने एम2.7 को मिक्स्चर-ऑफ-एक्सपर्ट आर्किटेक्चर पर बनाया, जिसका अर्थ है कि किसी भी एकल अनुमान पास के दौरान इसके 229 बिलियन कुल पैरामीटर में से केवल एक उपसेट सक्रिय होता है। इससे मॉडल घने मॉडल की तुलना में सस्ता और तेजी से परोसने में आसान हो जाता है – जो उन विकासकर्ताओं के लिए एक महत्वपूर्ण विचार है जो स्थानीय रूप से मॉडल चलाना चाहते हैं या सीमित बुनियादी ढांचे पर।
मिनीमैक्स ने ओपनरूम को भी ओपन-सोर्स किया है, जो एक इंटरैक्टिव डेमो है जो मुख्य रूप से एआई द्वारा निर्मित है और एजेंट इंटरैक्शन को वेब जीयूआई में रखता है जिसमें वास्तविक समय विज़ुअल फीडबैक होता है, जो बड़े भाषा मॉडलों को उत्पादकता से परे इंटरैक्टिव मनोरंजन में विस्तारित करने में इसकी रुचि का संकेत देता है।
रिलीज़ ओपन-वेट एजेंट कौशल परिदृश्य में एक और प्रतिस्पर्धी विकल्प जोड़ता है, जहां मेटा, अलीबाबा और डीपसीक जैसे मॉडल सीमाओं को आगे बढ़ा रहे हैं जो मुफ्त में उपलब्ध हैं। स्व-विकास कोण – जहां एक मॉडल अपने स्वयं के उत्तराधिकारी में सुधार करने में अर्थपूर्ण योगदान देता है – अभी भी प्रारंभिक चरण में है, लेकिन एम2.7 इस बात का पहला कंक्रीट डेटा पॉइंट प्रदान करता है कि वास्तविक अभ्यास में यह कैसा दिखता है: 100 से अधिक स्वायत्त अनुकूलन दौर से 30% का आंतरिक बेंचमार्क लाभ, लूप में मानव हस्तक्षेप के बिना।












