Connect with us

MiniMax يطرح المصدق المفتوح M2.7، نموذج وكيل自ي التطور

إعلانات

MiniMax يطرح المصدق المفتوح M2.7، نموذج وكيل自ي التطور

mm

أعلنت شركة MiniMax الصينية عن إصدار الأوزان لنموذج MiniMax M2.7، وهو نموذج Mixture-of-Experts يحتوي على 229 مليار معامل يشارك في دورة تطويره الخاصة – مما يُشكل ما تدعيه الشركة بأنه الخطوة الأولى نحو التطور الذاتي للذكاء الاصطناعي.

في الأصل أعلن عنه في 18 مارس، يتوفر نموذج MiniMax M2.7 الآن مجانًا على Hugging Face مع دعم التطوير لـ SGLang و vLLM و Transformers و NVIDIA NIM. يحصل النموذج على 56.22٪ على SWE-Pro و 57.0٪ على Terminal Bench 2، مما يجعله من بين أقوى النماذج اللغوية المفتوحة المصدر لمهام الهندسة البرمجية الحقيقية.

كيف ساهم النموذج في بناء نفسه

أبرز ادعاء حول M2.7 هو دوره في تكراره. كلف MiniMax إصدارًا داخليًا من النموذج بتحسين هيكل برمجي، وقام بتشغيله بشكل مستقل لما يزيد على 100 جولة. خلال ذلك، قام M2.7 بتحليل مسارات الفشل، وعدّل رمز الهيكل، وقام بالتقويمات، وقرر ما إذا كان سيحتفظ أو يرجع كل تغيير.

اكتشف النموذج تحسينات بنفسه: البحث المنهجي عن معاملات عينة مثالية مثل درجة الحرارة وجزاء العقوبة، وتصميم إرشادات سير العمل مثل التحقق التلقائي من أنماط الأخطاء المتطابقة عبر الملفات بعد إصلاح، وإضافة كشف الحلقات إلى حلقة الوكيل. تقارير MiniMax بتحسن أداء بنسبة 30٪ على مجموعات التقييم الداخلية من هذا العملية المستقلة.

في فريق التعلم التعزيزي في MiniMax، يدير M2.7 الآن 30٪ إلى 50٪ من سير العمل اليومية من النهاية إلى النهاية. يتفاعل الباحثون فقط في القرارات الحاسمة، بينما يدير النموذج استعراض الأدب، وتتبع التجارب، وخطوط البيانات، وتصحيح الأخطاء، وطلبات الدمج.

كما قام MiniMax بتحديث M2.7 على MLE Bench Lite، وهو مجموعة من 22 مسابقة تعلم الآلة التي تقوم بتشغيلها على جهاز A30 GPU واحد. في ثلاث تجارب استمرت 24 ساعة، أنتجت أفضل جولة للنموذج 9 ميداليات ذهبية و 5 ميداليات فضية وميدالية برونزية واحدة. كان معدل الميدالية المتوسط 66.6٪ متعادل مع Gemini 3.1 وخلف Opus 4.6 (75.7٪) و GPT-5.4 (71.2٪).

أداء البenchmark عبر الهندسة والعمل المكتبية

على معايير الهندسة البرمجية، يطابق M2.7 أو يقترب من النماذج المغلقة المتقدمة. يحصل على 56.22٪ على SWE-Pro – معيار يغطي تحليل السجلات وتصحيح الأخطاء ومراجعة أمان الكود وتصحيح سير عمل التعلم الآلي عبر لغات برمجة متعددة – متعادل مع GPT-5.3-Codex. على VIBE-Pro، وهو معيار توليد كود مستوى المستودع، سجل 55.6٪، وسجل 76.5 على SWE Multilingual و 52.7 على Multi SWE Bench.

بeyond مولدات الكود الذكية، وضع MiniMax M2.7 لمهام المكتبية المهنية. على GDPval-AA، الذي يقيّم الخبرة في المجال عبر 45 نموذجًا، حقق M2.7 درجة ELO 1495 – الأعلى بين النماذج المفتوحة المصدر، متجاوزًا فقط Opus 4.6 و Sonnet 4.6 و GPT-5.4. على Toolathon، سجل 46.3٪ دقة، وحافظ على معدل توافق مهارات 97٪ عبر 40 مهارة معقدة (تتجاوز كل منها 2000 رمز) في تقييم MM Claw لشركة MiniMax.

يدعم النموذج التعاون المتعددي الوكلاء الأصلي من خلال ما يسميه MiniMax فرق الوكلاء، حيث تحتفظ عدة مثيلات من النموذج بهويات دور متميزة وتعمل معًا على المهام. يستهدف هذا التمكين سيناريوهات الوكلاء الذكية للتحسين التجاري حيث تكون الحدود المستقرة للدور والاستدلال المعادي بين الوكلاء مطلوبة.

بني MiniMax M2.7 على هيكل Mixture-of-Experts، مما يعني أن فقط جزءًا من إجمالي 229 مليار معامل يتم تنشيطه خلال أي عملية استدلال واحدة. هذا يجعل النموذج أكثر رخصًا وسرعة في الخدمة مقارنة بنموذج كثيف من نفس جودة الإخراج – وهو اعتبار مهم للمطورين الذين يريدون تشغيل النماذج محليًا أو على بنية تحتية محدودة.

كما قام MiniMax بنشر OpenRoom، وهو عرض تفاعلي بني في الغالب بواسطة الذكاء الاصطناعي يضع تفاعلات الوكيل داخل واجهة مستخدم ويب مع ت phản hồi مرئي في الوقت الفعلي، مما يدل على اهتمامه بتوسيع نماذج اللغة الكبيرة وراء الإنتاجية إلى الترفيه التفاعلي.

يضيف الإصدار خيارًا تنافسيًا آخر إلى منظومة مهارات الوكيل المفتوحة، حيث قامت نماذج من Meta و Alibaba و DeepSeek بدفع حدود ما هو متاح مجانًا. يبقى زاوية التطور الذاتي – حيث يساهم النموذج بشكل معنوي في تحسين خليفته – في مرحلة مبكرة، แตقدم M2.7 أول نقاط بيانات ملموسة حول ما يبدو عليه ذلك في الممارسة: تحسين أداء داخلي بنسبة 30٪ من 100+ جولة تحسين مستقلة، دون تدخل بشري في الحلقة.

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.