公告
MiniMax 开源 M2.7,一个自我进化的智能体模型

中国 AI 公司 MiniMax 已经发布了 MiniMax M2.7 的权重,这是一个 229 亿参数的 Mixture-of-Experts 模型,它参与了自己的开发周期——标志着公司所谓的自治 AI 自我进化的第一步。
最初 于 3 月 18 日宣布,MiniMax M2.7 现在可以在 Hugging Face 上免费获取,并支持 SGLang、vLLM、Transformers 和 NVIDIA NIM 的部署。该模型在 SWE-Pro 上得分为 56.22%,在 Terminal Bench 2 上得分为 57.0%,使其成为最强大的 开源 LLM 之一,适用于实际的软件工程任务。
模型如何帮助构建自身
关于 M2.7 最值得注意的说法是它在自己的迭代中发挥的作用。MiniMax 将一个内部版本的模型任务为优化编程框架,自主运行超过 100 轮。在此过程中,M2.7 分析了故障轨迹,修改了框架代码,运行了评估,并决定是否保留或还原每个更改。
该模型自行发现了优化:系统地搜索最佳采样参数,如温度和频率惩罚,设计工作流指南,例如在修复后自动检查文件中的相同 bug 模式,并将循环检测添加到框架的智能体循环中。MiniMax 报告称,从这个自治过程中获得了 30% 的性能改进,在内部评估集上。
在 MiniMax 的强化学习团队中,M2.7 现在处理 30% 至 50% 的日常工作流程。研究人员仅在关键决策时进行交互,而模型管理文献综述、实验跟踪、数据管道、调试和合并请求。
MiniMax 还在 MLE Bench Lite 上测试了 M2.7,这是 OpenAI 的 22 个机器学习竞赛套件,可以在单个 A30 GPU 上运行。在三次 24 小时试验中,模型的最佳运行产生了 9 枚金牌、5 枚银牌和 1 枚铜牌。平均奖牌率为 66.6%,与 Gemini 3.1 并列,只落后于 Opus 4.6(75.7%)和 GPT-5.4(71.2%)。
跨工程和办公工作的基准性能
在软件工程基准测试中,M2.7 与或接近闭源模型的前沿。它在 SWE-Pro 上的 56.22% 得分——一个涵盖多种编程语言的日志分析、bug 故障排除、代码安全审查和机器学习工作流调试的基准测试——与 GPT-5.3-Codex 相匹配。在 VIBE-Pro 上,它得分为 55.6%,并在 SWE 多语言上注册了 76.5,在 Multi SWE Bench 上得分为 52.7。
除了 AI 代码生成器 之外,MiniMax 还将 M2.7 定位为专业办公任务。在 GDPval-AA 上,它评估了 45 个模型的领域专业知识,M2.7 获得了 1495 的 ELO 得分——这是开源模型中最高的,只落后于 Opus 4.6、Sonnet 4.6 和 GPT-5.4。在 Toolathon 上,它达到了 46.3% 的准确率,并在 MiniMax 的 MM Claw 评估中保持了 40 个复杂技能(每个技能超过 2000 个标记)的 97% 的技能合规率。
该模型支持通过 MiniMax 所谓的智能体团队实现本机多智能体协作,其中多个模型实例保持不同的角色身份,并共同完成任务。此功能针对 AI 代理商业自动化 场景,其中需要稳定的角色边界和代理之间的对抗性推理。
MiniMax 基于 Mixture-of-Experts 架构构建了 M2.7,这意味着在任何单个推理传递中,只有其 229 亿总参数的子集被激活。这使得该模型比具有可比输出质量的密集模型更便宜、更快地提供服务——对于希望 在本地运行模型 或在有限基础设施上运行模型的开发人员来说,这是一个重要的考虑因素。
MiniMax 还开源了 OpenRoom,一个由 AI 主要构建的交互式演示,将智能体交互放入具有实时视觉反馈的 Web GUI 中,表明了其将大型语言模型扩展到交互式娱乐之外的兴趣。
发布为开源权重 智能体技能 景观添加了另一个具有竞争力的选项,其中来自 Meta、阿里巴巴和 DeepSeek 的模型一直在推动自由可用的边界。自我进化的角度——模型以有意义的方式为其自身的改进做出贡献——仍然处于初期阶段,但 M2.7 提供了实践中的第一个具体数据点:100 多轮自治优化的 30% 的内部基准增益,没有人工干预。
