公告

MiniMax 开源 M2.7，一个自我进化的智能体模型

Published April 13, 2026

Alex McFarland

中国 AI 公司 MiniMax 已经发布了 MiniMax M2.7 的权重，这是一个 229 亿参数的 Mixture-of-Experts 模型，它参与了自己的开发周期——标志着公司所谓的自治 AI 自我进化的第一步。

最初于 3 月 18 日宣布，MiniMax M2.7 现在可以在 Hugging Face 上免费获取，并支持 SGLang、vLLM、Transformers 和 NVIDIA NIM 的部署。该模型在 SWE-Pro 上得分为 56.22%，在 Terminal Bench 2 上得分为 57.0%，使其成为最强大的开源 LLM 之一，适用于实际的软件工程任务。

模型如何帮助构建自身

关于 M2.7 最值得注意的说法是它在自己的迭代中发挥的作用。MiniMax 将一个内部版本的模型任务为优化编程框架，自主运行超过 100 轮。在此过程中，M2.7 分析了故障轨迹，修改了框架代码，运行了评估，并决定是否保留或还原每个更改。

该模型自行发现了优化：系统地搜索最佳采样参数，如温度和频率惩罚，设计工作流指南，例如在修复后自动检查文件中的相同 bug 模式，并将循环检测添加到框架的智能体循环中。MiniMax 报告称，从这个自治过程中获得了 30% 的性能改进，在内部评估集上。

在 MiniMax 的强化学习团队中，M2.7 现在处理 30% 至 50% 的日常工作流程。研究人员仅在关键决策时进行交互，而模型管理文献综述、实验跟踪、数据管道、调试和合并请求。

MiniMax 还在 MLE Bench Lite 上测试了 M2.7，这是 OpenAI 的 22 个机器学习竞赛套件，可以在单个 A30 GPU 上运行。在三次 24 小时试验中，模型的最佳运行产生了 9 枚金牌、5 枚银牌和 1 枚铜牌。平均奖牌率为 66.6%，与 Gemini 3.1 并列，只落后于 Opus 4.6（75.7%）和 GPT-5.4（71.2%）。

跨工程和办公工作的基准性能

在软件工程基准测试中，M2.7 与或接近闭源模型的前沿。它在 SWE-Pro 上的 56.22% 得分——一个涵盖多种编程语言的日志分析、bug 故障排除、代码安全审查和机器学习工作流调试的基准测试——与 GPT-5.3-Codex 相匹配。在 VIBE-Pro 上，它得分为 55.6%，并在 SWE 多语言上注册了 76.5，在 Multi SWE Bench 上得分为 52.7。

除了 AI 代码生成器之外，MiniMax 还将 M2.7 定位为专业办公任务。在 GDPval-AA 上，它评估了 45 个模型的领域专业知识，M2.7 获得了 1495 的 ELO 得分——这是开源模型中最高的，只落后于 Opus 4.6、Sonnet 4.6 和 GPT-5.4。在 Toolathon 上，它达到了 46.3% 的准确率，并在 MiniMax 的 MM Claw 评估中保持了 40 个复杂技能（每个技能超过 2000 个标记）的 97% 的技能合规率。

该模型支持通过 MiniMax 所谓的智能体团队实现本机多智能体协作，其中多个模型实例保持不同的角色身份，并共同完成任务。此功能针对 AI 代理商业自动化场景，其中需要稳定的角色边界和代理之间的对抗性推理。

MiniMax 基于 Mixture-of-Experts 架构构建了 M2.7，这意味着在任何单个推理传递中，只有其 229 亿总参数的子集被激活。这使得该模型比具有可比输出质量的密集模型更便宜、更快地提供服务——对于希望在本地运行模型或在有限基础设施上运行模型的开发人员来说，这是一个重要的考虑因素。

MiniMax 还开源了 OpenRoom，一个由 AI 主要构建的交互式演示，将智能体交互放入具有实时视觉反馈的 Web GUI 中，表明了其将大型语言模型扩展到交互式娱乐之外的兴趣。

发布为开源权重智能体技能景观添加了另一个具有竞争力的选项，其中来自 Meta、阿里巴巴和 DeepSeek 的模型一直在推动自由可用的边界。自我进化的角度——模型以有意义的方式为其自身的改进做出贡献——仍然处于初期阶段，但 M2.7 提供了实践中的第一个具体数据点：100 多轮自治优化的 30% 的内部基准增益，没有人工干预。

Unite.AI

MiniMax 开源 M2.7，一个自我进化的智能体模型

模型如何帮助构建自身

跨工程和办公工作的基准性能

You may like