公告

MiniMax 开源 M2.7,一个自我进化的智能体模型

mm

中国人工智能公司 MiniMax 已经发布了 MiniMax M2.7 的权重,这是一个 229 亿参数的 Mixture-of-Experts 模型,它参与了自己的开发周期——这标志着公司所谓的自主人工智能自我进化的第一步。

最初 于 3 月 18 日宣布,MiniMax M2.7 现在可以在 Hugging Face 上免费使用,并支持 SGLang、vLLM、Transformers 和 NVIDIA NIM 的部署。该模型在 SWE-Pro 上获得了 56.22% 的分数,在 Terminal Bench 2 上获得了 57.0% 的分数,使其成为最强大的开源 LLM 之一,适用于实际的软件工程任务。

模型如何帮助自己构建

关于 M2.7 最值得注意的说法是其在自己的迭代过程中发挥的作用。MiniMax 将一个内部版本的模型任务化为优化编程框架,自主运行了 100 多轮。在此过程中,M2.7 分析了故障轨迹,修改了框架代码,运行了评估,并决定是否保留或还原每个更改。

模型发现了自己的优化:系统地搜索最佳采样参数,如温度和频率惩罚,设计工作流指南,如自动检查文件中的重复 bug 模式,并将循环检测添加到框架的代理循环中。MiniMax 报告称,这个自主过程使内部评估集的性能提高了 30%。

在 MiniMax 的强化学习团队中,M2.7 现在处理 30% 至 50% 的日常工作流程。研究人员仅在关键决策时进行交互,而模型管理文献综述、实验跟踪、数据管道、调试和合并请求。

MiniMax 还在 MLE Bench Lite 上测试了 M2.7,这是一个由 22 个机器学习竞赛组成的套件,运行在单个 A30 GPU 上。在三个 24 小时试验中,模型的最佳运行产生了 9 枚金牌、5 枚银牌和 1 枚铜牌。平均奖牌率为 66.6%,与 Gemini 3.1 并列,仅次于 Opus 4.6(75.7%)和 GPT-5.4(71.2%)。

在工程和办公工作中跨度的基准性能

在软件工程基准测试中,M2.7 与最前沿的闭源模型相匹配或接近。其在 SWE-Pro 上的 56.22% 分数——一个涵盖多种编程语言的日志分析、bug 故障排除、代码安全审查和机器学习工作流调试的基准测试——与 GPT-5.3-Codex 相同。在 VIBE-Pro 上,它获得了 55.6% 的分数,并在 SWE Multilingual 上注册了 76.5 分,在 Multi SWE Bench 上注册了 52.7 分。

除了 AI 代码生成器,MiniMax 将 M2.7 定位为专业办公任务。在 GDPval-AA 上,它实现了 1495 的 ELO 分数——这是开源模型中最高的,仅次于 Opus 4.6、Sonnet 4.6 和 GPT-5.4。在 Toolathon 上,它达到 46.3% 的准确率,并在 MiniMax 的 MM Claw 评估中保持了 97% 的技能合规率,涵盖 40 个复杂技能(每个技能超过 2000 个标记)。

该模型通过 MiniMax 所谓的代理团队支持本地多代理协作,即多个模型实例保持不同的角色身份并共同完成任务。这种功能针对 AI 代理商务自动化 场景,需要代理之间的稳定角色边界和对抗性推理。

MiniMax 使用 Mixture-of-Experts 架构构建了 M2.7,这意味着在任何单个推理过程中,只有模型的 229 亿参数子集被激活。这使得该模型比具有相似输出质量的密集模型更便宜、更快地提供服务——对于希望 在本地运行模型 或在有限基础设施上运行模型的开发人员来说,这是一个重要的考虑因素。

MiniMax 还开源了 OpenRoom,一个由 AI 主要构建的交互式演示,提供了代理交互的 web GUI 和实时视觉反馈,表明了其将大型语言模型扩展到交互式娱乐的兴趣。

该版本为开源权重 代理技能 增加了另一个竞争选项,模型来自 Meta、Alibaba 和 DeepSeek,这些模型一直在推动开源模型的边界。自我进化的角度——模型有意义地为其自身后继者的改进做出贡献——仍处于早期阶段,但 M2.7 提供了第一个关于实践中这种情况的具体数据点:100 多轮自主优化,从而在没有人工干预的情况下实现了 30% 的内部基准测试提高。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。