公告

人类本质发布 Claude Opus 4.1,碾压编码基准

mm

人类本质今天发布了 Claude Opus 4.1,这是其旗舰 AI 模型的升级版本,实现了 74.5% 的真实编码任务准确率,创造了新的基准记录,同时保持与其前身相同的价格。

此次更新是人类本质的一个战略举动,因为 AI 行业预计 OpenAI 的 GPT-5 发布,人类本质将其最新模型定位为一个具有竞争力的替代品,擅长复杂编程挑战和自主任务完成。该公司承诺在未来几周内实现“更大幅度的改进”,这预示着 AI 领域的竞争将更加激烈。

关键性能改进

根据人类本质的公告,Claude Opus 4.1 在三个关键领域改进了其前身的性能:需要多步骤推理的代理任务、真实编码应用和分析推理能力。

该模型在 SWE-bench Verified 基准 上实现了 74.5% 的成绩,这是衡量 AI 识别和修复开源软件中实际 bug 的能力的指标,超过了 Claude Opus 4 的 72.5% 成绩,并且比 OpenAI 的 o 系列模型高出约五个百分点。

GitHub 特别强调了该模型在多文件代码重构能力方面的显著改进,而 Rakuten Group 强调了该模型在大型代码库中识别更正的精度,没有引入新的 bug。 Windsurf,一个编码初创公司,报告称 Opus 4.1 相对于 Opus 4 在其初级开发人员基准测试中实现了一标准差的改进,相当于从 Sonnet 3.7 到 Sonnet 4 的性能跳跃。

可用性和集成

升级后的模型立即可供付费 Claude 用户通过 Web 界面和 Claude Code 使用,以及通过 人类本质的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI。开发人员可以使用 API 标签访问新模型,无需价格上涨,保持与前一版本相同的 价格结构,这使得 Claude 在企业市场具有竞争力。

除了软件工程外,Claude Opus 4.1 还展示了增强的数据分析和研究任务能力。人类本质特别强调了“细节跟踪和代理搜索”的改进,指的是该模型在复杂、多步骤操作中保持上下文的能力——这是 企业应用 中自主问题解决所必需的关键功能。

行业背景和竞争

发布的时机似乎是故意的,因为行业报告表明 OpenAI 计划在不久的将来发布 GPT-5。根据 The Information 的报道,GPT-5 预计将专注于类似的领域——编程、数学和代理任务——尽管分析师预测改进可能是渐进的,而不是革命性的。

Claude 模型的快速迭代——此次更新仅在 5 月 Claude 4 家族发布后三个月——反映了 AI 开发的加速步伐,公司竞争市场地位,争夺企业和开发者工具的份额。这遵循人类本质将自己定位为 OpenAI 的安全替代品的历史,同时保持竞争的性能指标。

技术细节和实现

系统卡 显示 Claude Opus 4.1 是一个混合推理模型,能够在有或没有扩展思考模式下运行。对于 SWE-bench Verified 和 Terminal-Bench 等基准,该模型在没有扩展思考的情况下实现了其结果,而其他基准,如 GPQA Diamond 和 MMMU,则利用了最多 64K 个令牌的扩展思考能力。

该模型继续使用相同的简单脚手架进行 SWE-bench 测试,这是人类本质在 Claude 4 家族中使用的方法——只为该模型提供一个 bash 工具和一个通过字符串替换操作的文件编辑工具。这种极简主义的方法与更复杂的实现形成对比,但仍然实现了行业领先的结果。

展望

人类本质建议所有当前 Opus 4 用户升级到新版本,以适用于所有用例。该公司已提供了综合文档,包括 模型页面 和技术规格,以供开发人员在实施技术时参考。

随着人类本质和 OpenAI 准备发布重大更新,未来几周可能是决定下一代 AI 能力的领导地位的关键时期。随着 AI 模型 在推理和编码能力方面变得越来越复杂,竞争正在从原始性能指标转向实际实施和生产环境中的可靠性。

FAQ(Claude Opus 4.1)

Claude Opus 4.1 如何改进编码和推理任务,与早期版本相比?

Claude Opus 4.1 在 SWE-bench Verified 上实现了 74.5% 的成绩(相对于 Opus 4 的 72.5%),在多文件代码重构、复杂代码库中的细节跟踪和代理搜索能力方面有显著改进,使其能够更有效地处理多步骤推理任务。

Claude Opus 4.1 在编码和 AI 代理中的主要实际应用是什么?

该模型擅长调试大型代码库而不引入新的 bug,跨多个文件的自主代码重构,深入的数据分析和需要持续上下文的研究任务,使其适合企业软件开发和自动化工作流优化。

Claude Opus 4.1 在 SWE-bench 上的性能如何反映其编码能力?

SWE-bench Verified 测量 AI 识别和修复开源软件中实际 bug 的能力,Claude Opus 4.1 的 74.5% 成绩代表了最高的公开报告性能,超过 OpenAI 的 o 系列模型约五个百分点。

Claude Opus 4.1 和其他 AI 模型(如 GitHub Copilot 或 ChatGPT)之间的主要区别是什么?

与 GitHub Copilot 专注于代码完成不同,Claude Opus 4.1 处理完整的问题解决工作流,包括调试和重构,同时提供混合推理模式,可以在快速响应和扩展思考之间切换,用于复杂任务——这是标准 ChatGPT 实现中不可用的功能。

开发人员和企业如何将 Claude Opus 4.1 集成到其工作流和平台中?

开发人员可以通过 API 使用标签“claude-opus-4-1-20250805”访问 Claude Opus 4.1,或者通过 Amazon Bedrock、Google Cloud Vertex AI 或 Claude Code 进行命令行集成,价格与 Opus 4 相同,无需对现有实现进行代码更改。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。