公告

人类本质发布 Claude Opus 4.1，碾压编码基准

发布于 2025年8月5日

更新于 2026年5月18日

Alex McFarland

人类本质今天发布了 Claude Opus 4.1，这是其旗舰 AI 模型的升级版本，实现了 74.5% 的真实编码任务准确率，创造了新的基准记录，同时保持与其前身相同的价格。

此次更新是人类本质的一个战略举动，因为 AI 行业预计 OpenAI 的 GPT-5 发布，人类本质将其最新模型定位为一个具有竞争力的替代品，擅长复杂编程挑战和自主任务完成。该公司承诺在未来几周内实现“更大幅度的改进”，这预示着 AI 领域的竞争将更加激烈。

关键性能改进

根据人类本质的公告，Claude Opus 4.1 在三个关键领域改进了其前身的性能：需要多步骤推理的代理任务、真实编码应用和分析推理能力。

该模型在 SWE-bench Verified 基准上实现了 74.5% 的成绩，这是衡量 AI 识别和修复开源软件中实际 bug 的能力的指标，超过了 Claude Opus 4 的 72.5% 成绩，并且比 OpenAI 的 o 系列模型高出约五个百分点。

GitHub 特别强调了该模型在多文件代码重构能力方面的显著改进，而 Rakuten Group 强调了该模型在大型代码库中识别更正的精度，没有引入新的 bug。 Windsurf，一个编码初创公司，报告称 Opus 4.1 相对于 Opus 4 在其初级开发人员基准测试中实现了一标准差的改进，相当于从 Sonnet 3.7 到 Sonnet 4 的性能跳跃。

可用性和集成

升级后的模型立即可供付费 Claude 用户通过 Web 界面和 Claude Code 使用，以及通过人类本质的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI。开发人员可以使用 API 标签访问新模型，无需价格上涨，保持与前一版本相同的价格结构，这使得 Claude 在企业市场具有竞争力。

除了软件工程外，Claude Opus 4.1 还展示了增强的数据分析和研究任务能力。人类本质特别强调了“细节跟踪和代理搜索”的改进，指的是该模型在复杂、多步骤操作中保持上下文的能力——这是企业应用中自主问题解决所必需的关键功能。

行业背景和竞争

发布的时机似乎是故意的，因为行业报告表明 OpenAI 计划在不久的将来发布 GPT-5。根据 The Information 的报道，GPT-5 预计将专注于类似的领域——编程、数学和代理任务——尽管分析师预测改进可能是渐进的，而不是革命性的。

Claude 模型的快速迭代——此次更新仅在 5 月 Claude 4 家族发布后三个月——反映了 AI 开发的加速步伐，公司竞争市场地位，争夺企业和开发者工具的份额。这遵循人类本质将自己定位为 OpenAI 的安全替代品的历史，同时保持竞争的性能指标。

技术细节和实现

该系统卡显示 Claude Opus 4.1 是一个混合推理模型，能够在有或没有扩展思考模式下运行。对于 SWE-bench Verified 和 Terminal-Bench 等基准，该模型在没有扩展思考的情况下实现了其结果，而其他基准，如 GPQA Diamond 和 MMMU，则利用了最多 64K 个令牌的扩展思考能力。

该模型继续使用相同的简单脚手架进行 SWE-bench 测试，这是人类本质在 Claude 4 家族中使用的方法——只为该模型提供一个 bash 工具和一个通过字符串替换操作的文件编辑工具。这种极简主义的方法与更复杂的实现形成对比，但仍然实现了行业领先的结果。

展望

人类本质建议所有当前 Opus 4 用户升级到新版本，以适用于所有用例。该公司已提供了综合文档，包括模型页面和技术规格，以供开发人员在实施技术时参考。

随着人类本质和 OpenAI 准备发布重大更新，未来几周可能是决定下一代 AI 能力的领导地位的关键时期。随着 AI 模型在推理和编码能力方面变得越来越复杂，竞争正在从原始性能指标转向实际实施和生产环境中的可靠性。

FAQ（Claude Opus 4.1）

Claude Opus 4.1 如何改进编码和推理任务，与早期版本相比？

Claude Opus 4.1 在 SWE-bench Verified 上实现了 74.5% 的成绩（相对于 Opus 4 的 72.5%），在多文件代码重构、复杂代码库中的细节跟踪和代理搜索能力方面有显著改进，使其能够更有效地处理多步骤推理任务。

Claude Opus 4.1 在编码和 AI 代理中的主要实际应用是什么？

该模型擅长调试大型代码库而不引入新的 bug，跨多个文件的自主代码重构，深入的数据分析和需要持续上下文的研究任务，使其适合企业软件开发和自动化工作流优化。

Claude Opus 4.1 在 SWE-bench 上的性能如何反映其编码能力？

SWE-bench Verified 测量 AI 识别和修复开源软件中实际 bug 的能力，Claude Opus 4.1 的 74.5% 成绩代表了最高的公开报告性能，超过 OpenAI 的 o 系列模型约五个百分点。

Claude Opus 4.1 和其他 AI 模型（如 GitHub Copilot 或 ChatGPT）之间的主要区别是什么？

与 GitHub Copilot 专注于代码完成不同，Claude Opus 4.1 处理完整的问题解决工作流，包括调试和重构，同时提供混合推理模式，可以在快速响应和扩展思考之间切换，用于复杂任务——这是标准 ChatGPT 实现中不可用的功能。

开发人员和企业如何将 Claude Opus 4.1 集成到其工作流和平台中？

开发人员可以通过 API 使用标签“claude-opus-4-1-20250805”访问 Claude Opus 4.1，或者通过 Amazon Bedrock、Google Cloud Vertex AI 或 Claude Code 进行命令行集成，价格与 Opus 4 相同，无需对现有实现进行代码更改。