Connect with us

人工智能

OpenAI 和 Anthropic 放弃竞争模型,AI 竞赛加剧

mm

OpenAI 和 Anthropic 今天在几分钟内发布了新的旗舰模型,同时 OpenAI 同时推出了企业代理平台,Perplexity 推出了多模型研究功能。今天的发布比大多数周的总和还要多。

这里是发布的内容和其意义。

Anthropic 的 Opus 4.6:代理团队和一百万令牌窗口

Anthropic 发布了 Claude Opus 4.6,这是他们最强大的模型,具有两个主要特点:一个一百万令牌的上下文窗口和一个名为代理团队的新功能。

上下文窗口是一个更大的技术成就。在一百万令牌的情况下,Opus 4.6 可以在单个提示中处理大约 3,000 页的文本 —— 这是其前身 256,000 令牌限制的四倍。结合 128,000 令牌的输出支持,该模型现在可以在不需要分块或总结的情况下处理整个代码库、监管文件或研究语料库。

代理团队,可在 Claude Code 中使用,允许多个 Claude 实例并行地在共享代码库上工作。与单个代理顺序执行任务不同,开发人员可以创建团队,其中一个代理处理前端更改,另一个代理编写测试,第三个代理重构后端逻辑 —— 所有代理都在同一个项目上协同工作。

Opus 4.6 还引入了自适应思考,这使得模型可以根据给定的提示来调整其推理努力。简单的问题可以快速得到回答;复杂的问题会触发更深入的思考。开发人员可以通过四个级别的努力控制来调整这一点:低、中、高和最大。

在基准测试中,Opus 4.6 在 Terminal-Bench 2.0 的代理编码和人类最后的考试中获得了最高分,这是一个复杂的推理评估。Anthropic 声称在 GDPval-AA 评估中比 GPT-5.2 有 144 分的 Elo 优势,并且比 Opus 4.5 有 190 分的改进。

API 定价保持不变,每百万输入令牌为 5 美元,每百万输出令牌为 25 美元,尽管超过 200,000 令牌的提示的费率为 10 美元/37.50 美元。

在一个值得注意的企业行动中,Anthropic 宣布了 Claude 在 Microsoft PowerPoint 中的研究预览,该模型可以读取现有的幻灯片布局和模板,并在保留品牌格式的同时生成或编辑演示文稿。

OpenAI 的 GPT-5.3-Codex:帮助构建自己的模型

在 Anthropic 的公告仅几分钟后,OpenAI 推出了 GPT-5.3-Codex,这是他们最强大的编码模型。该版本将 GPT-5.2-Codex 的前沿编码性能与 GPT-5.2 的推理和专业知识能力统一到一个系统中,该系统还快了 25%。

最值得注意的说法是:GPT-5.3-Codex 帮助构建了自己。OpenAI 的 Codex 团队在模型的训练过程中使用了早期版本的模型 —— 调试训练运行、管理部署基础设施和诊断评估结果。这是 OpenAI 首次公开承认一个模型在其自身开发中发挥了重要作用,这是一个既提高了效率又引发了安全问题的里程碑。

GPT-5.3-Codex 在 SWE-Bench Pro 和 Terminal-Bench 上设定了新的行业最高标准,这些基准评估了现实世界的软件工程任务。该模型可以处理涉及研究、工具使用和复杂执行的长时间任务,用户可以在任务中与其交互而不会失去上下文 —— 更像与同事合作而不是发出命令。

该模型现在通过 Codex 应用程序、CLI、IDE 扩展和 Web 界面可供所有 ChatGPT Paid 计划用户使用。API 访问即将推出。

对于选择 AI 代码生成器的开发人员,竞争格局现在已经明确:Opus 4.6 在代理协调和长上下文工作方面领先,而 GPT-5.3-Codex 强调速度和集成推理。两者都声称在重叠基准上获得最高分,像 AI 代码生成器 这样的工具以及 CursorApple 的 Xcode 支持两者,因此开发人员可以自由切换。

OpenAI Frontier:企业代理拥有自己的平台

在模型发布的同时,OpenAI 推出了 Frontier,一个用于构建、部署和管理 AI 代理的企业平台。Frontier 连接到数据库、CRM 系统、HR 平台、票务工具和其他业务应用程序,然后允许 AI 代理在它们之间执行流程。

OpenAI 将 Frontier 描述为“企业的语义层”,在这里人类员工和 AI 代理在同一个平台上运行,具有共享的数据访问和安全控制。代理获得类似员工的身份、共享的组织上下文和企业级别的权限。

该平台是模型无关的 —— 公司可以在 OpenAI 的模型旁边管理来自 Google、Microsoft 和 Anthropic 的代理。初始客户包括 Intuit、State Farm、Thermo Fisher 和 Uber。

Frontier 使 OpenAI 能够直接与企业平台如 Salesforce 的 Agentforce 和 ServiceNow 的 AI 代理竞争。区别在于:OpenAI 正在从模型层构建,而现有的公司正在将 AI 添加到现有的工作流工具中。无论企业是否更喜欢从其 AI 提供商或软件供应商获得其代理基础设施,将定义 2026 年的企业 AI 竞争。

Perplexity 的 Model Council:三个模型,一个答案

Perplexity 推出了 Model Council,一个功能,它可以同时在三个模型上运行相同的查询 —— Claude Opus、GPT 和 Gemini —— 然后使用一个综合模型来调和它们的输出以得到一个单一的答案,该答案标记了同意和不同意的区域。

图片:Perplexity

前提是没有单一的模型可以在所有查询中可靠地获得最佳结果。当三个前沿模型在同一个答案上达成一致时,信心很高。当它们出现分歧时,用户知道需要进一步调查。Model Council 可供 Max 订阅者使用,并针对投资研究、战略分析和复杂决策进行定位。

该功能反映了 Perplexity 通过多模型编排而不是构建基础模型来区别于其他公司的战略。随着前沿 AI 聊天机器人在单个基准测试上的差距缩小,聚合它们的输出可能比选择单一提供商更有价值。

所有的意义

这些发布确认 AI 竞争已经从模型能力转移到产品基础设施。OpenAI 和 Anthropic 都有在同一基准测试中获得最高分的模型;现在的区别在于可以在它们之上构建什么。

Perplexity 同时正在悄悄地论证模型战争可能不如模型组合更重要。如果 Model Council 证明是有用的,那么它表明未来不是选择 Claude 或 GPT —— 而是使用两者。

对于评估其 AI 堆栈的开发人员和企业来说,这使得决定更加困难。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。