人工智能

开放AI和Anthropic发布竞争模型,AI竞争加剧

mm

开放AI和Anthropic在今天内相隔几分钟发布了新的旗舰模型,同时开放AI还推出了企业代理平台,Perplexity推出了多模型研究功能。今天的发布比大多数周的总和还要多。

以下是发布的内容和其意义。

Anthropic的Opus 4.6:代理团队和一百万令牌窗口

Anthropic 发布了Claude Opus 4.6,这是他们最强大的模型,具有两个主要特点:一个一百万令牌的上下文窗口和一个名为代理团队的新功能。

上下文窗口是一个更大的技术成就。在一百万令牌的限制下,Opus 4.6可以在一个提示中处理大约3,000页的文本——这是其前身256,000令牌限制的四倍。结合128,000令牌的输出支持,该模型现在可以不需要分块或总结就能处理整个代码库、监管文件或研究语料库。

代理团队,可在Claude Code中使用,允许多个Claude实例并行地在一个共享的代码库上工作。开发人员可以创建一个团队,其中一个代理处理前端更改,另一个代理编写测试,第三个代理重构后端逻辑——所有这些都可以在同一个项目上同时协调地工作。

Opus 4.6还引入了自适应思维,这使得模型可以根据提示的复杂性调整其推理努力。简单的问题可以快速得到回答;复杂的问题会触发更深入的思考。开发人员可以通过四个级别的努力控制来调整这一点:低、中、高和最大。

在基准测试中,Opus 4.6在Terminal-Bench 2.0的代理编码方面得分最高,并且在人类最后的考试中领先,这是一个复杂的推理评估。Anthropic声称在GDPval-AA评估中比GPT-5.2有144分的Elo优势,并且比Opus 4.5有190分的改进。

API定价保持不变,每百万个输入令牌为5美元,每百万个输出令牌为25美元,尽管超过200,000个令牌的提示将收取10美元/37.50美元的高级费率。

在一个值得注意的企业举动中,Anthropic宣布了Claude在Microsoft PowerPoint中的研究预览,在那里该模型可以读取现有的幻灯片布局和模板,并在保留品牌格式的同时生成或编辑演示文稿。

开放AI的GPT-5.3-Codex:帮助构建自己的模型

在Anthropic的公告仅几分钟后,开放AI 推出了GPT-5.3-Codex,这是他们最强大的编码模型。该版本将GPT-5.2-Codex的前沿编码性能与GPT-5.2的推理和专业知识能力统一到了一个系统中,该系统还快了25%。

最值得注意的说法是:GPT-5.3-Codex帮助构建了自己。开放AI的Codex团队在模型训练过程中使用了早期版本的模型——调试训练运行、管理部署基础设施和诊断评估结果。这是开放AI首次公开承认一个模型在其自身开发中发挥了重要作用,这是一个既提高了效率又引发了安全问题的里程碑。

GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench上设定了新的行业记录,这些基准测试评估了现实世界的软件工程任务。该模型可以处理涉及研究、工具使用和复杂执行的长时间任务,用户可以在任务中途与其交互而不会丢失上下文——更像与同事合作而不是发出命令。

该模型现已通过Codex应用程序、CLI、IDE扩展和Web界面向所有ChatGPT付费计划用户开放。API访问即将推出。

对于选择AI代码生成器的开发人员,竞争格局现在已经明确:Opus 4.6在代理协调和长上下文工作方面领先,而GPT-5.3-Codex则强调速度和集成推理。两者都声称在重叠基准测试中获得最高分,像 CursorApple的Xcode 这样的工具支持两者,因此开发人员可以自由切换。

开放AI Frontier:企业代理拥有自己的平台

在模型发布的同时,开放AI 推出了Frontier,一个用于构建、部署和管理AI代理的企业平台。Frontier连接到数据库、CRM系统、人力资源平台、票务工具和其他业务应用程序,然后允许AI代理跨这些应用程序执行流程。

开放AI将Frontier描述为“企业的语义层”,在那里人类员工和AI代理在同一个平台上工作,共享数据访问和安全控制。代理获得类似员工的身份、共享组织上下文和企业级权限。

该平台是模型无关的——公司可以在开放AI的模型旁边管理来自Google、Microsoft和Anthropic的代理。初始客户包括Intuit、State Farm、Thermo Fisher和Uber。

Frontier使开放AI能够直接与企业平台如Salesforce的Agentforce和ServiceNow的AI代理竞争。不同之处在于:开放AI从模型层开始构建,而现有的公司则在现有的工作流工具上添加AI。企业是否更喜欢从AI提供商还是软件供应商获得代理基础设施,将定义2026年的企业AI竞争。

Perplexity的模型委员会:三个模型,一个答案

Perplexity 推出了模型委员会,该功能同时在三个模型上运行相同的查询——Claude Opus、GPT和Gemini——然后使用一个综合模型将它们的输出合并成一个单一的答案,该答案标记了同意和不同意的区域。

图片:Perplexity

该前提是没有一个单一的模型可以在所有查询中始终是最好的。当三个前沿模型在同一个答案上达成一致时,信心就会很高。当它们出现分歧时,用户就会知道需要进一步调查。模型委员会现已对Max订阅者开放,并针对投资研究、战略分析和复杂决策进行了定位。

该功能反映了Perplexity通过多模型编排而不是构建基础模型来实现差异化的战略。随着前沿AI聊天机器人在个别基准测试上的差距缩小,聚合它们的输出可能比选择单一提供商更有价值。

所有的意义

这些发布确认了AI竞争已经从模型能力转移到产品基础设施。开放AI和Anthropic都有在同一个基准测试中领先的模型;现在的差异化在于你可以在它们的基础上构建什么。

Perplexity,另一方面,则在悄悄地提出一个论点,即模型战争可能不如模型组合更重要。如果模型委员会被证明是有用的,那么它表明未来不是在Claude和GPT之间做出选择——而是同时使用它们。

对于正在评估AI堆栈的开发人员和企业来说,这使得决定变得更加困难。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。