Connect with us

人工智能

双子星 3.1 Pro 创下记录性的推理增益

mm

Google 于 2 月 19 日发布了 双子星 3.1 Pro,这是其旗舰 AI 模型的更新版本,推理性能提高了一倍多,同时保持与其前身相同的价格。

最引人注目的数字是:在 ARC-AGI-2 上,一个测试模型是否可以解决完全新的逻辑模式而不是回忆训练数据的基准测试中,双子星 3.1 Pro 得分为 77.1%。 双子星 3 Pro 得分为 31.1%。 这 46 个百分点的跳跃是任何前沿模型家族中单代推理增益最大的。

该模型立即在 Google 的消费者和开发者平台上提供。双子星应用程序的 AI Pro 和 AI Ultra 计划用户可以获得更高的使用限制,而开发者可以通过双子星 API 在 AI Studio、Vertex AI、双子星 CLI、Antigravity 和 Android Studio 中访问 3.1 Pro。NotebookLM 也为 Pro 和 Ultra 订阅者获得了升级。

对于少于 200,000 个令牌的提示,价格保持为每百万输入令牌 2 美元,较长的上下文为 4 美元。输出成本为每百万令牌 12 美元。对于已经通过 API 使用双子星 3 Pro 的用户,升级是免费的。

全方位的基准性能

模型卡 显示双子星 3.1 Pro 在 18 个跟踪基准中占据了 12 个第一名。除了 ARC-AGI-2 之外,其他亮点包括 94.3% 的 GPQA Diamond,一项研究生级别的科学推理测试,以及 2,887 Elo 的 LiveCodeBench Pro,这是所有前沿模型中竞争性编程的最高分数。

在人类最后的考试中——一个来自众多学科的专家问题的基准测试中,3.1 Pro 达到了 44.4%,高于双子星 3 Pro 的 37.5% 和 GPT-5.2 的 34.5%。多语言 MMLU 基准测试显示 92.6%,并且 128,000 个令牌的长上下文准确性保持在 84.9%。

该模型保留了 1 百万令牌的输入上下文窗口,并生成最多 64,000 个输出令牌,匹配了需要处理整个代码库并在单个会话中生成大量代码块的 AI 代码生成工具 的规格。

3.1 Pro 不领先的地方也很有启发。 在 SWE-Bench Verified 上,一个测试现实世界软件工程任务的基准测试中,它的得分为 80.6%——仅次于 Anthropic 的 Claude Opus 4.6 的 80.8%。差距很小,但它表明 Anthropic 在驱动企业采用率的实际编码任务中仍然保持着微弱的优势。

动态思维的变化

双子星 3.1 Pro 默认使用动态思维,这是一种根据每个提示的复杂性调整内部推理的方法。简单的问题得到快速的答案。复杂的多步骤问题触发更深的处理链,然后模型生成其响应。

开发者可以通过 API 中的 thinking_level 参数控制此行为,设置内部推理的最大深度。这解决了推理模型中的一个紧张关系:延长的思考提高了难题的准确性,但增加了直接查询的延迟和成本。动态思维试图自动化这种权衡。

该功能反映了更广泛的行业转变。OpenAI 的 o 系列模型引入了 chain-of-thought 推理作为一个可选择的模式。Anthropic 的 Claude 使用扩展思维作为一个可选功能。Google 的方法是默认启用它——具有可变强度——这意味着大多数用户宁愿让模型决定思考多久,而不是自己管理这个决定。

竞争格局的收紧

双子星 3.1 Pro 出现在一个基准领导地位每月更换的市场中。Google 的双子星 3 触发了 OpenAI 的“代码红色”,这产生了 GPT-5.2,在不到一个月的时间内。Anthropic 已经以加速的速度发布了 Claude 更新。每个版本都缩小了模型之间的差距,使得在平台之间的选择越来越多地取决于生态系统和价格,而不是原始能力。

Google 的优势仍然在于分销。双子星 3.1 Pro 直接插入了数亿人使用的产品:Gmail、Docs、Search 和 个人智能 功能,它将模型连接到用户的个人数据。该模型还为 双子星企业和双子星 CLI 提供了动力,通过开发者和企业已经使用的工具为开发者和企业提供了访问权限。

对于选择前沿模型的开发者来说,价格决策已经变得更容易。以每百万输入令牌 2 美元的价格,双子星 3.1 Pro 低于 OpenAI 和 Anthropic 的旗舰产品的价格。从 3 Pro 升级的无成本升级消除了现有用户的任何迁移摩擦。

推理增益最重要的是代理应用程序——计划、执行多步骤任务并自主使用工具的 AI 系统。ARC-AGI-2 特别测试了代理在遇到其训练数据中没有涵盖的问题时所需的新模式识别能力。得分为 77.1% 的模型比得分为 31.1% 的模型更可靠地处理不熟悉的情况。

这些基准增益是否转化为成比例的现实世界改进是 Google 在未来几周内需要回答的问题。基准测试捕获了特定的能力,在受控条件下;实际用户体验取决于模型在用户抛出给它的不可预测的任务范围内的性能。ARC-AGI-2 的跳跃表明 3.1 Pro 处理新颖性比以往任何模型都更好。用户如何利用这种能力将决定这些数字是否重要。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。