人工智能
Gemini 3.1 Pro 创下记录性的推理性能提升

谷歌于 2 月 19 日发布了 Gemini 3.1 Pro,这是其旗舰 AI 模型的更新版本,推理性能提高了两倍以上,同时保持了与前代产品相同的价格。
最引人注目的数字是:在 ARC-AGI-2 基准测试中,测试模型是否能够解决完全新的逻辑模式而不是回忆训练数据,Gemini 3.1 Pro 得分为 77.1%。 Gemini 3 Pro 得分为 31.1%。 这 46 个百分点的跳跃是任何前沿模型家族中单代推理性能的最大提升。
该模型立即在谷歌的消费者和开发者平台上提供。 Gemini 应用程序的 AI Pro 和 AI Ultra 计划用户可以获得更高的使用限制,而开发者可以通过 Gemini API 在 AI Studio、Vertex AI、Gemini CLI、Antigravity 和 Android Studio 中访问 3.1 Pro。 NotebookLM 也为 Pro 和 Ultra 订阅者获得了升级。
价格保持不变,每百万个输入令牌为 2 美元,令牌数少于 200,000 个;对于更长的上下文,价格为每百万个令牌 4 美元。 输出成本为每百万个令牌 12 美元。 对于已经通过 API 使用 Gemini 3 Pro 的用户,升级是免费的。
基准性能全面领先
模型卡 显示 Gemini 3.1 Pro 在 18 个跟踪基准中占据了 12 个第一名。 除了 ARC-AGI-2 之外,其他亮点包括 94.3% 的 GPQA Diamond,一个研究生级科学推理测试,以及 LiveCodeBench Pro 的 2,887 Elo,是所有前沿模型中竞争性编程的最高分数。
在 Humanity’s Last Exam 中——一个来自众多学科专家问题的基准测试中,3.1 Pro 达到 44.4%,高于 Gemini 3 Pro 的 37.5% 和 GPT-5.2 的 34.5%。 多语言 MMLU 基准测试显示 92.6%,128,000 个令牌的长上下文准确率保持在 84.9%。
该模型保留了 1 百万令牌的输入上下文窗口,并生成最多 64,000 个输出令牌,匹配了需要在单个会话中处理整个代码库并生成大量代码块的 AI 编码工具 的规格。
3.1 Pro 不领先的地方也很有启发。 在 SWE-Bench Verified 中,一个测试真实世界软件工程任务的基准测试中,它得分为 80.6%——仅次于 Anthropic 的 Claude Opus 4.6 的 80.8%。 差距很小,但它表明 Anthropic 在实际编码任务中仍然保持着微弱的优势,这些任务推动了企业的采用。
动态思考的变化
Gemini 3.1 Pro 默认使用动态思考,这是一种根据每个提示的复杂性调整内部推理的方法。 简单的问题得到快速的答案。 复杂的多步骤问题会触发更深入的处理链,然后模型会生成其响应。
开发者可以通过 API 中的 thinking_level 参数控制此行为,设置内部推理的最大深度。 这解决了推理模型中的一个紧张关系:延长思考可以提高难题的准确率,但会为直接查询增加延迟和成本。 动态思考试图自动化这种权衡。
该功能反映了更广泛的行业转变。 OpenAI 的 o 系列模型引入了链式思考作为可选模式。 Anthropic 的 Claude 使用扩展思考作为可选功能。 谷歌的方法是使其成为默认值——具有可变强度——这意味着大多数用户宁愿让模型决定思考的难度,而不是自己管理这个决定。
竞争领域的收紧
Gemini 3.1 Pro 出现在一个基准领导地位每月更换的市场中。 谷歌的 Gemini 3 触发了 OpenAI 的 “代码红色”,在不到一个月的时间内就产生了 GPT-5.2。 Anthropic 以加速的速度发布了 Claude 更新。 每个版本都缩小了模型之间的差距,使得平台之间的选择越来越取决于生态系统和价格,而不是原始能力。
谷歌的优势仍然在于分销。 Gemini 3.1 Pro 直接集成到数亿人使用的产品中:Gmail、Docs、Search 和 Personal Intelligence 功能,这些功能将模型连接到用户的个人数据。 该模型还为 Gemini Enterprise 和 Gemini CLI 提供动力,为开发者和企业提供了通过他们已经使用的工具访问的途径。
对于选择前沿模型的开发者来说,价格决策变得更容易。 每百万个输入令牌 2 美元的价格,Gemini 3.1 Pro 低于 OpenAI 和 Anthropic 的旗舰产品的价格,具有可比的能力。 从 3 Pro 升级无需任何费用,消除了现有用户的任何迁移摩擦。
推理收益最重要的应用是代理应用——计划、执行多步骤任务并自主使用工具的 AI 系统。 ARC-AGI-2 特别测试了代理在遇到训练数据中未覆盖的问题时所需的新模式识别能力。 得分为 77.1% 的模型比得分为 31.1% 的模型更可靠地处理陌生情况。
这些基准收益是否会转化为实际改进,是谷歌在未来几周内需要回答的问题。 基准测试捕获了在受控条件下特定的能力;实际用户体验取决于模型在人们抛给它的不可预测的任务范围内的性能。 ARC-AGI-2 的跳跃表明 3.1 Pro 比以往任何模型都更好地处理新颖性。 用户如何使用这种能力将决定这些数字是否重要。












