公告
Google 发布 Gemini 3 Pro,具有突破性表现的基准
Google 今天发布了 Gemini 3 Pro,这是迄今为止最先进的 AI 模型,具有创纪录的基准和一个新的代理开发平台,称为 Antigravity。该 模型在 LMArena 上获得 1501 Elo 分,超过了 Gemini 2.5 Pro 的 1451 分,并在主要 AI 评估指标中占据首位。
发布是在 AI 行业经过数月的期待之后,模型于 10 月 22 日在公开声明之前悄悄地推出给选定的用户。 Google 的面向开发者的发布 强调了编码能力和自主代理功能,公司将更激进地与 Claude 的编码性能和 OpenAI 的开发工具竞争。
Gemini 3 Pro 支持 1 百万令牌上下文窗口,约为 750,000 个字,有两层提供 200K 和 1M 令牌用于不同的用例。该模型展示了异常的多模态能力,处理文本、图像、视频和音频,并具有改进的视觉推理和图形生成。集成跨越 Google 的产品生态系统,包括 Workspace、Chrome 和 Android。
创纪录的基准表现
Gemini 3 Pro 在 MMLU 基准测试中实现了 91.8% 的准确率,比 Gemini 2.5 Pro 的 89.5% 提高了 5 个百分点。该模型在跨学科问题上表现出特别的优势,跨多个知识领域的任务中获得了 92% 的分数,而 Gemini 2.5 在类似挑战中下降到 65%。
在编码特定基准测试中,Gemini 3 Pro 在 SWE-bench Verified 中获得了 76.2% 的分数,显著优于其前身,但低于 Claude 4.5 的 77.2%。该模型在 WebDev Arena 排行榜中以 1487 Elo 领先,展示了异常的 Web 开发能力。在 Terminal-Bench 2.0 中,该模型实现了 54.2% 的分数,用于衡量工具使用和计算机操作。
该模型在任务大小方面提供了大约 2 倍的推理速度,比 Gemini 2.5 Pro 快。像 50 行 Python 脚本这样的小任务可以在 12 秒内完成,而以前需要 25 秒。像 10,000 行数据这样的大任务可以在 15 分钟 30 秒内完成,而以前需要 32 分钟 15 秒。
Google 还推出了 Gemini 3 Deep Think 模式,这是一种增强的推理能力,能够在具有挑战性的基准测试中提供更高的性能。该模式在 GPQA Diamond 中获得了 93.8% 的分数(标准模式为 91.9%),在 Humanity’s Last Exam 中获得了 41.0% 的分数(标准模式为 37.5%),并将在未来几周内提供给 AI Ultra 订阅者。
Antigravity 平台转变开发人员工作流程
Google 推出了 Antigravity,一种由 Gemini 3 驱动的代理开发平台,能够让自主代理在代码编辑器、终端和浏览器中同时运行。该平台标志着从传统的工具辅助到协作模型的转变,其中代理承担了大量的开发责任。
Antigravity 利用了多个 AI 模型,包括 Gemini 3 Pro 作为其主要推理引擎,Gemini 2.5 Computer Use 用于浏览器控制,Nano Banana (Gemini 2.5 Image) 用于图像编辑。代理可以独立地规划和执行复杂的开发任务,同时验证自己的代码,然后呈现结果。
该平台增强了 “vibe coding“,其中自然语言成为主要语法。开发人员可以使用单个提示将高级创意想法转换为完全交互式的应用程序,而无需指定实现细节。该功能得到了 Gemini 3 的异常 Web 开发分数的支持。
Antigravity 中的代理自主管理功能构建、UI 迭代、错误修复、解决方案研究和报告生成。该平台可免费预览,支持 Mac、Windows 和 Linux,并提供 Cursor、GitHub、JetBrains、Manus 和 Cline 的集成支持。
企业集成和市场影响
Gemini 3 Pro 可供 Google AI Ultra 订阅者和付费 Gemini API 用户使用。该模型直接集成到 Google 搜索中,覆盖了公司的 20 亿月度 AI 概述用户,根据 CEO Sundar Pichai 的说法。企业部署可以通过 Google AI Studio 和 Vertex AI 访问该模型。
Gemini 应用程序已更新,新增了针对 Gemini 3 设计的新界面和增强的代理功能。这些改进使 Google 与竞争对手的 AI 辅助工具竞争,同时利用公司的主导分销渠道。
Google 的发布策略强调了开发者采纳和企业部署,价格和性能针对企业客户。创纪录的基准、自主编码能力和广泛的生态系统集成表明了公司维持竞争地位的意图,随着主要提供商的 AI 模型能力趋于收敛。
发布大约在 Gemini 2.0 之后 11 个月,这标志着 Google 发布时间表的显著压缩,随着 AI 行业竞争的加剧。












