公告
谷歌发布Gemini 3 Pro,打破性能基准
谷歌今天发布了Gemini 3 Pro,这是其迄今为止最先进的AI模型,具有创纪录的基准性能和一个名为Antigravity的新型开发平台。该模型在LMArena上获得了1501 Elo的评分,超越了Gemini 2.5 Pro的1451,成为主要AI评估指标中的领先者。
此次发布是在AI行业经历了数月的期待之后,模型于10月22日悄悄地向选定的用户推出,然后进行了公开宣布。 谷歌的开发者专注发布强调了编码能力和自主代理功能,旨在使公司能够更激进地与Claude的编码性能和OpenAI的开发工具竞争。
Gemini 3 Pro支持1百万令牌的上下文窗口,约相当于75万字,有两个层次提供了20万和100万令牌以适应不同的用例。该模型展示了卓越的多模态能力,能够处理文本、图像、视频和音频,并具有改进的视觉推理和图形生成。集成范围涵盖了谷歌的产品生态系统,包括Workspace、Chrome和Android。
创纪录的基准性能
Gemini 3 Pro在MMLU基准测试中实现了91.8%的准确率,比Gemini 2.5 Pro的89.5%提高了5个百分点。该模型在跨学科问题上表现出色,跨多个知识领域的任务中获得了92%的分数,而Gemini 2.5在类似挑战中仅获得了65%的分数。
在编码特定基准测试中,Gemini 3 Pro在SWE-bench Verified中获得了76.2%的分数,显著超过了其前身,但仍然落后于Claude 4.5的77.2%。该模型在WebDev Arena排行榜中以1487 Elo的分数领先,展示了其卓越的Web开发能力。在Terminal-Bench 2.0中,用于衡量工具使用和计算机操作的终端,Gemini 3 Pro实现了54.2%的分数。
该模型在任务大小方面的推理速度比Gemini 2.5 Pro快约2倍。像50行Python脚本这样的小任务可以在12秒内完成,而之前需要25秒;而像10,000行数据这样的大任务可以在15分钟30秒内完成,而之前需要32分钟15秒。
谷歌还推出了Gemini 3 Deep Think模式,这是一种增强的推理能力,能够在具有挑战性的基准测试中提供更高的性能。该模式在GPQA Diamond中获得了93.8%的分数(标准模式为91.9%),在Humanity’s Last Exam中获得了41.0%的分数(标准模式为37.5%),并将在未来几周内向AI Ultra订阅者开放。
Antigravity平台转变开发者工作流
谷歌推出了Antigravity,一种由Gemini 3驱动的开发平台,能够让自主代理同时在代码编辑器、终端和浏览器中运行。该平台标志着从传统工具辅助到协作模型的转变,在这种模型中,代理承担了大量的开发责任。
Antigravity利用了多个AI模型,包括Gemini 3 Pro作为其主要推理引擎,Gemini 2.5 Computer Use用于浏览器控制,以及Nano Banana(Gemini 2.5 Image)用于图像编辑。代理可以独立地规划和执行复杂的开发任务,并在呈现结果之前验证自己的代码。
该平台增强了“vibe coding”的功能,在这种模式下,自然语言成为主要的语法。开发者可以使用单个提示将高级创意想法转化为完全交互式的应用程序,而无需指定实现细节。这种功能得到了Gemini 3的卓越Web开发评分的支持。
Antigravity中的代理自主管理功能构建、UI迭代、错误修复、解决方案研究和报告生成。该平台以公共预览的形式免费提供,支持Mac、Windows和Linux,并且与Cursor、GitHub、JetBrains、Manus和Cline进行了集成。
企业集成和市场影响
Gemini 3 Pro可供谷歌AI Ultra订阅者和付费Gemini API用户使用。该模型直接集成到谷歌搜索中,覆盖了公司的20亿月度AI概述用户,根据CEO Sundar Pichai的说法。企业部署可以通过谷歌AI Studio和Vertex AI访问该模型。
Gemini应用程序更新了新的界面和增强的代理功能,专门为Gemini 3设计。这些改进使谷歌能够在AI助手方面与竞争对手竞争,同时利用公司的主导分布渠道。
谷歌的发布策略强调了开发者采用和企业部署,价格和性能针对企业客户。创纪录的基准、自主编码能力和广泛的生态系统集成表明了公司在AI模型能力在主要提供商之间趋同的同时维持竞争地位的意图。
此次发布大约是在Gemini 2.0发布后的11个月,这标志着谷歌发布时间表的显著压缩,因为AI行业的竞争加剧。












