公告
双子星 2.5 Pro 来了——它再次改变了 AI 游戏
Google 已经推出了 双子星 2.5 Pro,称其为迄今为止最智能的 AI 模型。该最新的大型语言模型由 Google DeepMind 团队开发,被描述为一种“思考模型”,旨在通过内部推理步骤来解决复杂问题,然后再响应。早期的基准测试支持 Google 的信心:双子星 2.5 Pro(2.5 系列的首个实验性版本)以显著的优势首次登上了 LMArena 领导榜,并在许多编码、数学和科学任务的标准测试中领先。
双子星 2.5 Pro 中的新功能和特点包括:
- 链式思维推理: 与更直接的聊天机器人不同,双子星 2.5 Pro 明确地“思考”问题的内部过程。这导致在棘手的逻辑谜题和复杂的规划任务等难题上给出更合乎逻辑、更准确的答案。
- 最先进的性能: Google 报告称,2.5 Pro 在许多基准测试中超越了 OpenAI 和 Anthropic 的最新模型。例如,它在像 人类最后的考试 这样的艰难推理测试中创下了新高(得分 18.8%,而 OpenAI 的模型得分 14%,Anthropic 的模型得分 8.9%),并在不需要昂贵技巧(如集成投票)的情况下领先于各种数学和科学挑战。
- 高级编码技能: 该模型在编码能力方面比其前身有了巨大的飞跃。它擅长为 Web 应用程序甚至自主“代理”脚本生成和编辑代码。在 SWE-Bench 编码基准测试中,双子星 2.5 Pro 实现了 63.8% 的成功率——远远领先于 OpenAI 的结果,尽管仍然略低于 Anthropic 的专用 Claude 3.7 “Sonnet” 模型(70.3%)。
- 多模态理解: 与早期的双子星模型一样,2.5 Pro 是 原生多模态 的——它可以接受和推理文本、图像、音频,甚至视频和代码输入在一次对话中。这一灵活性意味着它可能会描述图像、调试程序并分析电子表格所有在一个会话中。
- 大容量上下文窗口: 也许最令人印象深刻的是,双子星 2.5 Pro 可以处理多达 100 万个令牌的上下文(并且有 200 万令牌更新即将推出)。在实际应用中,这意味着它可以一次性处理数百页的文本或整个代码仓库,而不会丢失细节。这一长期记忆远远超过了大多数其他 AI 模型提供的内容,使得双子星可以对非常大的文档或讨论有详细的理解。
根据 Google 的说法,这些进步来自于显著增强的基础模型和改进的后训练技术。值得注意的是,Google 还正在退役它为双子星 2.0 使用的单独的“闪电思维”品牌;有了 2.5,推理能力现在默认情况下内置在所有未来的模型中。对于用户来说,这意味着即使是与双子星的普通交互也将从内部更深层次的“思考”中受益。
对自动化和设计的影响
超越基准测试和竞争的热潮,双子星 2.5 Pro 的真正意义可能在于它为最终用户和行业带来的可能性。该模型在编码和推理任务中的强大性能不仅仅是为了解决谜题而夸耀——它暗示了新的工作场所自动化、软件开发,甚至创意设计的可能性。
以编码为例。凭借从简单提示生成工作代码的能力,双子星 2.5 Pro 可以作为开发人员的项目倍增器。单个工程师可能会在 AI 的帮助下处理大量的工作来原型设计一个 Web 应用程序或分析整个代码库。在一个 Google 演示中,模型仅凭一句话描述就从头开始构建了一个基本的视频游戏。这表明了一个未来,非程序员将描述一个想法并获得一个运行的应用程序(“氛围编码”),大大降低了软件创作的门槛。
即使对于经验丰富的开发人员来说,有一个可以理解和修改大型代码仓库(感谢 1M 令牌上下文)的 AI 意味着更快的调试、代码审查和重构。我们正在进入一个时代,AI 配对程序员可以保持复杂项目的“大局”,所以您不需要在每个提示中提醒他们上下文。
双子星 2.5 的高级推理能力也适用于知识工作自动化。早期用户已经尝试将长期合同输入模型,并要求模型提取关键条款或总结要点,结果很有前景。想象一下通过让 AI 浏览数百页的文档并提取重要内容来自动化法律审查、尽职调查研究或财务分析——这些任务目前占用了无数的人力。
双子星的多模态能力意味着它甚至可以分析文本、电子表格和图表的混合,并提供一个连贯的摘要。这种 AI 可以成为法律、医学、工程或任何被数据和文档淹没的领域的专业人士的宝贵助手。
对于创意领域和产品设计,像双子星 2.5 Pro 这样的模型也开启了令人着迷的可能性。它们可以作为头脑风暴伙伴——例如,生成设计概念或营销文案,同时推理需求——或作为快速原型设计师,将粗略的想法转化为有形的草稿。Google 对代理行为的强调(模型使用工具和执行多步计划的自治能力)表明,未来版本可能会直接与软件集成。
人们可以想象一个设计 AI,它不仅提出想法,还可以导航设计软件或编写代码来实现这些想法,全都受高层次的人类指令引导。这种能力模糊了 AI 领域中“思考者”和“执行者”的界限,双子星 2.5 是朝着这个方向迈出的一步——一个既能概念化解决方案又能在各个领域执行解决方案的 AI。
然而,这些进步也提出了重要的问题。随着 AI 处理更复杂的任务,我们如何确保它理解细微差别和道德界限(例如,在决定哪些合同条款是敏感的,或者如何在设计中平衡创意和实用方面)?Google 和其他公司需要建立强大的防护措施,用户需要学习新的技能——提示和监督 AI——随着这些工具成为同事。
尽管如此,轨迹很明显:像双子星 2.5 Pro 这样的模型正在将 AI 推入以前需要人类智慧和创造力的角色。对生产力和创新的影响是巨大的,我们可能会在各个行业中看到工作方式和产品开发方式的涟漪效应。
双子星 2.5 和新的 AI 领域
通过双子星 2.5 Pro,Google 正在 AI 竞争的前沿占据一席之地——并向其竞争对手发出信号。就在几年前,人们认为 Google 的 AI(想想早期的 Bard 版本)落后于 OpenAI 的 ChatGPT 和 Microsoft 的激进举动。现在,通过动员 Google 研究和 DeepMind 的联合人才,公司已经交付了一个可以合理地争夺地球上最好的 AI 助手称号的模型。
这对 Google 的长期定位有利。AI 模型越来越被视为核心平台(类似于操作系统或云服务),拥有顶级模型使 Google 在从企业云服务(Google Cloud/Vertex AI)到消费者服务(如搜索、生产力应用和 Android)等一切领域都占据了有利的地位。从长远来看,我们可以期待 双子星家族 将被集成到许多 Google 产品中——可能会增强 Google 的助手,通过更智能的功能改进 Google Workspace 应用,并通过更具对话性和上下文感知能力的功能增强搜索。
双子星 2.5 Pro 的发布也凸显了 AI 景观的竞争性。OpenAI、Anthropic 和其他玩家(如 Meta 和新兴初创公司)都在快速迭代其模型。每家公司的每一步——无论是更大的上下文窗口、新的工具集成方式,还是新的安全技术——都会迅速被其他公司响应。Google 将推理嵌入所有模型的战略确保它不会在 AI 的“智能度”方面落后。同时,Anthropic 的策略(如 Claude 3.7 中的可调节推理深度)和 OpenAI 对 GPT-4.x 的持续改进都给 Google 带来了压力。
对于最终用户和开发人员来说,这种竞争在很大程度上是积极的:它意味着更好的 AI 系统以更快的速度到来,并且市场上有更多的选择。我们看到一个 AI 生态系统,没有一家公司对创新具有垄断地位,这种动态促使每家公司都尽力而为——就像个人电脑或智能手机战争的早期一样。
在这种背景下,双子星 2.5 Pro 的发布不仅仅是 Google 的产品更新——它是意图的声明。它表明 Google 不仅要成为快速的跟随者,也要成为 AI 新时代的领导者。该公司正在利用其庞大的计算基础设施(用于训练具有 1+ 百万令牌上下文的模型)和巨大的数据资源来突破其他公司难以匹敌的界限。同时,Google 的方法(向可信用户推出实验模型,并仔细将 AI 集成到其生态系统中)表明了平衡雄心与责任和实用性的愿望。
正如 Google DeepMind 的 CTO Koray Kavukcuoglu 在公告中所说,目标是使 AI 更加有帮助和有能力,同时以快速的速度改进它。
对于行业观察者来说,双子星 2.5 Pro 是一个里程碑,标志着到 2025 年初 AI 已经取得了多大的进步——以及它将走向何方的暗示。今天的标准是推理和多模态能力,明天可能是更普遍的问题解决或自主性。Google 的最新模型表明,该公司不仅参与了这场竞争,还打算塑造其结果。如果双子星 2.5 是任何指标,那么下一代 AI 模型将更加深入地融入我们的工作和生活中,迫使我们再次重新想象如何使用机器智能。












