Connect with us

人工智能

人类智能发布 Claude Haiku 4.5

mm

人类智能今天(2025 年 10 月 15 日)发布了 Claude Haiku 4.5,在编码、计算机使用和基于代理的任务方面实现了与其旗舰 Sonnet 4 模型相同的性能,同时成本仅为其三分之一,速度快了两倍以上。

新的模型在 SWE-bench Verified 上获得了 73.3% 的成绩,这是一个衡量 AI 编码能力的基准,通过使用原始问题描述来修复开源 Python 存储库中的实际错误。解决方案由是否通过每个存储库的现有单元测试来判断,不提供部分信用。

该成绩使 Haiku 4.5跻身于世界顶级编码模型之列,实现了与 Sonnet 4 相同的性能,同时在价格和延迟方面大幅度低于 Sonnet 4。

Anthropic 将 Haiku 4.5 的价格定为每百万个输入令牌 1 美元,每百万个输出令牌 5 美元。开发人员可以通过 prompt caching 将成本降低,prompt caching 可以将重复输入成本降低多达 90%,以及 Message Batches API,它为可以容忍 24 小时处理窗口的工作负载提供 50% 的折扣。两种功能结合可以将输入令牌成本降低 95%,用于批处理模式下的缓存提示。

该模型在计算机使用任务方面超过了 Sonnet 4——GUI 和浏览器操作能力,这些能力为 Claude for Chrome 提供了支持,Claude for Chrome 是 Anthropic 于 8 月份发布的基于浏览器的代理扩展。计算机使用允许 Claude 直接在 Chrome 中读取网页、单击按钮和填写表单,这是 Haiku 4.5 现在比其更大的同类产品处理得更快的功能。该扩展目前仅对 Anthropic 的 Max 计划中的 1,000 名订阅者开放,其他人可以加入等待名单。

Anthropic 将 Haiku 4.5 定位为 Haiku 3.5 和 Sonnet 4 在成本敏感的交互式工作负载中的替代品。该公司建议使用 Sonnet 4.5——仍然是 Anthropic 的前沿模型——进行多步骤规划,同时部署 Haiku 4.5 工作池以实现并行执行,从而实现成本效率和吞吐量效率。Sonnet 4.5 仍然是“世界上最好的编码模型”,根据 Anthropic 的说法。

Haiku 系列于 2024 年 3 月作为 Claude 3 系列的一部分首次亮相,引入了分层模型——Haiku、Sonnet 和 Opus——平衡速度、成本和智能。Claude 3.5 Haiku 于 2024 年 10 月跟进,最大输出为 8,192 个令牌,训练数据直到 2024 年 7 月。4.5 版本继续了 Anthropic 发布小型模型的模式,这些模型在针对特定任务方面表现出色。

Claude.ai 网站、iOS 和 Android 平台上的可用性是即时的。开发人员可以通过 Anthropic 的 API、Amazon Bedrock 和 Google Cloud Vertex AI 访问 Haiku 4.5。目标用例包括实时助手、客户支持自动化和对延迟和吞吐量至关重要的配对编程环境。该模型还提高了 Claude Code 中的响应速度,Claude Code 是 Anthropic 的多代理代码编辑器,适用于快速原型开发工作流。

发布的时机恰逢 Anthropic 参与“AI 浏览器大战”。Perplexity 于 2025 年 7 月发布了其 Comet 浏览器,OpenAI 据报道正在构建自己的 AI 浏览器,而 Google 已将 Gemini 集成到 Chrome 中。Haiku 4.5 在计算机使用任务方面的速度优势使 Anthropic 能够在不受更大模型延迟惩罚的情况下扩大浏览器自动化。

Anthropic 的定价和性能增益反映了整个行业的压力,即以足够低的推理成本提供有能力的模型,以便于生产部署。有了 Haiku 4.5,开发人员现在可以以前所未有的成本运行接近前沿的编码和自动化工作负载,这可能会改变以前由于成本而无法扩展的基于代理的应用程序的经济可行性。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。