人工智能公司Anthropic的新款Claude模型：弥合人工智能能力与实用性的差距

发布于 2024年11月4日

更新于 2026年5月20日

作者

Alex McFarland

Anthropic最近发布了其Claude人工智能模型家族的重大更新。该公告介绍了增强版的Claude 3.5 Sonnet和新款的Claude 3.5 Haiku模型，标志着人工智能性能能力和成本效率方面的重大进步。

该发布代表了人工智能领域的战略进步，尤其值得注意的是其在编程能力和逻辑推理方面的改进。虽然整个行业的公司都在不断推动人工智能开发的边界，但Anthropic的最新发布脱颖而出。

性能突破

增强的模型在多个基准测试中表现出显著的改进，新款的Haiku模型尤其取得了显著的成果。在编程任务中，更新的Sonnet模型在SWE Bench Verified Test中的性能提高到49.0%，为公开可用的模型（包括专用编程系统）设立了新的标准。

成本效率成为这些发展的关键方面。新款的Haiku模型提供了与之前的旗舰Claude 3 Opus相似的性能，同时保持了显著降低的运营成本。以每百万输入令牌1美元和每百万输出令牌5美元的价格，组织可以通过功能如提示缓存和批处理来优化其人工智能实现。

基准测试的改进超出了编程能力。这些模型在一般语言理解和逻辑推理等领域表现出增强的性能。在评估工具使用能力的TAU Bench上，Sonnet模型在不同领域表现出显著的改进，包括在零售应用中从62.6%提高到69.2%的显著增加。

这些进步表明人工智能开发中的一个范式转变，即高性能能力不再一定与高昂的成本相关。这一先进人工智能能力的民主化可能对希望实施人工智能解决方案的企业和开发人员产生深远的影响。

来源：Anthropic

该公司并没有开发狭隘的、特定任务的工具，而是通过为Claude提供通用的计算机技能来采取更广泛的方法。这一创新使人工智能模型能够与最初为人类用户设计的标准软件接口进行交互。

这一进步的基础是一种新的API，允许Claude直接感知和操纵计算机接口。该系统赋予人工智能执行鼠标移动、元素选择和文本输入等操作的能力，通过虚拟键盘。该技术代表了更直观的人机协作的一步，实现了将自然语言指令转化为具体的计算机操作。

然而，当前的能力显示出既有希望又有局限性。虽然Claude 3.5 Sonnet在OSWorld基准测试的“仅截图”类别中取得了14.9%的成绩，几乎是下一个最佳人工智能系统的两倍，但这仍然表明与人类能力相比还有显著的改进空间。基本操作，如滚动和缩放，对于人工智能系统来说仍然具有挑战性。

这些发展的商业影响跨越多个领域。组织现在可以以更易于管理的成本点访问先进的人工智能能力，这可能会加速人工智能在各个行业的采用。改进的编程能力特别有利于软件开发团队，而增强的语言理解为客户服务和内容生成应用带来了优势。

在行业定位方面，Anthropic的方法通过其对实用可行性和成本效率的关注而与众不同。改进的性能指标和合理的运营成本使这些模型成为大型企业和小型组织探索人工智能实施的可行解决方案。

实用应用涵盖多个用例：

这些高级功能的可用性，特别是通过Amazon Bedrock和Google Cloud的Vertex AI等主要云平台，使得已经使用这些服务的组织能够更容易地集成。这种广泛的可用性，加上灵活的定价模型，表明企业人工智能采用的潜在加速。

这些增强模型的发布代表着不仅仅是人工智能技术的渐进式改进，而是表明了一个未来：人工智能系统可以更自然地与现有的计算机系统和工作流集成。虽然当前存在局限性，特别是在类人计算机交互方面，但为继续在这一方向上取得进步奠定了基础。

Anthropic谨慎的实施方法，建议开发人员从低风险任务开始，表明了对技术潜力和当前约束的理解。这种谨慎的态度，加上透明的性能指标，有助于为组织采用设定现实的期望。

开发路线图的影响显著。随着Haiku模型的知识截止日期延伸到2024年7月，我们看到人工智能系统朝着更及时和相关的方向发展。这种进步表明，未来版本可能会进一步缩小人工智能知识库和实时信息需求之间的差距。

未来发展的关键考虑因素包括：

Anthropic的最新发布标志着人工智能技术演进的一个重要里程碑，在先进能力和实用实施考虑之间取得了平衡。虽然在实现类人计算机交互方面仍然存在挑战，但改进的性能指标、创新功能和可及的定价模型为跨行业的变革性应用奠定了基础，可能会重塑组织在日常运营中对人工智能实施的方法。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。