人工智能
Claude 3.7 Sonnet 是 Anthropic 的 AI 复兴

Anthropic 已经发布了 Claude 3.7 Sonnet,这是一款高度期待的升级版,其 大型语言模型 (LLM) 家族。被誉为公司迄今为止“最智能的模型”和市场上第一款混合推理 AI,Claude 3.7 Sonnet 在速度、推理和实际任务性能方面比其前身 (Claude 3.5 Sonnet) 有了显著的改进。
该版本的发布是在 OpenAI 和 xAI 的 Grok 3 等竞争对手快速推进的背景下进行的,导致许多 AI 爱好者(包括我)将此次发布视为 Anthropic 对最近创新成果的回应。新的模型旨在将快速的对话答案与更深入的分析思维结合在一个系统中——一种统一的方法,它可能会展示未来的 AI 交互方式。
热门 AI 助手的长期期待升级
对于许多常规的 AI 用户来说,Claude 3.5 Sonnet 已经是一种首选工具。它被认为是最好的工具之一。然而,在过去的几个月里,Anthropic 面临着日益增长的压力。AI 行业正以新的功能和模型疯狂发展——OpenAI 的 ChatGPT 获得了语音、多步骤推理能力和 深度研究。Grok 3 以实时 X 数据首秀,而其他平台如 Perplexity 和 Gemini 也在不断推出新功能。许多观察者开始注意到 Anthropic 正在开始落后。社区一直热切期待 Anthropic 的回应,预计新版 Claude 模型即将发布。
Claude 3.7 Sonnet终于发布了,满足了这些期望。它与Claude 3.5相比是一个显著的飞跃,而不是一个小改动。Anthropic 宣称这是一个全面升级:更快、更智能、更多样化。
该模型的速度和输出质量令人惊讶。在我的测试中,我发现它与上一个版本相比非常快,几乎瞬间处理了长文本输入。考虑到 Anthropic 的缓慢更新周期,3.7 版本的发布感觉像是一次长期等待的赶上。Claude 3.7 在保持了使用户喜爱 Claude 3.5 的卓越性能——在实际任务中的异常表现——的同时,也在推理能力方面进行了创新。
混合推理:快速答案和深度思考在一个系统中
Claude 3.7 Sonnet 的头条功能是其混合推理能力。简单来说,该模型可以在两种模式下运行:一种标准模式,提供几乎瞬间的响应;另一种是“扩展思考”模式,AI 会一步一步地解决问题,并向用户展示其 思维链。
与其发布一个单独的 Claude 推理版,Anthropic 将快速和深思熟虑的思考整合到一个 AI 中。 “就像人类使用一个大脑既进行快速的反应,也进行深思熟虑的反思,我们相信推理应该是一个集成的能力……而不是一个单独的模型,”该公司在其 公告 中解释道,强调了统一的方法,以实现无缝的用户体验。
在实践中,这意味着用户可以决定何时需要快速答案,何时让 Claude 进行更长时间的思考。一个简单的切换按钮可以让您在标准模式和扩展模式之间切换,如果一个问题需要详细分析或多步骤逻辑。标准模式下,Claude 3.7 Sonnet 的功能类似于 3.5 版本的改进版——更快、更精细,但具有熟悉的快速对话风格。在扩展模式下,AI 会在内部“自我反思”(并使其可见),以便更准确或更复杂地解决问题。
思维链一步一步地出现在屏幕上,这是一个在其他高级 AI 系统中已经流行的功能,现在终于来到了 Claude。

Alex McFarland/Unite.AI
Anthropic 的哲学在这里故意与一些竞争对手形成对比。例如,OpenAI 提供了单独的模型或模式,这些模式有些用户可能会觉得混乱。Claude 3.7 的全功能方法旨在简化用户的使用体验。切换模式很简单,提示风格保持不变。开发人员甚至可以通过 API 对 AI 的思考进行细粒度控制:可以设置一个令牌预算用于推理,告诉 Claude 思考多长时间(从几步到 128k 令牌的思考过程)然后给出最终答案。这种控制允许用户根据需要在速度和彻底性之间进行权衡。
Claude 3.7 Sonnet 的主要改进:
以下是我们在 Claude 3.7 Sonnet 中看到的主要改进:
- 混合推理模式 – 提供即时答案和扩展思考模式,AI 会一步一步地解决问题,并向用户展示其思维过程。用户可以根据每个查询选择模式,在一个系统中统一快速聊天和深度分析。
- 统一模型哲学 – 将快速和深思熟虑的思考整合到一个 AI 中,以便于使用。这种方法与需要多个模型或插件的竞争对手不同,简化了最终用户的体验。
- 速度和响应性 – 比 Claude 3.5 快。早期测试显示标准模式下性能明显更快。
- 扩展思考控制 – 通过 API,用户可以限制或扩展 AI 的推理长度(最长 128,000 个令牌),以根据需要平衡速度和质量。
- 实际任务焦点 – 根据公司的说法,Claude 3.7 的训练重点是实际的商业和创意任务,而不是棘手的数学奥林匹克问题。该模型在日常问题解决和反映常见用例的任务中表现出色。
- 编码和工具使用 – 在编程任务中表现更强,特别是在前端 Web 开发中。Anthropic 甚至推出了一个配套工具 Claude Code,允许开发人员从命令行使用 Claude 进行编码和修复代码。早期基准测试显示 Claude 3.7 在解决实际软件问题方面名列前茅。
限制和 AI 用户的下一步
尽管有这么多兴奋的消息,Claude 3.7 Sonnet 并非完美无缺,也不是解决所有 AI 挑战的万能药。首先,Anthropic 有意在某些领域降低了训练强度。他们“在数学和计算机科学竞赛问题方面的优化较少”,而是专注于更日常的商业任务。这意味着虽然 Claude 3.7 可以解决数学和编码问题(通常比 3.5 做得更好),但在每个学术基准或谜题中可能无法登上榜首。需求偏向复杂数学证明或专业编码竞赛的用户可能仍会发现 Claude 的答案需要再次检查,或者竞争对手的模型在这些领域表现更好。Anthropic 似乎已经接受了这种权衡,旨在将模型定位为实用工具而非理论上的精通。
此外,扩展思考模式虽然强大,但也引入了一些复杂性。它本质上比标准模式更慢;当 AI 进入深思时,用户会注意到一个短暂的暂停,因为它正在一步一步地解决问题。这是预期的——用速度换取彻底性——但这意味着用户必须决定何时真正需要这种额外的力量。在许多日常聊天查询中,标准模式将足够并且更高效。还有这样一个事实:扩展推理有时会做得太多,提供的内容比您实际需要的要多。在某些情况下,这可能会让人感到不知所措或偏离主题。Anthropic 需要确保 AI 的“大举进攻”保持相关性和主题。用户可能会学习更精确地提示或设置令牌限制,以防止过度扩张。
结论
Claude 3.7 Sonnet 的发布是 Anthropic 在 AI 领域中与 OpenAI、Google/DeepMind 和新玩家如 xAI 一起竞争的声明。对于 AI 爱好者和开发人员来说,它为实验添加了另一个顶级模型,这个模型带来了混合推理的独特转折。
在竞争激烈的 AI 行业中,Anthropic 的最新举动可能还会影响公司如何定位他们的模型。通过选择不进行大规模的模型大小跳跃或华丽的多模态演示,而是改进 用户体验(统一模式、速度、实际用例),Anthropic 正在打造一个专注于可用性和可靠性的市场定位。
总体而言,Claude 3.7 Sonnet 是 Anthropic 的一个重要时刻。它是 Claude 系列的演进,表明该公司正在从社区的需求中学习——在优势上加倍,同时解决弱点。仍然有需要关注的领域(以及未来 Claude 版本的期待),但这一发布已经明显地激发了 Anthropic 用户群的活力。












