Anthropic 推出 Claude Sonnet 3.7 和 Claude Code:你需要知道什么

Claude 3.7 Sonnet,混合模型
人类开始进攻。面对中国生成式人工智能的崛起,尤其是 DeepSeek,该公司正在部署其首个混合推理模型 Claude Sonnet 3.7。它的设计使其能够像人类一样思考,从而提供前所未有的灵活性。它可以几乎立即对最简单的问题做出反应,或者在必要时花时间进行深入考虑。
你可以选择何时让模型正常响应,以及何时让它在响应前思考更长时间,Anthropic 在其新闻稿中详细说明。
在扩展思维模式(付费用户可用)下,模型可以在响应之前进行自我分析,从而优化其在数学、物理、指令遵循、编码和许多其他领域的性能。
在传统的基准测试中,Claude 3.7取得了令人满意的成绩,并且在很多方面超越了竞争对手。当被要求执行真实世界的代码任务(SWE-Bench)时,该AI的准确率为62.3%,而DeepSeek R1的准确率为49.2%,OpenAI o1的准确率为48.9%。在针对用户和工具之间交互的复杂现实任务(TAU-Bench)分析模型的测试中,Claude 3.7 的准确率为 81.2%,而 OpenAI 的 o1 仅达到 73.5% 的准确率。
Claude Code,直接在Claude中实现的开发工具
除了 Sonnet 3.7 之外,Anthropic 还宣布推出 Claude Code,这是一种集成到 Claude 各个版本中的代理编码工具。该工具允许开发人员执行特定任务,例如调试复杂问题或大规模重构。
Anthropic 表示,在早期测试中,Claude Code 一次性完成了通常需要 45 分钟以上手动操作的任务,从而减少了开发时间和开销。
Claude Code 描述了他所做的修改,甚至进行了测试以检测潜在的错误。该工作工具集成在 Claude Sonnet 3.7 中,为用户提供了当前最好的编码模型之一,使他们能够节省宝贵的时间,同时确保开发的高精度。 Claude Code 目前仅对少数用户开放,但预计未来几周将扩展到更多用户。