Anthropic公司推出了其最新的AI模型Claude 3.7 Sonnet,该模型被定位为市场上首款“混合推理模型”。Claude 3.7 Sonnet能够在传统AI系统的即时响应模式与可见、逐步的思考过程之间切换,模拟了人类快速反应与深入思考之间的转换。
该模型的一个显著特点是,它集成了即时响应与扩展思考模式于一体,而竞争对手通常将这两种功能分开处理。此外,Claude 3.7 Sonnet在编码任务上表现出色,在真实世界的软件基准测试如SWE-bench Verified上取得了最先进的成果。
为了配合该模型的推出,Anthropic还发布了Claude Code,这是一款代理式终端工具,能够读取代码库、编辑文件,甚至将更改推送到GitHub仓库。这一工具的推出,进一步增强了Claude 3.7 Sonnet在开发领域的应用潜力。
在价格方面,Claude 3.7 Sonnet保持了与前代产品相同的定价策略,即每百万输入令牌3美元,每百万输出令牌(包括思考令牌)15美元。这一价格策略为用户提供了灵活的选择,同时确保了模型的经济性。
Claude 3.7 Sonnet在处理复杂问题方面展现了新的思路。通过将快速响应与深度推理功能集成于单一系统,它避免了将这两种能力分割到不同模型的做法。这一设计使得模型在处理任务时能够更加灵活和高效。
对于API用户,Anthropic提供了精细的控制选项。用户可以指定模型在响应前用于思考的最大令牌数(直至128K输出限制),从而在质量与速度之间实现可定制的权衡。这有助于组织在性能需求和成本考虑之间找到平衡点。
此外,Claude 3.7 Sonnet在编码任务上的表现尤为突出。在SWE-bench Verified和TAU-bench等基准测试中,该模型均取得了优异成绩。这些测试分别评估了AI模型解决真实世界软件问题和处理复杂用户与工具交互任务的能力。
为了进一步完善产品生态,Anthropic还推出了Claude Code这一代理式编码助手。该工具目前处于有限研究预览阶段,但已经能够执行搜索和读取代码库、编辑文件、编写和运行测试以及将更改提交到GitHub仓库等任务。虽然仍处于早期阶段,但Claude Code已经展现出了显著的工作效率提升。
值得注意的是,Claude 3.7 Sonnet的扩展思考功能在所有付费计划中均可用,包括Pro、Team和Enterprise计划,以及通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI等平台访问。然而,免费层级用户将无法访问这些扩展思考功能。
在安全性方面,Claude 3.7 Sonnet也有所改进。它能够更细致地区分有害请求与良性请求,与上一代模型相比,不必要的拒绝率降低了45%。这一改进有助于提升用户在使用模型时的体验和信任度。