关注我们: 微信公众号

扫码关注我们

Anthropic 突然发布 Sonnet 5:主攻 Agent、低价格

云头条 2026-07-01 11

2026 年 6 月 30 日,Anthropic 正式发布 Claude Sonnet 5,称其为迄今“最具 Agent 能力”的 Sonnet 系列模型。

5.jpg

Anthropic 表示,Claude Sonnet 5 可以制定计划,调用浏览器、终端等工具,并在较高自主性水平下完成任务;过去几个月前,类似能力通常需要更大、更贵的 Opus 级模型才能实现。 

按照 Anthropic 的定位,Sonnet 5 不是最高性能旗舰,而是面向大规模日常使用和开发者工作流的“性价比主力模型”。

Anthropic 称,Sonnet 5 在推理、工具使用、编程和知识工作等 Agent 关键能力上,相比上一代 Sonnet 4.6 有明显提升,整体性能接近 Opus 4.8,但价格更低。 

6.jpg

具体可用性方面,Claude Sonnet 5 已从发布日起面向所有 Claude 方案开放:它成为 Free 和 Pro 方案的默认模型,同时面向 Max、Team 和 Enterprise 用户开放,也已接入 Claude Code 和 Claude Platform。

价格是这次发布的重点。

Anthropic 表示,Sonnet 5 在 2026 年 8 月 31 日前采用首发优惠价:每百万输入 token 2 美元、每百万输出 token 10 美元;从 2026 年 9 月 1 日起,恢复为每百万输入 token 3 美元、每百万输出 token 15 美元。作为对比,Opus 4.8 的价格为每百万输入 token 5 美元、每百万输出 token 25 美元。 

从开发者场景看,Anthropic 将 Sonnet 5 的核心卖点放在“更便宜的 Agent 执行层”上。

在 Agent 搜索评测 BrowseComp、计算机使用评测 OSWorld-Verified 等任务中,Sonnet 5 在不同 effort 强度下相较 Sonnet 4.6 有更宽的成本性能区间,部分高 effort 任务可接近 Opus 4.8。 

7.jpg

8.jpg

第三方对 Anthropic 发布数据的整理显示,在 Agent 编程基准 SWE-bench Pro 上,Sonnet 5 得分为 63.2%,高于 Sonnet 4.6 的 58.1%,但仍低于 Opus 4.8 的 69.2%;在 OSWorld-Verified 上,Sonnet 5 为 81.2%,高于 Sonnet 4.6 的 78.5%;在 Terminal-Bench 2.1 上,Sonnet 5 为 80.4%,较 Sonnet 4.6 的 67.0% 提升更明显。 

安全方面,Anthropic 称,Sonnet 5 在部署前安全评估中总体优于 Sonnet 4.6,在拒绝恶意请求、抵御提示注入劫持、降低幻觉和迎合性方面表现更好。不过,官方也承认,Sonnet 5 在自动化行为审计中的不良行为率仍高于更强的 Opus 4.8 和 Claude Mythos Preview。 

网络安全能力也被 Anthropic 单独强调。

Sonnet 5 没有被刻意训练用于网络安全任务,虽然能完成一些常规、无害的网络安全工作,但在开发软件漏洞利用等潜在危险能力评测中,明显弱于 Opus 4.8 和 Mythos 5;在 Firefox 漏洞利用评测中,两个 Sonnet 模型都未能生成完整可工作的 exploit,Sonnet 5 仅在“部分成功”比例上略高于 Sonnet 4.6。 

因此,Anthropic 为 Sonnet 5 默认启用了网络安全防护机制,用于实时检测并拦截危险网络安全用途。

Anthropic 还表示,由于 Sonnet 5 的整体网络安全风险水平较低,其防护强度低于面向 Fable 5 启用的更严格限制;同时,官方建议需要较少护栏的网络安全工作仍优先使用 Claude Opus 4.8。 

从行业竞争角度看,Sonnet 5 的发布核心不是“刷新最高性能榜单”,而是 Anthropic 将更强 Agent 能力下放到免费用户、普通订阅用户和开发者 API。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

关键词:

网友留言2

未查询到任何数据!
◎欢迎您留言咨询,请在这里提交您想咨询的内容。