关注我们: 微信公众号

扫码关注我们

否认降配!Claude Code 降智风波复盘:锅在推理强度、缓存、提示词

云头条 2026-04-24 11

Claude Code 近期遭遇的一轮“变笨”争议,终于等来了 Anthropic 的正式回应。

1.jpg

在用户连续数周抱怨 Claude Code 输出质量下降后,Anthropic 承认,这款编程工具的体验确实出现了问题。

但同时否认外界关于其“故意削弱模型能力”的猜测,称问题并不在底层模型,而是出在 Claude Code 产品层的一系列调整上。 

之前,AMD AI 负责人 Stella Laurenzo 发帖称,Claude Code 已经退化到“不能被信任去完成复杂工程任务”的程度,并给出了 6852 个 Claude Code 会话文件、234760 次工具调用和 17871 个 thinking block 的分析。 

Anthropic 在 4 月 23 日发布的复盘文章中表示,排查后发现,近期体验下降主要由 3 个问题叠加造成。

第一个问题发生在 3 月 4 日。

Anthropic 将 Claude Code 的默认推理强度从 high 调整为 medium,原本是为了降低部分用户在 high 模式下遇到的超长延迟,因为有时界面看起来像是卡住了。但现在承认,这是一个错误的取舍。用户更希望默认获得更高智能表现,而不是为了简单任务牺牲能力。Anthropic 已在 4 月 7 日撤回这一调整。该问题影响了 Sonnet 4.6 和 Opus 4.6。

第二个问题发生在 3 月 26 日。

Anthropic 上线了一项缓存优化,目标是在会话闲置超过 1 小时后,清理 Claude 较早的 thinking 内容,从而降低用户恢复会话时的延迟。但其中一个 bug 导致系统不是只清理一次,而是在之后的每一轮对话里持续清理旧 reasoning 内容。这让 Claude 看起来更健忘、更容易重复,也更容易做出奇怪的工具调用选择。该问题已在 4 月 10 日修复,影响范围同样包括 Sonnet 4.6 和 Opus 4.6。

第三个问题发生在 4 月 16 日。

Anthropic 为了减少 Claude Code 的冗长输出,在系统提示词中加入了更强的长度限制。但这一调整与其他提示词变更叠加后,意外损害了编码质量。Anthropic 后续通过更广泛的评测发现,这一改动会让 Opus 4.6 和 Opus 4.7 的相关评测结果下降约 3%,因此已在 4 月 20 日回滚。该问题影响了 Sonnet 4.6、Opus 4.6 和 Opus 4.7。

Claude Code 不是单点故障,而是几次看似合理的产品优化叠在一起,最终让用户感知成了一场大范围“降智”。

Anthropic 表示,从 3 月初就开始调查相关反馈,但一开始很难把这些反馈和正常的用户体验波动区分开来,内部使用和评测也没有立刻复现这些问题。 

但 Anthropic 强调,没有故意削弱模型,也没有让 API 或推理层发生降级。底层模型本身没有受影响,问题来自 Claude Code 的默认参数、上下文管理和系统提示词调整。

2.jpg

但上线后,用户很快开始反馈 Claude Code “没有以前聪明”。

Anthropic 后来尝试通过启动提醒、内联推理强度选择器、恢复 ultrathink 等设计调整,让用户更容易看到当前设置并手动切换。

但大多数用户仍停留在 medium 默认设置。听取更多客户反馈后,Anthropic 在 4 月 7 日撤销这一决定。

现在,Opus 4.7 默认使用 xhigh 推理强度,其他模型默认使用 high。 

关于缓存 bug。

Anthropic 解释称,Claude 在执行任务时,reasoning 通常会保留在对话历史中,这样后续每一轮都能看到此前为什么做出某些编辑和工具调用。3 月 26 日的优化原本是为了在长时间闲置会话恢复时减少未缓存 token,降低成本和延迟。但实现中出现 bug,导致旧 thinking 在之后每一轮都被持续丢弃。随着对话继续,Claude 会越来越缺少此前决策依据,于是表现为健忘、重复和工具选择异常。 

Anthropic 还认为,这个 bug 可能也是一些用户反馈“使用额度消耗比预期更快”的原因,因为持续丢弃 thinking block 会导致后续请求反复出现缓存未命中。

这个问题位于 Claude Code 的上下文管理、Anthropic API 和 extended thinking 的交叉处,因此不容易排查。相关变更经过了人工审查、自动代码审查、单元测试、端到端测试、自动验证和内部试用,但仍然没有被及时发现。 

关于系统提示词问题。

Anthropic 表示,Opus 4.7 相比前代有一个明显行为特点:更啰嗦。

虽然这种倾向有助于提升复杂问题上的表现,但也会产生更多输出 token。为此,在 Claude Code 中加入了更强的简洁性要求,限制工具调用之间的文字和最终回复长度。经过数周内部测试后,这一调整随 Opus 4.7 在 4 月 16 日上线。 

但在后续调查中,Anthropic 通过更广泛的 ablation 测试发现,系统提示词中的某些限制确实会损害编码质量。于是在 4 月 20 日版本中回滚了相关提示词。 

后续改进方面。

Anthropic 表示,将采取几项措施避免类似问题再次发生。会让更多内部员工使用与公众完全一致的 Claude Code 版本,而不是主要使用带有新功能测试的内部版本;同时会改进内部使用的 Code Review 工具,并把改进后的版本提供给客户。 

Anthropic 还会加强对系统提示词变更的控制。

未来,Claude Code 的每一次系统提示词调整,都将经过更广泛的分模型评测,并继续通过 ablation 分析每一行提示词的影响。公司还开发了新的工具,让提示词变更更容易被审查和审计。 

关键词:

网友留言2

未查询到任何数据!
◎欢迎您留言咨询,请在这里提交您想咨询的内容。