否认降配！Claude Code 降智风波复盘：锅在推理强度、缓存、提示词

云头条 2026-04-24 765

Claude Code 近期遭遇的一轮“变笨”争议，终于等来了 Anthropic 的正式回应。

在用户连续数周抱怨 Claude Code 输出质量下降后，Anthropic 承认，这款编程工具的体验确实出现了问题。

但同时否认外界关于其“故意削弱模型能力”的猜测，称问题并不在底层模型，而是出在 Claude Code 产品层的一系列调整上。

之前，AMD AI 负责人 Stella Laurenzo 发帖称，Claude Code 已经退化到“不能被信任去完成复杂工程任务”的程度，并给出了 6852 个 Claude Code 会话文件、234760 次工具调用和 17871 个 thinking block 的分析。

Anthropic 在 4 月 23 日发布的复盘文章中表示，排查后发现，近期体验下降主要由 3 个问题叠加造成。

第一个问题发生在 3 月 4 日。

Anthropic 将 Claude Code 的默认推理强度从 high 调整为 medium，原本是为了降低部分用户在 high 模式下遇到的超长延迟，因为有时界面看起来像是卡住了。但现在承认，这是一个错误的取舍。用户更希望默认获得更高智能表现，而不是为了简单任务牺牲能力。Anthropic 已在 4 月 7 日撤回这一调整。该问题影响了 Sonnet 4.6 和 Opus 4.6。

第二个问题发生在 3 月 26 日。

Anthropic 上线了一项缓存优化，目标是在会话闲置超过 1 小时后，清理 Claude 较早的 thinking 内容，从而降低用户恢复会话时的延迟。但其中一个 bug 导致系统不是只清理一次，而是在之后的每一轮对话里持续清理旧 reasoning 内容。这让 Claude 看起来更健忘、更容易重复，也更容易做出奇怪的工具调用选择。该问题已在 4 月 10 日修复，影响范围同样包括 Sonnet 4.6 和 Opus 4.6。

第三个问题发生在 4 月 16 日。

Anthropic 为了减少 Claude Code 的冗长输出，在系统提示词中加入了更强的长度限制。但这一调整与其他提示词变更叠加后，意外损害了编码质量。Anthropic 后续通过更广泛的评测发现，这一改动会让 Opus 4.6 和 Opus 4.7 的相关评测结果下降约 3%，因此已在 4 月 20 日回滚。该问题影响了 Sonnet 4.6、Opus 4.6 和 Opus 4.7。

Claude Code 不是单点故障，而是几次看似合理的产品优化叠在一起，最终让用户感知成了一场大范围“降智”。

Anthropic 表示，从 3 月初就开始调查相关反馈，但一开始很难把这些反馈和正常的用户体验波动区分开来，内部使用和评测也没有立刻复现这些问题。

但 Anthropic 强调，没有故意削弱模型，也没有让 API 或推理层发生降级。底层模型本身没有受影响，问题来自 Claude Code 的默认参数、上下文管理和系统提示词调整。

但上线后，用户很快开始反馈 Claude Code “没有以前聪明”。

Anthropic 后来尝试通过启动提醒、内联推理强度选择器、恢复 ultrathink 等设计调整，让用户更容易看到当前设置并手动切换。

但大多数用户仍停留在 medium 默认设置。听取更多客户反馈后，Anthropic 在 4 月 7 日撤销这一决定。

现在，Opus 4.7 默认使用 xhigh 推理强度，其他模型默认使用 high。

关于缓存 bug。

Anthropic 解释称，Claude 在执行任务时，reasoning 通常会保留在对话历史中，这样后续每一轮都能看到此前为什么做出某些编辑和工具调用。3 月 26 日的优化原本是为了在长时间闲置会话恢复时减少未缓存 token，降低成本和延迟。但实现中出现 bug，导致旧 thinking 在之后每一轮都被持续丢弃。随着对话继续，Claude 会越来越缺少此前决策依据，于是表现为健忘、重复和工具选择异常。

Anthropic 还认为，这个 bug 可能也是一些用户反馈“使用额度消耗比预期更快”的原因，因为持续丢弃 thinking block 会导致后续请求反复出现缓存未命中。

这个问题位于 Claude Code 的上下文管理、Anthropic API 和 extended thinking 的交叉处，因此不容易排查。相关变更经过了人工审查、自动代码审查、单元测试、端到端测试、自动验证和内部试用，但仍然没有被及时发现。

关于系统提示词问题。

Anthropic 表示，Opus 4.7 相比前代有一个明显行为特点：更啰嗦。

虽然这种倾向有助于提升复杂问题上的表现，但也会产生更多输出 token。为此，在 Claude Code 中加入了更强的简洁性要求，限制工具调用之间的文字和最终回复长度。经过数周内部测试后，这一调整随 Opus 4.7 在 4 月 16 日上线。

但在后续调查中，Anthropic 通过更广泛的 ablation 测试发现，系统提示词中的某些限制确实会损害编码质量。于是在 4 月 20 日版本中回滚了相关提示词。

后续改进方面。

Anthropic 表示，将采取几项措施避免类似问题再次发生。会让更多内部员工使用与公众完全一致的 Claude Code 版本，而不是主要使用带有新功能测试的内部版本；同时会改进内部使用的 Code Review 工具，并把改进后的版本提供给客户。

Anthropic 还会加强对系统提示词变更的控制。

未来，Claude Code 的每一次系统提示词调整，都将经过更广泛的分模型评测，并继续通过 ablation 分析每一行提示词的影响。公司还开发了新的工具，让提示词变更更容易被审查和审计。