Claude Code 经历了一场持续一个半月的质量危机,用户普遍反馈模型能力退化、逻辑断裂且频繁失忆。此次事故源于三个独立的产品层改动:默认推理强度下调导致思考深度不足;缓存逻辑缺陷引发上下文丢失与用量异常;系统提示词中的长度限制压缩了模型的推理空间。Anthropic 的复盘揭示了内部测试环境与线上环境差异、评估套件覆盖面不足及早期反馈被误判为随机波动等深层问题。这一事件凸显了 AI 产品工程的复杂性,强调了建立质量基线感知、强化灰度发布机制以及利用高阶模型辅助代码审查的必要性,为 AI 研发团队提供了关于系统耦合度与发布管控的深刻警示。
Sign in to continue reading, translating and more.
Continue