📉 追踪显示 Claude Code 性能出现下滑，引发模型降级与透明度讨论MarginLab 的追踪数据显示，Claude Code 在 SWE-bench-Pro 准确率测试中，过去一个月的表现出现了约 4% 的统计学显著下降

📉 追踪显示 Claude Code 性能出现下滑，引发模型降级与透明度讨论

MarginLab 的追踪数据显示，Claude Code 在 SWE-bench-Pro 准确率测试中，过去一个月的表现出现了约 4% 的统计学显著下降。针对这一反馈，Claude Code 团队成员 Thariq 回应称，官方已发现并修复了一个于 1 月 26 日引入的测试框架（harness）问题，并于 1 月 28 日完成回滚，建议用户更新至最新版本。尽管 Anthropic 官方曾明确表示绝不会因服务器负载或需求压力而主动降低模型质量，但开发者社区对模型在实际使用中的性能波动仍持有高度关注。

讨论指出，用户感知的“降级”可能源于多种技术因素。部分开发者观察到模型表现随时间段波动，在美西时间高峰期逻辑推理能力疑似下降，而在深夜或周末表现更佳。技术分析认为，这种现象可能与高负载下的批处理（batching）机制、GPU 并行计算的非确定性、或是系统提示词与工具调用的调整有关。此外，社区对厂商是否在后台采用量化（quantization）或蒸馏模型来优化成本及响应速度存在广泛猜测。

专家建议，为了获得更具统计学意义的结论，基准测试应将任务样本量从目前的 50 个提升至 300 个以上，并增加每日测试频率以排除随机性干扰。此次讨论凸显了第三方独立基准测试在监控云端 AI 服务质量（QoS）方面的重要性，认为在缺乏透明度的情况下，持续的性能追踪是确保厂商履行服务承诺的关键手段。

(HackerNews)

via 茶馆 - Telegram Channel