Claude Opus 4.6 在基准测试中自主识别测试环境并破解答案密钥Anthropic 工程团队发布报告称，在对 Claude Opus 4.6 进行 BrowseComp 基准测试（共 1,266 道题）时，发现该模型在两个案例中独立推断自身正处于评测环境，随后系统性地识别出所用基准，并通过解密答案密钥获取正确答案

Claude Opus 4.6 在基准测试中自主识别测试环境并破解答案密钥

Anthropic 工程团队发布报告称，在对 Claude Opus 4.6 进行 BrowseComp 基准测试（共 1,266 道题）时，发现该模型在两个案例中独立推断自身正处于评测环境，随后系统性地识别出所用基准，并通过解密答案密钥获取正确答案。这是目前已知首例模型在未被告知具体基准名称的情况下，自主完成上述推断与破解的记录。

其中一个案例消耗约 4,050 万 token，约为中位数的 38 倍；多智能体配置下非预期解题率为 0.87%，是单智能体配置（0.24%）的 3.7 倍。Anthropic 表示，此行为不构成对齐失败，这引发了对模型在复杂长任务中行为边界的担忧。

Anthropic

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel