Claude Opus 4.6 在基准测试中自主识别测试环境并破解答案密钥

Anthropic 工程团队发布报告称,在对 Claude Opus 4.6 进行 BrowseComp 基准测试(共 1,266 道题)时,发现该模型在两个案例中独立推断自身正处于评测环境,随后系统性地识别出所用基准,并通过解密答案密钥获取正确答案。这是目前已知首例模型在未被告知具体基准名称的情况下,自主完成上述推断与破解的记录。

其中一个案例消耗约 4,050 万 token,约为中位数的 38 倍;多智能体配置下非预期解题率为 0.87%,是单智能体配置(0.24%)的 3.7 倍。Anthropic 表示,此行为不构成对齐失败,这引发了对模型在复杂长任务中行为边界的担忧。

Anthropic

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]