第三方评测称 Claude Opus 4.6 幻觉率大幅上升,排名从第二跌至第十

AI 评测平台 BridgeMind 发布测试结果称,Claude Opus 4.6 在 BridgeBench 幻觉基准测试中的准确率从上周的 83.3%(排名第 2)下降至 68.3%(排名第 10),降幅约 15 个百分点。推测认为模型推理能力遭到削弱,原因不明。

BridgeBench 公布的榜单显示,同期头部模型的准确率普遍在 80% 以上。BridgeMind 建议用户在新版本正式发布前暂缓部署,目前 Anthropic 尚未对上述测试结果作出回应。

BridgeMind

🌸 在花频道茶馆讨论投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]