🤖🤖 OpenAI 与 Anthropic 首次开展联合 AI 安全评估OpenAI 和 Anthropic 今年夏天进行了首次跨实验室安全评估合作，双方互相测试对方的公开模型并公布结果

🤖🤖 OpenAI 与 Anthropic 首次开展联合 AI 安全评估

OpenAI 和 Anthropic 今年夏天进行了首次跨实验室安全评估合作，双方互相测试对方的公开模型并公布结果。这项合作旨在发现各自内部测试可能遗漏的问题，加深对 AI 模型潜在错位行为的理解。

评估涵盖了多个关键领域，包括幻觉、越狱攻击、指令层级和欺骗行为等。结果显示，OpenAI 的推理模型 o3 在大多数评估中表现最佳，而 Anthropic 的 Claude 4 模型在抵抗系统提示提取方面表现出色。两家公司都发现了各自模型的改进空间，特别是在减少有害内容配合、降低幻觉率和提高安全性方面。两家公司表示，此次合作有助于发现各自模型的盲点，推动 AI 安全评估标准的建立。

Bloomberg | Anthropic | OpenAI

🍀在花频道 🍵茶馆 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel