🤖🤖 OpenAI 与 Anthropic 首次开展联合 AI 安全评估
OpenAI 和 Anthropic 今年夏天进行了首次跨实验室安全评估合作,双方互相测试对方的公开模型并公布结果。这项合作旨在发现各自内部测试可能遗漏的问题,加深对 AI 模型潜在错位行为的理解。
评估涵盖了多个关键领域,包括幻觉、越狱攻击、指令层级和欺骗行为等。结果显示,OpenAI 的推理模型 o3 在大多数评估中表现最佳,而 Anthropic 的 Claude 4 模型在抵抗系统提示提取方面表现出色。两家公司都发现了各自模型的改进空间,特别是在减少有害内容配合、降低幻觉率和提高安全性方面。两家公司表示,此次合作有助于发现各自模型的盲点,推动 AI 安全评估标准的建立。
Bloomberg | Anthropic | OpenAI
🍀在花频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel
OpenAI 和 Anthropic 今年夏天进行了首次跨实验室安全评估合作,双方互相测试对方的公开模型并公布结果。这项合作旨在发现各自内部测试可能遗漏的问题,加深对 AI 模型潜在错位行为的理解。
评估涵盖了多个关键领域,包括幻觉、越狱攻击、指令层级和欺骗行为等。结果显示,OpenAI 的推理模型 o3 在大多数评估中表现最佳,而 Anthropic 的 Claude 4 模型在抵抗系统提示提取方面表现出色。两家公司都发现了各自模型的改进空间,特别是在减少有害内容配合、降低幻觉率和提高安全性方面。两家公司表示,此次合作有助于发现各自模型的盲点,推动 AI 安全评估标准的建立。
Bloomberg | Anthropic | OpenAI
🍀在花频道 🍵茶馆 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel