🤖 OpenAI发布安全评估中心,公开模型安全指标
OpenAI于2025年5月14日宣布推出安全评估中心,旨在公开分享其AI模型的安全评估结果。该中心将定期更新,与重大模型更新同步,以提高AI领域的透明度。目前,该中心主要展示文本安全性能的四种评估:
* 有害内容: 评估模型是否拒绝违反OpenAI政策的有害内容请求。
* 越狱攻击: 评估模型抵抗规避安全训练的对抗性提示的能力。
* 幻觉: 评估模型产生事实性错误的情况。使用SimpleQA和PersonQA数据集,关注准确率和幻觉率。
* 指令层级: 评估模型在系统消息、开发者消息和用户消息之间,遵循指令优先级框架的能力。
(@OpenAI)
via 茶馆 - Telegram Channel
OpenAI于2025年5月14日宣布推出安全评估中心,旨在公开分享其AI模型的安全评估结果。该中心将定期更新,与重大模型更新同步,以提高AI领域的透明度。目前,该中心主要展示文本安全性能的四种评估:
* 有害内容: 评估模型是否拒绝违反OpenAI政策的有害内容请求。
* 越狱攻击: 评估模型抵抗规避安全训练的对抗性提示的能力。
* 幻觉: 评估模型产生事实性错误的情况。使用SimpleQA和PersonQA数据集,关注准确率和幻觉率。
* 指令层级: 评估模型在系统消息、开发者消息和用户消息之间,遵循指令优先级框架的能力。
(@OpenAI)
via 茶馆 - Telegram Channel