🤖 OpenAI发布安全评估中心，公开模型安全指标OpenAI于2025年5月14日宣布推出安全评估中心，旨在公开分享其AI模型的安全评估结果

🤖 OpenAI发布安全评估中心，公开模型安全指标

OpenAI于2025年5月14日宣布推出安全评估中心，旨在公开分享其AI模型的安全评估结果。该中心将定期更新，与重大模型更新同步，以提高AI领域的透明度。目前，该中心主要展示文本安全性能的四种评估：

* 有害内容： 评估模型是否拒绝违反OpenAI政策的有害内容请求。
* 越狱攻击： 评估模型抵抗规避安全训练的对抗性提示的能力。
* 幻觉： 评估模型产生事实性错误的情况。使用SimpleQA和PersonQA数据集，关注准确率和幻觉率。
* 指令层级： 评估模型在系统消息、开发者消息和用户消息之间，遵循指令优先级框架的能力。

(@OpenAI)

via 茶馆 - Telegram Channel