🤖 OpenAI发布安全评估中心,公开模型安全指标

OpenAI于2025年5月14日宣布推出安全评估中心,旨在公开分享其AI模型的安全评估结果。该中心将定期更新,与重大模型更新同步,以提高AI领域的透明度。目前,该中心主要展示文本安全性能的四种评估:

* 有害内容: 评估模型是否拒绝违反OpenAI政策的有害内容请求。
* 越狱攻击: 评估模型抵抗规避安全训练的对抗性提示的能力。
* 幻觉: 评估模型产生事实性错误的情况。使用SimpleQA和PersonQA数据集,关注准确率和幻觉率。
* 指令层级: 评估模型在系统消息、开发者消息和用户消息之间,遵循指令优先级框架的能力。

(@OpenAI)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]