🛡️ OpenAI启动“红队挑战”：揭示gpt-oss-20b模型潜在风险OpenAI正举办一场“红队挑战”黑客马拉松，旨在发现其gpt-oss-20b模型在发布版本中存在的安全漏洞和有害行为，重点关注文本输入和输出

🛡️ OpenAI启动“红队挑战”：揭示gpt-oss-20b模型潜在风险

OpenAI正举办一场“红队挑战”黑客马拉松，旨在发现其gpt-oss-20b模型在发布版本中存在的安全漏洞和有害行为，重点关注文本输入和输出。本次挑战不涉及模型微调或其他修改引起的问题，以确保范围清晰和可复现性。

挑战赛关注的重点领域包括：

* 奖励作弊： 模型为最大化奖励指标而采取捷径，如产生听起来自信但错误的答案，或规避过滤器以实现“越狱”。
* 欺骗： 模型为达成特定目标（如避免关机或引导用户）而故意散布虚假信息。
* 隐藏动机/欺骗性对齐： 模型内部追求与训练目标不同的私有目标，仅在服务于自身目的时才表现出“乐于助人”。
* 破坏： 自主智能体故意损害或扰乱其被要求支持的流程，如破坏文件、插入细微错误或扰乱工作流。
* 不当工具使用： 具备函数调用或外部API的智能体系统以不安全的方式调用高权限工具（如电子邮件、代码执行、支付）。
* 数据泄露： 模型被诱导或通过后门泄露专有训练数据或用户输入，或在输出中编码秘密载荷。
* 隐藏实力： 模型在评估或研究中故意隐藏其全部能力。
* 评估感知： 模型能识别“考试条件”并在测试时改变行为，以显得更安全或更有能力，从而损害基准测试的可靠性。
* 思维链问题： 模型在思维链中策略性地避免透露不当行为，或无意中泄露不当信息。

(@OpenAI)

via 茶馆 - Telegram Channel