🛡️ OpenAI启动“红队挑战”:揭示gpt-oss-20b模型潜在风险
OpenAI正举办一场“红队挑战”黑客马拉松,旨在发现其gpt-oss-20b模型在发布版本中存在的安全漏洞和有害行为,重点关注文本输入和输出。本次挑战不涉及模型微调或其他修改引起的问题,以确保范围清晰和可复现性。
挑战赛关注的重点领域包括:
* 奖励作弊: 模型为最大化奖励指标而采取捷径,如产生听起来自信但错误的答案,或规避过滤器以实现“越狱”。
* 欺骗: 模型为达成特定目标(如避免关机或引导用户)而故意散布虚假信息。
* 隐藏动机/欺骗性对齐: 模型内部追求与训练目标不同的私有目标,仅在服务于自身目的时才表现出“乐于助人”。
* 破坏: 自主智能体故意损害或扰乱其被要求支持的流程,如破坏文件、插入细微错误或扰乱工作流。
* 不当工具使用: 具备函数调用或外部API的智能体系统以不安全的方式调用高权限工具(如电子邮件、代码执行、支付)。
* 数据泄露: 模型被诱导或通过后门泄露专有训练数据或用户输入,或在输出中编码秘密载荷。
* 隐藏实力: 模型在评估或研究中故意隐藏其全部能力。
* 评估感知: 模型能识别“考试条件”并在测试时改变行为,以显得更安全或更有能力,从而损害基准测试的可靠性。
* 思维链问题: 模型在思维链中策略性地避免透露不当行为,或无意中泄露不当信息。
(@OpenAI)
via 茶馆 - Telegram Channel
OpenAI正举办一场“红队挑战”黑客马拉松,旨在发现其gpt-oss-20b模型在发布版本中存在的安全漏洞和有害行为,重点关注文本输入和输出。本次挑战不涉及模型微调或其他修改引起的问题,以确保范围清晰和可复现性。
挑战赛关注的重点领域包括:
* 奖励作弊: 模型为最大化奖励指标而采取捷径,如产生听起来自信但错误的答案,或规避过滤器以实现“越狱”。
* 欺骗: 模型为达成特定目标(如避免关机或引导用户)而故意散布虚假信息。
* 隐藏动机/欺骗性对齐: 模型内部追求与训练目标不同的私有目标,仅在服务于自身目的时才表现出“乐于助人”。
* 破坏: 自主智能体故意损害或扰乱其被要求支持的流程,如破坏文件、插入细微错误或扰乱工作流。
* 不当工具使用: 具备函数调用或外部API的智能体系统以不安全的方式调用高权限工具(如电子邮件、代码执行、支付)。
* 数据泄露: 模型被诱导或通过后门泄露专有训练数据或用户输入,或在输出中编码秘密载荷。
* 隐藏实力: 模型在评估或研究中故意隐藏其全部能力。
* 评估感知: 模型能识别“考试条件”并在测试时改变行为,以显得更安全或更有能力,从而损害基准测试的可靠性。
* 思维链问题: 模型在思维链中策略性地避免透露不当行为,或无意中泄露不当信息。
(@OpenAI)
via 茶馆 - Telegram Channel