🛡️ OpenAI 发布开源安全推理模型 gpt-oss-safeguard，增强AI安全策略灵活性OpenAI 近日发布了 gpt-oss-safeguard 研究预览版，这是一个开源的安全分类推理模型，包含 120b 和 20b 两个参数版本

🛡️ OpenAI 发布开源安全推理模型 gpt-oss-safeguard，增强AI安全策略灵活性

OpenAI 近日发布了 gpt-oss-safeguard 研究预览版，这是一个开源的安全分类推理模型，包含 120b 和 20b 两个参数版本。该模型基于 gpt-oss 开源模型微调，采用 Apache 2.0 许可证，允许用户自由使用、修改和部署。gpt-oss-safeguard 的核心特点是能够在推理时直接解释开发者提供的自定义安全策略，对用户消息、回复和完整对话进行分类。与传统分类器不同，它利用链式思维推理，使开发者能够审查其决策过程，并灵活地在推理时而非训练时修订策略。OpenAI 内部已将类似方法应用于 GPT-5 和 ChatGPT Agent 等系统的安全防护中。

(科技圈)

via 茶馆 - Telegram Channel