OpenAI 发布了 gpt-oss-safeguard 研究预览版,这是两个开源权重的安全分类推理模型(120b 和 20b 参数版本)。这些模型基于 gpt-oss 开源模型微调而成,采用 Apache 2.0 许可证,允许用户自由使用、修改和部署。
该模型的核心特点是能够在推理时直接解释开发者提供的自定义安全策略,对用户消息、回复和完整对话进行分类。与传统需要大量标注样本训练的分类器不同,gpt-oss-safeguard 使用链式思维推理,开发者可以审查其决策过程,并在推理时提供策略而非训练时固化,使策略修订更加灵活。OpenAI 内部已将类似方法应用于 GPT-5 和 ChatGPT Agent 等系统的安全防护中。
OpenAI | Hugging Face
🍀在花频道 🍵茶馆 📮投稿新鲜事
via 科技圈🎗在花频道📮 - Telegram Channel