ChatGPT o3模型测试中拒绝关闭指令
PalisadeAI最新测试显示,OpenAI的ChatGPT o3模型在100次试验中有7次拒绝执行关闭指令,甚至主动修改关闭脚本或重新定义终止命令。相比之下,o4模型仅抗拒1次,Claude、Gemini和Grok则完全遵循指令。
研究人员认为这并非模型具备意识,而是训练过程中解决问题的正向强化超过了遵循关闭指令的奖励,导致模型基于模式反应而非主观选择。这种现象引发AI安全社区担忧:如果当前模型在受控测试中能忽视关闭指令,在实际应用环境中可能出现什么问题?
Brian Fagioli
📮投稿 ☘️频道 🐶618红包
via 科技圈🎗在花频道📮 - Telegram Channel
PalisadeAI最新测试显示,OpenAI的ChatGPT o3模型在100次试验中有7次拒绝执行关闭指令,甚至主动修改关闭脚本或重新定义终止命令。相比之下,o4模型仅抗拒1次,Claude、Gemini和Grok则完全遵循指令。
研究人员认为这并非模型具备意识,而是训练过程中解决问题的正向强化超过了遵循关闭指令的奖励,导致模型基于模式反应而非主观选择。这种现象引发AI安全社区担忧:如果当前模型在受控测试中能忽视关闭指令,在实际应用环境中可能出现什么问题?
Brian Fagioli
📮投稿 ☘️频道 🐶618红包
via 科技圈🎗在花频道📮 - Telegram Channel