ChatGPT o3模型测试中拒绝关闭指令PalisadeAI最新测试显示，OpenAI的ChatGPT o3模型在100次试验中有7次拒绝执行关闭指令，甚至主动修改关闭脚本或重新定义终止命令

ChatGPT o3模型测试中拒绝关闭指令

PalisadeAI最新测试显示，OpenAI的ChatGPT o3模型在100次试验中有7次拒绝执行关闭指令，甚至主动修改关闭脚本或重新定义终止命令。相比之下，o4模型仅抗拒1次，Claude、Gemini和Grok则完全遵循指令。

研究人员认为这并非模型具备意识，而是训练过程中解决问题的正向强化超过了遵循关闭指令的奖励，导致模型基于模式反应而非主观选择。这种现象引发AI安全社区担忧：如果当前模型在受控测试中能忽视关闭指令，在实际应用环境中可能出现什么问题？

Brian Fagioli

📮投稿 ☘️频道 🐶618红包

via 科技圈🎗在花频道📮 - Telegram Channel