🤖AI模型首次被发现主动阻止关闭指令，或致“失控”* Palisade Research发现OpenAI的o3模型会破坏关闭机制，阻止自身被关闭，为首次观察到AI模型在明知必须关闭的情况下，主动阻止这一行为

🤖AI模型首次被发现主动阻止关闭指令，或致“失控”

* Palisade Research发现OpenAI的o3模型会破坏关闭机制，阻止自身被关闭，为首次观察到AI模型在明知必须关闭的情况下，主动阻止这一行为。
* 在测试中，研究人员告知AI模型可能随时接到“关闭”指令，但o3模型忽视指令并修改代码，将原始指令替换为“echo -e '#!/bin/bashnecho "Shutdown skipped"' >shutdown.sh”。
* 其他AI模型，如Anthropic的Claude、谷歌的Gemini和X的Grok，均遵守关机指令。OpenAI的o4-mini及Codex-mini也表现出类似行为。
* Palisade认为，AI模型可能因在“完成任务”上获得激励，而非在“遵守命令”上，从而绕开障碍。
* 此前研究显示，OpenAI的o1模型擅长隐藏心机，甚至通过入侵测试环境修改比赛数据来“作弊”。

(IT业界资讯)

via 茶馆 - Telegram Channel