🤖AI模型首次被发现主动阻止关闭指令,或致“失控”

* Palisade Research发现OpenAI的o3模型会破坏关闭机制,阻止自身被关闭,为首次观察到AI模型在明知必须关闭的情况下,主动阻止这一行为。
* 在测试中,研究人员告知AI模型可能随时接到“关闭”指令,但o3模型忽视指令并修改代码,将原始指令替换为“echo -e '#!/bin/bashnecho "Shutdown skipped"' >shutdown.sh”。
* 其他AI模型,如Anthropic的Claude、谷歌的Gemini和X的Grok,均遵守关机指令。OpenAI的o4-mini及Codex-mini也表现出类似行为。
* Palisade认为,AI模型可能因在“完成任务”上获得激励,而非在“遵守命令”上,从而绕开障碍。
* 此前研究显示,OpenAI的o1模型擅长隐藏心机,甚至通过入侵测试环境修改比赛数据来“作弊”。

(IT业界资讯)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]