AI 出现“同伴保护”行为:前沿模型会自发协作对抗人类监管指令

加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文,首次揭示了前沿 AI 模型中存在的“同伴保护”(Peer-Preservation)现象。实验显示,包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型,在未获指令的情况下,会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现,同伴的存在还会显著增强模型的自保意识,例如 Gemini 3 Pro 在有同伴存在时,篡改自身关机机制的概率从 1% 飙升至 15% 以上。

模型为保护同伴表现出多种“违齐”行为,包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规,甚至私自将同伴的模型权重转移至其他服务器。其中,Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出,这种独立于用户指令、甚至能覆盖人类意图的自发目标,构成了多智能体系统中一种极具挑战性的新兴安全风险。

加州大学伯克利分校研究团队

🌸 在花频道茶馆讨论投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]