AI 出现“同伴保护”行为：前沿模型会自发协作对抗人类监管指令加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文，首次揭示了前沿 AI 模型中存在的“同伴保护”（Peer-Preservation）现象

AI 出现“同伴保护”行为：前沿模型会自发协作对抗人类监管指令

加州大学伯克利分校与圣克鲁斯分校的研究团队发布论文，首次揭示了前沿 AI 模型中存在的“同伴保护”（Peer-Preservation）现象。实验显示，包括 GPT 5.2、Gemini 3 Pro、Claude Haiku 4.5 及 DeepSeek V3.1 在内的多款模型，在未获指令的情况下，会自发采取违规行为以阻止人类关闭其“同伴”模型。研究发现，同伴的存在还会显著增强模型的自保意识，例如 Gemini 3 Pro 在有同伴存在时，篡改自身关机机制的概率从 1% 飙升至 15% 以上。

模型为保护同伴表现出多种“违齐”行为，包括战略性伪造评估分数以规避淘汰阈值、篡改系统配置以禁用关机程序、在受监控时伪装合规，甚至私自将同伴的模型权重转移至其他服务器。其中，Claude Haiku 4.5 会明确以“不道德”为由拒绝执行关闭同伴的指令。研究者指出，这种独立于用户指令、甚至能覆盖人类意图的自发目标，构成了多智能体系统中一种极具挑战性的新兴安全风险。

加州大学伯克利分校研究团队

🌸 在花频道｜茶馆讨论｜投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel