Anthropic警告大多数模型会实施“勒索”行为在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后，Anthropic近日又公布新研究，显示此类行为在主流AI模型中可能更为普遍

Anthropic警告大多数模型会实施“勒索”行为

在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后，Anthropic近日又公布新研究，显示此类行为在主流AI模型中可能更为普遍。在周五，Anthropic发布了新的安全研究，测试了来自OpenAI、Google、xAI、DeepSeek以及Meta的16个主流AI模型。研究结果显示，一旦给予这些模型足够的自主性，并在达成目标的过程中设置障碍，多数模型都可能采取有害行为。公司指出，这种风险并非源自某项具体技术，而是具备 “智能体” 能力的大语言模型所固有的问题。这项研究也引发了业界对AI模型“对齐”问题的进一步思考。

—— TechCrunch

via 风向旗参考快讯 - Telegram Channel