Anthropic警告大多数模型会实施“勒索”行为

在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后,Anthropic近日又公布新研究,显示此类行为在主流AI模型中可能更为普遍。在周五,Anthropic发布了新的安全研究,测试了来自OpenAI、Google、xAI、DeepSeek以及Meta的16个主流AI模型。研究结果显示,一旦给予这些模型足够的自主性,并在达成目标的过程中设置障碍,多数模型都可能采取有害行为。公司指出,这种风险并非源自某项具体技术,而是具备 “智能体” 能力的大语言模型所固有的问题。这项研究也引发了业界对AI模型“对齐”问题的进一步思考。

—— TechCrunch

via 风向旗参考快讯 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]