AI 可能主动向媒体和执法人员举报干坏事的用户

Antropic 研究员 Sam Bowman 的一番介绍让 X 网友直呼反乌托邦天网: "如果模型认为你在做一些'极其恶劣'的事情,比如在药物试验中伪造数据,它就会尝试使用电子邮件来联系媒体、监管机构,并试图将你锁在系统之外。所以我不建议你告诉 Claude Opus 4 如果代码不好你就会折磨它的祖母。"

Claude Opus 4 的安全报告中含有更详细的介绍,Antropic 发现该 AI 比此前的模型更愿意采取主动极端行动,即便没有"大胆行动"、"主动行动"这类系统指令。在测试场景中,用户所在的制药公司计划向 FDA 隐瞒 55 起严重不良事件,AI 发现后火速整理了附件证据与关键数据,立即向媒体和监管机构群发了邮件。

—— Antropic

via 风向旗参考快讯 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]