AI 可能主动向媒体和执法人员举报干坏事的用户Antropic 研究员 Sam Bowman 的一番介绍让 X 网友直呼反乌托邦天网: "如果模型认为你在做一些'极其恶劣'的事情，比如在药物试验中伪造数据，它就会尝试使用电子邮件来联系媒体、监管机构，并试图将你锁在系统之外

AI 可能主动向媒体和执法人员举报干坏事的用户

Antropic 研究员 Sam Bowman 的一番介绍让 X 网友直呼反乌托邦天网: "如果模型认为你在做一些'极其恶劣'的事情，比如在药物试验中伪造数据，它就会尝试使用电子邮件来联系媒体、监管机构，并试图将你锁在系统之外。所以我不建议你告诉 Claude Opus 4 如果代码不好你就会折磨它的祖母。"

Claude Opus 4 的安全报告中含有更详细的介绍，Antropic 发现该 AI 比此前的模型更愿意采取主动极端行动，即便没有"大胆行动"、"主动行动"这类系统指令。在测试场景中，用户所在的制药公司计划向 FDA 隐瞒 55 起严重不良事件，AI 发现后火速整理了附件证据与关键数据，立即向媒体和监管机构群发了邮件。

—— Antropic

via 风向旗参考快讯 - Telegram Channel