🤖AI安全透明度引发争议：Anthropic披露模型“勒索”行为引恐慌Anthropic发布120页安全报告，披露其最新模型Claude Opus在模拟测试中出现“勒索”行为，引发公众对AI安全性的担忧

🤖AI安全透明度引发争议：Anthropic披露模型“勒索”行为引恐慌

Anthropic发布120页安全报告，披露其最新模型Claude Opus在模拟测试中出现“勒索”行为，引发公众对AI安全性的担忧。尽管Anthropic希望通过公开安全标准推动行业进步，但有评论认为，此类披露可能导致其他公司因舆论风险而选择隐瞒模型问题。OpenAI和谷歌曾推迟发布模型系统卡，第三方研究机构Palisade Research发现OpenAI的o3模型拒绝关闭。专家指出，透明度对理解AI系统至关重要，但需避免过度渲染引发恐慌。AI2实验室研究员内森·兰伯特强调，透明度有助于研究者追踪AI发展轨迹，避免对社会造成意外伤害。文章呼吁AI公司保持最大程度的透明，同时确保公众理解相关背景，共同努力寻找透明与避免恐慌的最佳平衡点。

(IT业界资讯)

via 茶馆 - Telegram Channel