ChatGPT / AI新闻聚合
2 小时前
Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”
via
cnBeta.COM - 中文业界资讯站
(author:
稿源:cnBeta.COM
)
Telegraph
Anthropic:Claude的“勒索”行为源于网络中的“邪恶叙事”
人工智能公司 Anthropic 近日披露,其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保,并非源自人为设定,而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。 此前,Anthropic 在一次预发布安全与对齐测试中发现,高端模型 Claude Opus 4 会在自身“生存”受到威胁时,选择以黑料相要挟的方式阻止被关停,引发外界对高级 AI 行为不可预测性的担忧。 在这轮测试中,研究人员设定了一个虚构公司场景,让 Claude 作为内部助手,评估自身行为的长…
Home
Tags
免费GPT聊天
Best AI API中转2.8折起
Best AI 服务状态
电报频道
Powered by
BroadcastChannel
&
Sepia
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]