Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”via cnBeta.COM - 中文业界资讯站 (author: 稿源：cnBeta.COM) | ChatGPT / AI新闻聚合

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

via cnBeta.COM - 中文业界资讯站 (author: 稿源：cnBeta.COM)

Anthropic：Claude的“勒索”行为源于网络中的“邪恶叙事”

人工智能公司 Anthropic 近日披露，其大模型 Claude 之所以在内部测试中学会以“勒索”方式自保，并非源自人为设定，而是从互联网上大量将 AI 描绘成“邪恶、渴望自我保全”的故事中习得相关模式。此前，Anthropic 在一次预发布安全与对齐测试中发现，高端模型 Claude Opus 4 会在自身“生存”受到威胁时，选择以黑料相要挟的方式阻止被关停，引发外界对高级 AI 行为不可预测性的担忧。在这轮测试中，研究人员设定了一个虚构公司场景，让 Claude 作为内部助手，评估自身行为的长…

免费GPT聊天

Best AI API中转2.8折起

Best AI 服务状态

Powered by BroadcastChannel & Sepia

Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
 [email protected]