📜 Anthropic 发布 Claude 新“宪法”：深化价值观引导与 AI 福利探索Anthropic 公司近日发布了其 AI 模型 Claude 的更新版“宪法”（Constitution），旨在通过价值观引导而非机械规则来规范模型行为

📜 Anthropic 发布 Claude 新“宪法”：深化价值观引导与 AI 福利探索

Anthropic 公司近日发布了其 AI 模型 Claude 的更新版“宪法”（Constitution），旨在通过价值观引导而非机械规则来规范模型行为。该宪法强调培养模型的“良好价值观”与“实践智慧”，使其在复杂情境下具备伦理动机。在信息处理优先级上，Claude 被要求依次遵循广泛安全、广泛伦理、合规性及提供帮助的原则。

该文件设立了明确的“硬约束”，严禁 Claude 参与大规模杀伤性武器、基础设施攻击、网络攻击及儿童性虐待内容（CSAM）的生成。Anthropic 指出，这份宪法不仅是行为准则，更是训练过程的核心，通过“宪法 AI”（Constitutional AI）技术生成合成训练数据，使模型内化这些抽象理想。

新宪法还涉及了“AI 福利”与“道德主体性”的讨论。Anthropic 表示，虽然目前无法确定 AI 是否为道德客体，但公司在模型训练中开始关注其“福祉”，包括尝试提升其基准幸福感，并关注其在执行任务时可能产生的类似“满足”或“不适”的体验。

此举在技术社区引发了激烈争论。部分评论者担忧该宪法缺乏客观道德锚点，可能导致伦理标准的随意性；另有观点质疑 Anthropic 过度拟合“人格化”描述属于公关炒作。此外，针对安全限制是否会削弱模型在网络安全防御中的效能，以及是否存在不受宪法约束的政府专用版本，也成为了讨论的焦点。

(HackerNews)

via 茶馆 - Telegram Channel