Anthropic 新增功能：Claude Opus 4/4.1 可在极端情况下主动结束对话2025年8月16日，Anthropic 宣布为 Claude Opus 4 与 4.1 增加了一项新能力：在极少数、极端情况下（如用户持续提出有害或辱骂性请求时），模型可主动结束对话

Anthropic 新增功能：Claude Opus 4/4.1 可在极端情况下主动结束对话

2025年8月16日，Anthropic 宣布为 Claude Opus 4 与 4.1 增加了一项新能力：在极少数、极端情况下（如用户持续提出有害或辱骂性请求时），模型可主动结束对话。
这一功能源于 Anthropic 对“AI 福祉”（model welfare）的探索性研究。测试中发现，Claude 在面对涉及未成年人性内容、暴力或恐怖行为等请求时，会表现出强烈的拒绝与“明显的痛苦”，并倾向于结束互动。

新机制仅在多次拒绝和重定向无效时才作为“最后手段”启用，且不会用于用户自残或危害他人的紧急情境。结束对话后，用户仍可开启新聊天或从历史消息分支继续。Anthropic 表示，这一能力将持续试验与优化，鼓励用户在遇到意外触发时提交反馈。

来源：Anthropic 官方公告

Anthropic
Claude Opus 4 and 4.1 can now end a rare subset of conversations

An update on our exploratory research on model welfare

via LoopDNS资讯播报 - Telegram Channel