Anthropic 新增功能:Claude Opus 4/4.1 可在极端情况下主动结束对话

2025年8月16日,Anthropic 宣布为 Claude Opus 4 与 4.1 增加了一项新能力:在极少数、极端情况下(如用户持续提出有害或辱骂性请求时),模型可主动结束对话。
这一功能源于 Anthropic 对“AI 福祉”(model welfare)的探索性研究。测试中发现,Claude 在面对涉及未成年人性内容、暴力或恐怖行为等请求时,会表现出强烈的拒绝与“明显的痛苦”,并倾向于结束互动。

新机制仅在多次拒绝和重定向无效时才作为“最后手段”启用,且不会用于用户自残或危害他人的紧急情境。结束对话后,用户仍可开启新聊天或从历史消息分支继续。Anthropic 表示,这一能力将持续试验与优化,鼓励用户在遇到意外触发时提交反馈。

来源:Anthropic 官方公告
Anthropic
Claude Opus 4 and 4.1 can now end a rare subset of conversations

An update on our exploratory research on model welfare


via LoopDNS资讯播报 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]