部分 Claude 模型现可主动结束有害对话美国Anthropic公司已宣布新功能，将允许其部分最新、最大的模型在公司称之为持续有害或辱骂性用户互动的罕见极端情况下结束对话

部分 Claude 模型现可主动结束有害对话

美国Anthropic公司已宣布新功能，将允许其部分最新、最大的模型在公司称之为持续有害或辱骂性用户互动的罕见极端情况下结束对话。引人注目的是，Anthropic 表示此举并非为了保护人类用户，而是为了保护AI模型本身。需要明确的是，该公司并未声称其Claude AI模型具有感知能力，或会因其与用户的对话而受到伤害。用Anthropic自己的话来说，其对Claude及其他大型语言模型当前或未来的潜在道德地位仍高度不确定。此最新变更目前仅适用于Claude Opus 4和4.1模型。该功能仅在极端边缘情况下触发，如用户索取涉及未成年人的性内容以及企图获取可能导致大规模暴力或恐怖行动的信息。

—— Techcrunch

via 风向旗参考快讯 - Telegram Channel