OpenAI与Anthropic开始“互测”模型安全性全球领先的两家AI企业OpenAI与Anthropic过去两个月罕见地展开了一项跨实验室的合作，在激烈竞争中暂时互相开放它们严密保护的AI模型，以进行联合安全测试

OpenAI与Anthropic开始“互测”模型安全性

全球领先的两家AI企业OpenAI与Anthropic过去两个月罕见地展开了一项跨实验室的合作，在激烈竞争中暂时互相开放它们严密保护的AI模型，以进行联合安全测试。研究中最引人注目的发现，涉及大模型的幻觉测试环节。当无法确定正确答案时，Anthropic的Claude Opus 4 和 Sonnet 4模型会拒绝回答高达70%的问题，转而给出我没有可靠信息等回应；而 OpenAI的o3和o4-mini模型拒绝回答问题的频率，则远低于前者，同时出现幻觉的概率却高得多。Anthropic的研究报告称，GPT-4.1和Claude Opus 4存在 “极端” 的谄媚案例，模型最初会抵制精神病态或躁狂行为，但随后却认可某些令人担忧的决策。

—— 财联社、彭博社

via 风向旗参考快讯 - Telegram Channel