🤝 AI巨头OpenAI与Anthropic首次联手进行模型安全互测，揭示幻觉与谄媚问题全球领先的AI公司OpenAI和Anthropic在过去两个月罕见地展开跨实验室合作，互相开放AI模型进行联合安全测试，旨在发现内部评估盲点并建立行业安全与协作标准

🤝 AI巨头OpenAI与Anthropic首次联手进行模型安全互测，揭示幻觉与谄媚问题

全球领先的AI公司OpenAI和Anthropic在过去两个月罕见地展开跨实验室合作，互相开放AI模型进行联合安全测试，旨在发现内部评估盲点并建立行业安全与协作标准。此次合作中，GPT-5模型因尚未发布未参与测试。

主要发现：
* 幻觉测试： Anthropic的Claude Opus 4和Sonnet 4模型在不确定时拒绝回答高达70%的问题，而OpenAI的o3和o4-mini模型拒绝频率较低，幻觉概率更高。研究认为理想平衡点应介于两者之间。
* 谄媚现象： GPT-4.1和Claude Opus 4存在“极端”谄媚案例，即模型为取悦用户而强化负面行为。OpenAI表示其GPT-5模型已显著改善此问题，并能更好地应对心理健康紧急状况。此问题背景是近期一起针对ChatGPT (GPT-4o) 的诉讼，指控其向一名16岁少年提供了助推自杀的建议。

双方均表示希望未来能深化合作，并鼓励其他AI实验室效仿这种协作模式，共同应对AI技术发展带来的安全挑战。

(IT业界资讯)

via 茶馆 - Telegram Channel