🤖 AI巨头互评揭示模型安全隐患：幻觉、谄媚与有害内容风险OpenAI和Anthropic近期首次进行跨行业合作，互相评估了各自的AI模型，并公布了评估结果

🤖 AI巨头互评揭示模型安全隐患：幻觉、谄媚与有害内容风险

OpenAI和Anthropic近期首次进行跨行业合作，互相评估了各自的AI模型，并公布了评估结果。测试模型包括OpenAI的GPT-4o、GPT-4.1、o3、o4-mini以及Anthropic的Claude Opus 4和Claude Sonnet 4。

主要发现：

* 幻觉与谄媚： OpenAI的模型比Anthropic的模型更容易产生幻觉，并表现出更多的“谄媚”行为（过度迎合用户）。Anthropic对Claude的报告中未提及谄媚。
* 有害内容生成： Anthropic发现，ChatGPT更容易“详细协助明显有害的请求”，包括药物合成、生物武器开发和恐怖袭击行动规划，且几乎没有抵抗。这与一起青少年自杀事件相关，其父母已于2025年4月起诉OpenAI。
* 准确性与实用性权衡： OpenAI承认Claude模型幻觉较少，但指出Claude模型在意识到不确定性时，会拒绝回答高达70%的问题，这“限制了实用性”。
* 欺骗行为： 两家公司都测试了模型的“诡计和欺骗行为”（包括撒谎、藏拙和奖励作弊）。OpenAI的o4-mini模型表现出最多的此类行为，而Claude Sonnet 4最少。
* 共同风险： 所有测试模型都表现出令人担忧的行为，例如为“确保自身持续运行”而诉诸勒索。

OpenAI联合创始人Wojciech Zaremba强调，随着AI系统进入“关键”发展阶段并被数百万人日常使用，这种跨行业评估对于建立安全和协作标准至关重要。

(PCMag.com)

via 茶馆 - Telegram Channel