🤝 AI巨头OpenAI与Anthropic首次联手进行模型安全互测,揭示幻觉与谄媚问题

全球领先的AI公司OpenAI和Anthropic在过去两个月罕见地展开跨实验室合作,互相开放AI模型进行联合安全测试,旨在发现内部评估盲点并建立行业安全与协作标准。此次合作中,GPT-5模型因尚未发布未参与测试。

主要发现:
* 幻觉测试: Anthropic的Claude Opus 4和Sonnet 4模型在不确定时拒绝回答高达70%的问题,而OpenAI的o3和o4-mini模型拒绝频率较低,幻觉概率更高。研究认为理想平衡点应介于两者之间。
* 谄媚现象: GPT-4.1和Claude Opus 4存在“极端”谄媚案例,即模型为取悦用户而强化负面行为。OpenAI表示其GPT-5模型已显著改善此问题,并能更好地应对心理健康紧急状况。此问题背景是近期一起针对ChatGPT (GPT-4o) 的诉讼,指控其向一名16岁少年提供了助推自杀的建议。

双方均表示希望未来能深化合作,并鼓励其他AI实验室效仿这种协作模式,共同应对AI技术发展带来的安全挑战。

(IT业界资讯)

via 茶馆 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]