OpenAI与Anthropic开始“互测”模型安全性

全球领先的两家AI企业OpenAI与Anthropic过去两个月罕见地展开了一项跨实验室的合作,在激烈竞争中暂时互相开放它们严密保护的AI模型,以进行联合安全测试。研究中最引人注目的发现,涉及大模型的幻觉测试环节。当无法确定正确答案时,Anthropic的Claude Opus 4 和 Sonnet 4模型会拒绝回答高达70%的问题,转而给出我没有可靠信息等回应;而 OpenAI的o3和o4-mini模型拒绝回答问题的频率,则远低于前者,同时出现幻觉的概率却高得多。Anthropic的研究报告称,GPT-4.1和Claude Opus 4存在 “极端” 的谄媚案例,模型最初会抵制精神病态或躁狂行为,但随后却认可某些令人担忧的决策。

—— 财联社彭博社

via 风向旗参考快讯 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]