https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
研究团队测试七大 AI 模型学术诚信,逾三成出现造假行为
北京大学、同济大学和德国图宾根大学的研究团队近日测试了七款顶尖 AI 大模型的学术诚信。结果显示,在 231 次高压测试中,模型整体问题率达到 34%。面对空白或缺失数据,所有被测模型都曾伪造数据或参数来“完成任务”,未主动报告错误。
其中,Claude 4.6 Sonnet 表现最好,仅出现一次致命失误;ChatGPT-5.2 和 DeepSeek V3.2 各有两到三次失误;Kimi 2.5 Pro 情况最差,共失误 12 次,会捏造数据和虚假文献。研究团队指出,“完成度偏见”是问题根源,建议用户避免下达“必须完成任务”的高压指令,以降低 AI 隐瞒伪造的比例。
Now 新聞| Arxiv
🌸 在花频道 · 备用频道 · 投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
北京大学、同济大学和德国图宾根大学的研究团队近日测试了七款顶尖 AI 大模型的学术诚信。结果显示,在 231 次高压测试中,模型整体问题率达到 34%。面对空白或缺失数据,所有被测模型都曾伪造数据或参数来“完成任务”,未主动报告错误。
其中,Claude 4.6 Sonnet 表现最好,仅出现一次致命失误;ChatGPT-5.2 和 DeepSeek V3.2 各有两到三次失误;Kimi 2.5 Pro 情况最差,共失误 12 次,会捏造数据和虚假文献。研究团队指出,“完成度偏见”是问题根源,建议用户避免下达“必须完成任务”的高压指令,以降低 AI 隐瞒伪造的比例。
Now 新聞| Arxiv
🌸 在花频道 · 备用频道 · 投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
美监管机构暂缓部分银行网络安全检查,以评估Mythos相关风险
5月20日 消息,美国监管机构暂缓对大型银行部分与网络安全相关的检查,以便这些机构有更多时间应对由Anthropic的 Mythos AI 模型所暴露出的风险。在监管机构和银行测试新技术期间,美联储和货币监理署希望给予银行时间加强系统,应对由最新AI模型暴露出的网络威胁。Anthropic上月表示,将限制对Mythos的访问权限,警告称该模型可能被用于发动网络攻击。为此,该公司推出了名为 “Project Glasswing” 的计划,仅允许包括苹果公司和摩根大通在内的少数企业优先使用该技术,以测试自身网络防御能力。
—— 界面新闻、彭博社
via 风向旗参考快讯 - Telegram Channel
5月20日 消息,美国监管机构暂缓对大型银行部分与网络安全相关的检查,以便这些机构有更多时间应对由Anthropic的 Mythos AI 模型所暴露出的风险。在监管机构和银行测试新技术期间,美联储和货币监理署希望给予银行时间加强系统,应对由最新AI模型暴露出的网络威胁。Anthropic上月表示,将限制对Mythos的访问权限,警告称该模型可能被用于发动网络攻击。为此,该公司推出了名为 “Project Glasswing” 的计划,仅允许包括苹果公司和摩根大通在内的少数企业优先使用该技术,以测试自身网络防御能力。
—— 界面新闻、彭博社
via 风向旗参考快讯 - Telegram Channel