https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
研究团队测试七大 AI 模型学术诚信,逾三成出现造假行为

北京大学、同济大学和德国图宾根大学的研究团队近日测试了七款顶尖 AI 大模型的学术诚信。结果显示,在 231 次高压测试中,模型整体问题率达到 34%。面对空白或缺失数据,所有被测模型都曾伪造数据或参数来“完成任务”,未主动报告错误。

其中,Claude 4.6 Sonnet 表现最好,仅出现一次致命失误;ChatGPT-5.2 和 DeepSeek V3.2 各有两到三次失误;Kimi 2.5 Pro 情况最差,共失误 12 次,会捏造数据和虚假文献。研究团队指出,“完成度偏见”是问题根源,建议用户避免下达“必须完成任务”的高压指令,以降低 AI 隐瞒伪造的比例。

Now 新聞Arxiv

🌸 在花频道 · 备用频道 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
美监管机构暂缓部分银行网络安全检查,以评估Mythos相关风险

5月20日 消息,美国监管机构暂缓对大型银行部分与网络安全相关的检查,以便这些机构有更多时间应对由Anthropic的 Mythos AI 模型所暴露出的风险。在监管机构和银行测试新技术期间,美联储和货币监理署希望给予银行时间加强系统,应对由最新AI模型暴露出的网络威胁。Anthropic上月表示,将限制对Mythos的访问权限,警告称该模型可能被用于发动网络攻击。为此,该公司推出了名为 “Project Glasswing” 的计划,仅允许包括苹果公司和摩根大通在内的少数企业优先使用该技术,以测试自身网络防御能力。

—— 界面新闻彭博社

via 风向旗参考快讯 - Telegram Channel
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]