https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月

DeepSeek V4 是迄今为止在 CAISI 评估的各个领域(网络安全、软件工程、自然科学、抽象推理和数学)中性能最强的 PRC 模型。CAISI 在上述五个领域中的九个基准测试中对模型进行了评估,其中包括两个未受污染的独立基准测试:ARC-AGI-2 的半私有数据集和 CAISI 内部开发的软件工程评估平台 PortBench。DeepSeek V4 的性能比美国领先模型落后约 8 个月

DeepSeek V4 是迄今为止经 CAISI 评估的最强大的中国人工智能模型。CAISI的评估涵盖网络安全、软件工程、自然科学、抽象推理和数学等领域。
DeepSeek V4 在 DeepSeek 自行发布的评估中得分高于 CAISI 的评估结果。根据 DeepSeek 的数据,DeepSeek V4 的性能与大约两个月前发布的 Opus 4.6 和 GPT-5.4 相当。然而,CAISI 的评估(包括非公开基准测试)表明,DeepSeek V4 的性能与大约八个月前发布的 GPT-5 类似。
与其他功能相近的型号相比,DeepSeek V4 更具成本效益。与最具性价比的美国参考型号(GPT-5.4 mini)相比,DeepSeek V4 在 7 项基准测试中的 5 项上都更具成本效益。在这 7 项基准测试中,DeepSeek V4 的价格优势在 53% 到 41% 之间。


—— 美国国家标准及技术研究所

via 风向旗参考快讯 - Telegram Channel
谷歌母公司Alphabet市值已达4.6万亿美元 即将超越英伟达

受超预期财报提振,谷歌母公司Alphabet股价周四(4月30日)大涨10%,年内累计涨幅达到140%,市值突破4.6万亿美元。该公司周三公布的营收超出分析师预期,其中谷歌云业务收入更是突破200亿美元大关。

目前,全球市值第一的公司仍是人工智能芯片霸主英伟达,市值接近4.9万亿美元。不过,由于商业伙伴OpenAI被曝未能达成内部收入与增长预期,英伟达股价在两天内累计下跌超过6%。

若英伟达在5月20日发布的财报中未能实现反弹,期權市场预测,Alphabet最早可能在5月15日登顶全球市值第一。要实现这一目标,Alphabet的市值需要追上英伟达当前水平,股价需再上涨约4%,达到约401美元。

期权交易员认为,从现在到5月15日之间,Alphabet股价触及401美元的概率约为53%。

另据ThinkOrSwim数据显示,Alphabet股价在5月22日(即英伟达财报发布后的星期五)收于400美元以上的概率约为30%。

值得一提的是,Alphabet上一次成为全球市值最高的公司是在2016年,当时它曾短暂超越苹果,登上榜首。

via cnBeta.COM - 中文业界资讯站 (author: 稿源:快科技)
一图看懂DeepSeek V4与美国顶级AI差距:落后8个月

快科技5月3日消息,4月24日DeepSeek V4系列大模型正式发布,距离去年的DeepSeek R1更新过去了15个月了,V4的性能到底如何也引发了国内外的讨论,美国人也非常关心。

评估DeepSeek V4的能力已经有很多测试了,美国外交关系委员会组织了3个高级研究员之前的研究报告显示其落后美国顶级大模型大约7个月。

现在美国国家标准与技术研究院(NIST)下属人工智能标准与创新中心(CAISI)也来评估DeepSeek V4,他们的结论是DeepSeek V4落后美国大约8个月,跟前面的差距差不多。

在他们的AI能力评估结果中,DeepSeek V4得分在800分,而当前最强的是GPT-5.5,分数超过1200分,GPT-5.4及Opus 4.6也在1000分以上。

DeepSeek V4整体性能跟8个月前的GPT-5差不多,但DeepSeek官方之前在发布报告中认为跟GPT-5.4差不多。

不过CAISI也承认DeepSeek V4是他们评测过的中国最强AI大模型,在网络、软件工程、自然科学、抽象推理和数学这五个领域中九项测试都很强。

更重要的是,DeepSeek V4的性价比更强,即便与美国最有成本优势的GPT-5.4 mini大模型相比,DeepSeek V4在7个基准测试中有4个测试成本更优,高出41%到53%不等。

via cnBeta.COM - 中文业界资讯站 (author: 稿源:快科技)
边打官司边示好 奥特曼“邀请”马斯克参加GPT-5.5派对:世界需要更多爱

5月3日,据《商业内幕》报道,在经历了本周在法庭上的激烈交锋后,OpenAI CEO萨姆·奥特曼(Sam Altman)周六向其竞争对手埃隆·马斯克(Elon Musk)摆出了一个出人意料的姿态,即便这还称不上是全心全意的示好。

奥特曼与马斯克

OpenAI计划在5月5日为其最新模型GPT-5.5的发布举办一场小型庆祝活动。奥特曼分享了一份在线表格,供有意参加者回复确认,并表示OpenAI的编程智能体Codex将协助公司从回复中挑选参与者。报名很快截止,奥特曼随后表示,未来他会策划更大规模的派对。

马斯克不太可能亲自报名去争取这些限量邀请名额。不过,当有X网友发贴称,马斯克会不会不请自来时,奥特曼回复称,这位曾经的OpenAI联合创始人“想来的话也可以来”。

“这个世界需要更多的爱。”奥特曼补充道。

奥特曼称马斯克可以来

目前,马斯克和奥特曼正在对簿公堂。本周,马斯克起诉奥特曼背离OpenAI创始使命的诉讼开庭。马斯克在作证时称,奥特曼曾保证维持OpenAI的非营利状态,但是又寻求将其转型为营利性公司,窃取了一家慈善机构。

就在奥特曼释放这一“善意”的几天前,主审双方法律纠纷的美国地方法官伊冯·冈萨雷斯·罗杰斯(Yvonne Gonzalez Rogers)曾警告奥特曼和马斯克,要“控制住自己在社交媒体上发帖的冲动,不要在法庭之外让事态进一步恶化”。

via cnBeta.COM - 中文业界资讯站 (author: 稿源:凤凰网科技)
VS Code 默认将 Copilot 作为共同作者,即使用户只使用行内补全功能。

在 VS Code 1.110 中,微软引入 git.addAICoAuthor 设置,最初默认值为 off;随后在 1.118 中将默认值改为 all,意味着任意可识别的 Copilot AI 生成代码,包括行内补全、Chat、Agent 编辑,都可能在 Git 提交中加入 Co-authored-by: Copilot。在受到社区争议后,微软又将默认值改为 chatAndAgent,即仅针对 Chat 和 Agent 工作流自动署名,不再覆盖普通行内补全。相关修正预计将在未来的 VS Code 1.119 中发布。

VS Code 更新日志 | Github

🌸 在花频道 · 茶馆讨论 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
↩️🖼 美国 CAISI 发布 DeepSeek V4 Pro 评估报告,称 DeepSeek V4 Pro 能力落后美国前沿约 8 个月


科技圈🎗在花频道📮:

🤖 DeepSeek-V4 的预览版本正式上线并同步开源,极其便宜大碗且适配 Agent 相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,追及「御三家」模型能力。 DeepSeek-V4-Flash 展现出了接近高级模型的的推理能力与 Agent 能力(适合日常龙虾等服务)。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。 DeepSeek…

美国 CAISI 发布 DeepSeek V4 Pro 评估报告,称 DeepSeek V4 Pro 能力落后美国前沿约 8 个月

美国国家标准与技术研究院(NIST)下属人工智能标准与创新中心(CAISI)评估显示,中国开源模型 DeepSeek V4 Pro 在综合能力上比美国最先进模型落后约 8 个月。在 CAISI 选取的基准中,其 Elo 得分 800,低于 GPT-5.5(999)和 Opus 4.6(800),与 GPT-5.4 mini(749)相近。尤其在 ARC-AGI-2、PortBench 和 CTF-Archive-Diamond 等代理与推理测试上表现较弱。但成本方面,与相近能力的 GPT-5.4 mini 相比,DeepSeek V4 Pro 在 7 个基准中的 5 个上成本更低。

NIST

🌸 在花频道 · 茶馆讨论 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
英国 NHS 以 AI 为由准备关闭所有开源库

2026-05-03 00:07 by 独眼巨人的笑声

日程安排平台 Cal.com 上月宣布从开源转为闭源,理由是 AI 工具更容易从开源代码中发现漏洞,而安全性依赖于模糊,因此闭源有助于提高安全。现在英国国家医疗服务体系(NHS)以相同的理由准备关闭它几乎所有的开源库,这一决定引发了广泛争议和批评。批评者指出 NHS 公布的大部分开源库是数据集、内部工具、指南、研究工具、前端设计等,它们不会因为安全扫描技术的进步而受到影响。此外是否开源对于 Anthropic Mythos 之类的 AI 工具并无区别,因为它们也能分析二进制程序并寻找漏洞。批评者发表了公开信,呼吁 NHS 保持其代码公开。

https://lwn.net/Articles/1070864/
https://keepthingsopen.com/

#开源

via Solidot - Telegram Channel
为什么 OpenAI 的系统提示词要专门限制 Goblins

2026-05-02 00:27 by 奇迹男孩与冰霜巨人

OpenAI Codex CLI 系统提示词专门加入了一条对地精(Goblins)等词的限制:“never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query”。官方解释称,从 GPT-5.1 开始该公司的模型在比喻中提及 goblin 等词的频率大增,ChatGPT 中 goblin 的使用量增加了 175%,gremlin 使用量增加了 52%。它为此展开了调查,发现是因为 Nerdy 个性无意中奖励了此类比喻,导致高频使用 goblin 的行为扩散。为解决该问题,OpenAI 淘汰了 Nerdy 个性,移除了对 goblin 友好的奖励信号,从训练数据过滤掉相关示例,防止其再次不恰当的出现。

https://github.com/openai/codex/commit/c10f95ddac7b35095d334dece2ebcf69bcde61fc
https://openai.com/index/where-the-goblins-came-from/

#人工智能

via Solidot - Telegram Channel
OpenClaw 支持用 ChatGPT 账户登录并使用订阅

Sam Altman 在 X 上发帖称,OpenClaw 已支持用户使用 ChatGPT 账户登录,并可使用原有的 ChatGPT 订阅。

Sam Altman(@sama)

🌸 在花频道 · 茶馆讨论 · 投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
腾讯开源 Hy-MT 翻译模型:440MB 实现离线运行,性能超越谷歌翻译

腾讯近日正式开源紧凑型 AI 翻译模型 Hy-MT1.5-1.8B-1.25bit。该公司声称,该模型在保持高性能的同时,可在智能手机上实现完全离线运行。目前,该模型支持包括中、英、德、法、日、藏、蒙在内的33种语言及5种方言,涵盖1056个翻译方向,并在国际机器翻译大赛中累计斩获30项冠军。

技术突破的核心在于“激进压缩”方案:通过每参数仅使用1.25比特的量化技术,该模型体积从3.3GB 骤减至440MB,较此前的1.67比特方案缩小约25%,推理速度提升约10%,且未产生质量损失。在标准基准测试中,仅440MB 的 Hy-MT 表现出与商业翻译服务及 Qwen3-32B 等超大模型相当的翻译质量,实现了以极小量级抗衡百 GB 级模型的跨越。

目前,腾讯已提供 Android 演示应用(APK 形式),支持对手机内任何应用的文字进行跨屏离线翻译。行业观察指出,随着谷歌推出本地化模型 Gemma4,终端侧 AI(On-device AI)已成为技术竞争新前线。腾讯 Hy-MT 通过量化技术的突破,大幅降低了高品质 AI 翻译的算力门槛,为智能终端在复杂隐私环境下的离线应用提供了极具竞争力的开源底座。

via AI新闻资讯 (author: AI Base)
告别通用模型依赖,微软通过定制算法开启垂直领域 AI 助手新范式

微软近日宣布通过美国 Frontier 计划正式推出专为法律专业人士设计的 AI 工具——“法律助手”(Legal Assistant)。该助手深度集成于 Word 环境中,旨在通过自动化手段彻底简化合同处理流程,标志着微软在垂直行业 AI 应用领域的又一重要动作。

功能层面,“法律助手”支持对合同进行逐条审查,能够精准标记潜在风险与法律义务,并实现跨文档版本的快速比对。该助手直接在文档内提供带有“修订追踪”功能的修改建议,在保持原有排版格式不变的前提下,清晰区分早期版本与新提案。此外,用户可将现有合同与公司内部的合规标准进行一键比对。

技术路径上,微软采取了差异化的设计理念。该代理并非单纯依赖通用的黑盒大语言模型,而是遵循结构化的法律工作流程。通过与法律界专家深度咨询,微软开发了能够一致性处理编辑操作的定制化算法,确保每一次合同修订都具备逻辑一致性与专业严谨性,从而规避了生成式 AI 常见的随机性问题。

行业分析指出,微软此举展示了其将 AI 助手从“通用型”向“专业型”转变的战略企图。通过在特定领域引入定制算法而非全盘依赖 LLM,微软不仅提升了工具在严肃法律场景下的可信度,也为行业软件的 AI 演进提供了一种可借鉴的技术范本。

via AI新闻资讯 (author: AI Base)
四大科技巨头2026年 AI 资本开支上调至7250亿美元,同比激增77%

据《金融时报》最新报道,谷歌、亚马逊、微软及 Meta 计划在2026年共计投入7250亿美元用于人工智能领域,较去年创纪录的4100亿美元大幅增长77%,显著高于今年2月预估的6100亿美元。仅在2026年第一季度,这四家巨头的资本开支已累计达1300亿美元,显示出 AI 基础设施竞赛正处于极度升温状态。

具体财务数据显示,各大厂商投入均呈翻倍式增长:微软开支预计达1900亿美元,增幅高达192.3%,领跑行业;Alphabet(谷歌母公司)与 Meta 的投入亦分别突破1450亿与1900亿美元,增幅均超100%;亚马逊则计划投入逾2000亿美元。尽管谷歌云计算业务最新季度营收增长达63%,表现强劲,但受内存芯片及核心组件价格上涨影响,成本压力同步激增。谷歌与微软均公开表示,现有计算能力仍远未满足爆发式增长的市场需求。

针对巨额支出,微软首席执行官萨蒂亚·纳德拉明确暗示了定价逻辑的转变:软件收费模式正从传统的固定“按席位计费”转向“席位费+使用费”的混合模式。这意味着随着 AI 算力成本向终端传导,B 端客户将面临更高的账单成本。业内分析认为,这种收费模式的变革不仅是巨头收回 AI 投资成本的必然选择,也将重塑整个企业级软件市场的商业竞争规则。

via AI新闻资讯 (author: AI Base)
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]