ChatGPT / AI新闻聚合

https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN

4 小时前

Claude Code 的 skills 源码解析

via 掘金人工智能本月最热 (author: 古茗前端团队)

5 小时前

一口气讲清楚 Agent、RAG、Skill、MCP 到底是什么？

via 掘金人工智能本月最热 (author: 镜花水月linyi)

5 小时前

Introducing the Child Safety Blueprint

via OpenAI News

Telegraph

Introducing the Child Safety Blueprint

儿童性剥削是数字时代最紧迫的挑战之一。随着 AI 的快速发展，这类危害在产业内出现的方式以及可规模化应对手段都在发生深刻变化。在 OpenAI ，我们已建立并持续强化多重防护措施以防止系统被滥用，并与包括 NCMEC 和执法部门在内的合作伙伴紧密配合，改进检测与举报流程。这份蓝图汇集了我们从中吸取的经验，也指出了业界亟需达成更高共识的领域。今天我们发布了一份政策蓝图，勾勒出在 AI 时代加强美国儿童保护框架的可行路径。该蓝图整合并反映了多家儿童安全领域领先机构与专家的意见，包括 NCMEC 、 Attorney…

5 小时前

DeepSeek悄悄上线“快速模式”和“专家模式”

4月8日凌晨，DeepSeek悄悄上线了一种新的分层模式界面：在网页版 /应用中出现了“快速模式”和“专家模式”两个入口，同时还有一个带图标的“视觉模式”(Vision)选项正在灰度测试。新的功能分工十分明确：快速模式面向日常对话和低延迟响应；专家模式针对复杂推理和深度任务，可能触发更长推理时间但响应慢；而视觉模式则开启了图像输入等多模态能力，不过被灰度到视觉模式的人非常之少。当前的分级制度或许值得关注，作为一种 “按需调用算力” 的调度机制，就是将简单任务交由低成本路径处理，仅在必要时启用高算力推理，从而减少无效Token消耗，实现整体成本的结构性下降。

—— 凤凰网科技

via 风向旗参考快讯 - Telegram Channel

7 小时前

曝Steam正在开发"SteamGP" 介入反作弊与客服系统

据最新Steam客户端更新中发现的代码片段显示，Valve正在开发一款名为SteamGPT的AI驱动系统。该系统将用于处理玩家举报、游戏启动问题、退款咨询等常见请求，并可能与玩家信任分系统及《反恐精英2》的反作弊机制深度绑定。

数据挖掘者Gabe Follower在Steam客户端更新代码中发现了SteamGPT的相关引用。虽然Valve尚未官方回应，但代码内容揭示了该工具的初步规划。

SteamGPT将被训练用于处理作弊举报、游戏启动问题、退款咨询等玩家常见请求。

该系统能够接收工单、核对比赛与账户数据，并输出现成的解决方案。此举有望大幅加快Steam长期以来被玩家诟病的客服响应速度——目前，CS2中的作弊举报处理可能需要数周，客服回复也常以天为单位。理论上，SteamGPT可将这一时间缩短至小时甚至分钟级别。

更引人关注的是，代码中显示SteamGPT与玩家信任分系统存在关联。AI将分析账户的注册时长、账户“类别”，以及更重要的是——不同账户之间的关联性。

这意味着，SteamGPT可能会根据玩家与哪些账户有过组队等社交行为，来综合评估其可信度。这一机制引发了关于误判风险的担忧：如果某玩家仅仅因为与作弊者组队过几局，就被AI判定为“关联账户”，该如何申诉?

代码片段中还提到了“PlayerEvaluation”(玩家评估)以及一个名为CSBot的组件，暗示SteamGPT可能与《反恐精英2》的反作弊系统整合。目前，VACnet通过分析比赛演示录像来识别作弊者，但处理效率有限。SteamGPT的加入有望显著提升这一系统的响应速度与准确性。

目前，SteamGPT仍停留在代码片段阶段。Valve既可能在下一个更新中直接推出，也可能将该项目搁置数年。

via cnBeta.COM - 中文业界资讯站 (author: 稿源：3DMGame)

7 小时前

DeepSeek连夜改页面免费的AI用不长了

via cnBeta.COM - 中文业界资讯站 (author: 稿源：凤凰网科技)

Telegraph

DeepSeek连夜改页面免费的AI用不长了

4月8日凌晨，DeepSeek悄悄上线了一种新的分层模式界面：在网页版/App中出现了“快速模式（Fast）”和“专家模式（Expert）”两个入口，同时还有一个带图标的“视觉模式（Vision）”选项正在灰度测试。图｜Deepseek网页版截图新的功能分工十分明确：快速模式面向日常对话和低延迟响应；专家模式针对复杂推理和深度任务，可能触发更长推理时间但响应慢；而视觉模式则开启了图像输入等多模态能力，不过凤凰网科技检索发现，被灰度到视觉模式的人非常之少。外界普遍认为，这是为即将发布的新一代V4模型…

7 小时前

微盟发布零售行业首个AI Skill并接入OpenClaw生态

4月8日，微盟正式发布首个面向零售行业的专属AI Skill——“Weimob Admin Skills”，并宣布接入OpenClaw（“龙虾”）生态。作为中国SaaS行业首个垂直领域专属AI Skill，该产品支持在微盟官网及各大厂商的“本地版龙虾”中运行，标志着零售SaaS经营正式进入从“对话式AI”向“执行式AI”跨越的新阶段。

Weimob Admin Skills的核心价值在于将复杂的零售行业Know-How转化为标准化、可复用的能力组件。商家通过自然语言交互，即可调取微盟底层API，实现商品库存分析、销售额溯源、会员管理及导购业绩评估等核心经营任务的自动化执行。

相较于传统SaaS后台繁琐的菜单操作，该Skill通过“基于Skill调度的Agent”架构，将原本多步的人工配置简化为即时指令，实现了“AI分析经营，人做关键决策”的人机协同新范式。

微盟此次战略布局旨在抢占AI Agent时代的新分发入口。通过将深厚的行业经验封装为轻量化Skill，微盟不仅降低了商家拥抱AI智能体的门槛，也拓展了自身“AI+SaaS”能力的触达边界。

via AI新闻资讯 (author: AI Base)

7 小时前

全球首个！中国发布“磐石·禹衡”碳核算大模型：精准刻画全球“碳足迹”

据报道，由中国科学院上海高等研究院牵头打造的全球首个全景式碳排放核算系统 —— “磐石·禹衡碳核算大模型” 在上海正式发布。这标志着中国在碳排放核算领域实现了从“跟跑”到“重构范式”的重大技术突破。

核心突破：数据、算法、算力三位一体

“磐石·禹衡” 大模型旨在破解传统碳核算知识壁垒高、数据更新慢、分辨率低等瓶颈，构建了坚实的底层支撑体系：

数据层： 以 8 类自主数据集为核心，汇聚了 208 TB 的多格式碳数据，实现了数据的高频更新与深度融合。

算法层： 基于自主研发的多口径核算方法学，通过 320 亿参数 的垂直大模型，驱动 5 个专项智能体协作，确保核算的完整性。

算力层： 依托高性能服务器集群与外部算力中心协同，提供弹性的算力供给。

功能亮点：5 大智能体“各司其职”

该模型不仅是对话工具，更是具备实操能力的“数智专家”，其 5 个智能体分别针对不同复杂场景：

工业模拟： 实现体系流程的数字化模拟与优化。

贸易核算： 精准计算跨国贸易中的碳转移。

生命周期评价（LCA）： 自动完成产品从目标确定到清单分析、结果解析的全流程核算。

自然源核算： 针对森林、海洋等自然碳汇进行精准摸底。

不确定性分析： 为核算结果提供科学的置信度评估。

价值重估：还原真实的“中国减排贡献”

“磐石·禹衡” 大模型的初步运行结果，正显著提升中国在全球气候治理中的科技话语权：

核算纠偏： 以 2022 年数据为例，在新核算体系下，中国温室气体排放量相较传统生产端核算结果下调了 17.7%，而美、日则分别上调了 15.2% 和 7.2%。

外贸博弈： 发现欧盟 CBAM 默认排放因子系统性高估了中国产品，为中国企业应对国际碳关税提供了科学依据。

绿色贡献： 精准核算出 2024 年中国出口的风电与光伏产品，在运行阶段为全球贡献了约 3.5 亿吨 的碳减排收益。

命名寓意：科学、智慧与公正

“磐石”： 取自坚如磐石的科学研究基础。

“禹”： 溯源大禹治水的东方智慧，象征治理全球碳流动。

“衡”： 代表公平、公正的核算原则。

结语：碳核算的“中国答案”

碳核算是国际碳定价的基础。“磐石·禹衡” 的发布，不仅为中国实现“双碳”目标提供了技术支撑，更在推动全球建立更加公平、科学的碳排放责任分配新秩序中贡献了中国智慧。

via AI新闻资讯 (author: AI Base)

8 小时前

阿里 AI 架构大调整！李飞飞出任阿里云 CTO，通义实验室晋升“大模型事业部”

据报道，4 月 8 日下午，阿里巴巴集团 CEO 吴泳铭发布内部信，宣布了一系列重磅组织架构调整。此次调整核心围绕“加速 AI 建设”，通过设立集团技术委员会和升级业务部门，正式开启 AI 全面加速期。

核心变动：全球顶尖科学家李飞飞加盟

本次调整中最受瞩目的莫过于李飞飞的全新头衔：

阿里云 CTO： 李飞飞将正式出任阿里云 CTO，全面负责阿里云技术以及 AI 云基础设施的建设。

集团技术委员会： 她还将与周靖人、吴泽明一同成为新设立的“集团技术委员会”成员，该委员会由吴泳铭亲自挂帅。

部门升级：通义实验室“自立门户”

为了进一步聚合优势力量，阿里对 AI 研发体系进行了级别提升：

通义大模型事业部： 原通义实验室正式升级为 通义大模型事业部，由周靖人负责。

职能明确： 周靖人出任技术委员会首席 AI 架构师；吴泽明则专注集团 CTO 工作，负责 AI 推理平台建设。

战略背景：从 ATH 事业群到 Qwen 3.6 Plus

2026 年被视为阿里 AI 加速发展的关键年，近期动作频频：

Token 为王： 此前阿里已成立以“创造、输送、应用 Token”为核心目标的 ATH 事业群（Alibaba Token Hub）。

战绩彪炳： 最新的Qwen 3.6 Plus模型近期问鼎 OpenRouter 全球大模型周调用量冠军，证明了其强大的市场渗透力。

管理层联动：人才梯队的重新对齐

配合 AI 战略，阿里内部相关业务负责人也进行了微调：

吴泽明 专注集团层面技术工作。

雷雁群 接任淘宝闪购 CEO 职务。

结语：投入最关键战场

此次调整意味着阿里巴巴已完成从底层基础设施到上层大模型应用的“全链路官宣”。当全球顶尖人才与核心事业部完成合体，阿里正试图在 AI 时代的下半场，通过更扁平、更专业的组织结构，抢夺 AGI 时代的定义权。

via AI新闻资讯 (author: AI Base)

8 小时前

M4 32GB 能跑的最强本地模型排行榜（2026版）

via 掘金人工智能本月最热 (author: 掘金安东尼)

8 小时前

英国国家数据图书馆计划面临挑战，数据可用性亟待改善

英国政府正致力于通过国家数据图书馆（NDL）推动人工智能的发展。然而，近日发布的研究表明，如果不能改善公共数据集的可用性，这一计划可能会面临严峻挑战。开放数据研究所（ODI）的一项研究指出，目前可用的数据在实际分析中存在误导性标题和缺乏元数据等问题，导致其难以有效使用。

在 2024 年秋季预算案中，政府确认了 NDL 的计划，并承诺将为研究人员和企业提供重要的数据洞察，促进经济增长和改善生活质量。政府还宣布，该项目将获得 1 亿英镑的投资，这笔资金是政府计划在 2028/29 财年之前向科学、创新和技术部（DSIT）提供的 19 亿英镑预算的一部分。

ODI 最近推出了一个名为 “NDL-Lite” 的原型系统，能够访问超过 10 万个公共数据集。研究发现，部分数据集存在标签不一致、数据过时以及人工智能工具无法有效获取等问题。ODI 警告称，缺乏权威数据时，人工智能系统会转向其他来源，比如新闻报道或商业数据，而这些信息的准确性并不总是有保障。

尽管 ODI 的研究表明构建 NDL 的成本相对较低，但也强调了将数据调整至适合人工智能处理的必要工作量。研究发现，即使是 “犯罪” 等广泛的术语，也难以进行有效分析。一些数据集由于缺乏共享标准，无法整合，导致分析困难。

开放数据研究所的教授 Elena Simperl 表示，公共数据的数量与其实际可用性之间存在日益扩大的差距。她指出，如果政府不能及时更新数据和改善元数据质量，人工智能系统可能会寻求其他更易获取的信息来源。

政府发言人表示，政府希望 “最大化公共部门数据的收益”，以提高服务效率并促进经济增长。为此，政府正在通过数字公共基础设施的现代化计划来改善数据共享和使用的便利性。

国家数据图书馆是帮助研究人员和数据科学家获取公共数据的最新项目，然而，ODI 的研究提醒人们，这一计划必须避免成为错失良机。

划重点：

🔍 NDL 计划旨在通过提供公共数据推动 AI 发展，但面临数据可用性挑战。

💡 ODI 研究显示，现有公共数据集存在标签不规范和数据过时等问题。

📉 如果不改善数据质量，AI 系统可能转向其他不可靠的信息来源。

via AI新闻资讯 (author: AI Base)

8 小时前

马斯克对 OpenAI 提起诉讼，要求罢免 CEO 奥尔特曼职务

近日，埃隆・马斯克通过法律途径，向 OpenAI 的首席执行官萨姆・奥尔特曼及总裁格雷格・布罗克曼发起诉讼，试图罢免他们的高管职务。马斯克在提交的法律文件中指控 OpenAI 存在欺诈行为，要求法院将该公司恢复为真正的非营利组织。此案预计将于 4 月 27 日在加利福尼亚州的联邦法院开庭审理。

马斯克表示，OpenAI 是他在 2015 年与奥尔特曼等人共同创立的，最初承诺以非营利形式运营。但他声称，公司后来 “蓄意操纵” 这一承诺，导致他在未获知真实情况的情况下捐赠了 3800 万美元（约合 2.62 亿元人民币）。他希望法官能够裁定奥尔特曼和布罗克曼对其进行 “欺骗”，并罢免他们在 OpenAI 的职务。

在法律文件中，马斯克的律师指出，要求解除高管职务是维护慈善机构公共使命的一种常见救济措施。此外，马斯克还请求法院判令 OpenAI 重新回归非营利机构的运营模式，强调这一点对于保护公司初衷的重要性。

自马斯克 2018 年离开 OpenAI 后，他与该公司的关系逐渐恶化。2023 年，他成立了自己的人工智能公司 xAI，并与 SpaceX 进行收购交易，试图在人工智能领域与 OpenAI 展开竞争。而 OpenAI 则指控马斯克通过不当手段破坏其业务，包括与 Meta 首席执行官扎克伯格的合作。

此外，马斯克的律师团队在一份早期的文件中提出，要求 OpenAI 及其投资方微软赔偿高达 1340 亿美元（约合 9231.12 亿元人民币）的损失，称这是两家公司凭借马斯克早期对 OpenAI 的支持所获得的 “非法收益”。对此，OpenAI 在近期向加利福尼亚州和特拉华州的检察长发函，呼吁对马斯克及其相关方的不当行为展开调查。

划重点：

🌟 马斯克起诉 OpenAI，要求罢免 CEO 奥尔特曼及总裁布罗克曼职务。

💰 指控 OpenAI 存在欺诈行为，并希望法院判令其恢复为非营利机构。

⚖️ 此案定于 4 月 27 日在加利福尼亚州的联邦法院开庭审理。

via AI新闻资讯 (author: AI Base)

10 小时前

Gemini 更新助力危机用户更快获取心理健康支持

近日，谷歌对其聊天机器人 Gemini 进行了重要更新，旨在帮助处于危机中的用户更迅速地找到心理健康资源。这项更新恰逢谷歌面临一起非正常死亡的诉讼，指控其聊天机器人 “教唆” 一名男子自杀。这一事件引发了社会对人工智能产品安全性和责任的广泛讨论。

在更新后，Gemini 将自动识别与自杀或自残相关的危机对话，并启动 “可获得帮助” 模块，迅速引导用户获取心理健康危机资源，如自杀热线或危机短信服务。谷歌表示，此次更新将整个流程简化为 “一键式” 界面，让用户能更加方便地寻求帮助。

此外，新的帮助模块还包含更具同理心的回复，旨在鼓励人们主动寻求专业帮助。一旦激活，相关选项将始终在对话中显现，让用户在需要时能够随时获得支持。谷歌在重新设计过程中咨询了临床专家，力求为危机中的用户提供更好的服务体验。

为了进一步支持全球心理健康资源，谷歌还宣布将在未来三年内向全球热线提供 3000 万美元的资金。这一举措反映出谷歌对于社会责任的重视，同时也表明了他们对提升聊天机器人对弱势用户保护能力的承诺。

尽管谷歌的 Gemini 在应对危机方面表现优于许多竞争对手，但业内仍存在对人工智能产品是否能够有效保护用户的质疑。其他人工智能公司，如 OpenAI 和 Anthropic，也在努力提升对弱势用户的检测和支持能力。此次更新标志着谷歌在改善心理健康支持方面迈出了重要一步。

划重点：

🌟 谷歌更新 Gemini，帮助用户更快获取心理健康资源。

💡 新增 “一键式” 界面，简化寻求帮助的流程。

💰 未来三年将提供 3000 万美元资金支持全球心理健康热线。

via AI新闻资讯 (author: AI Base)

10 小时前

程序员用AI三天生成违章举报网页版，App预计两个月内上线

据媒体报道，成都程序员蒲海洋近日发布了一款融合AI视觉识别技术的车辆违章自动举报程序，旨在通过技术手段提升交通监督效率。该项目于2025年启动构思，蒲海洋在今年春节期间仅用一周时间便完成了演示版本开发，并借助AI工具在三天内生成了网页版。目前，该程序的安卓与iOS客户端开发进度已达80%，预计将在两三个月内正式登陆应用商店。

该程序核心技术优势在于将传统的长周期手动举报流程压缩至十几秒。系统集成高精度AI模型，支持自动识别车道线、信号灯，并能精准区分机动车与非机动车道，从而实现对违章行为的自动分类与判定。

值得关注的是，蒲海洋在App中引入了“自动变焦与目标跟随”功能，确保在复杂天气或光影环境下，镜头仍能锁定违章车辆并保持高精度的识别表现，目前综合识别准确率已突破90%。

在数据安全与合规层面，该程序采用本地存储方案，用户拍摄的原始视频不经过开发者服务器，而是直接对接交管部门官方接口。同时，系统保留了人工二次确认环节，以AI初筛配合人工终审，规避算法误判风险。

尽管该项目在社交平台引发了关于“全民监督”边界的讨论，但从行业视角看，这标志着端侧AI视觉技术在垂直民生领域的深度渗透。若未来能成功对接官方数据系统，此类应用将有效弥补公共监管盲区，驱动城市交通治理向数智化、全民化协同转型。

via AI新闻资讯 (author: AI Base)

10 小时前

美团李树斌：餐饮商家拥抱 AI 的第一步是“信息线上化”

据报道，在2026中国餐饮连锁峰会上，美团高级副总裁李树斌发表了题为“让 AI 读懂你的店”的主旨演讲。他指出，餐饮商家进入 AI 时代的首要任务，并非追求高大上的技术改造，而是夯实最基础的“本地生活信息基建”。

核心观点:AI 不知道物理世界长什么样

李树斌深入分析了 AI 时代消费者行为模式的转变:

需求复杂化: 消费者正从简单的“关键词搜索”转向“复杂多意图表达”（例如:推荐一家适合带宠物、能看夕阳且人均200元以内的法餐）。

推荐逻辑重构: AI 模型本质上不直接接触物理世界。如果门店的经营信息（如:菜品特色、实时库存、环境标签等）没有实现真实、准确、全面的线上化，AI 就无法在海量数据中精准匹配并推荐给顾客。

战略投入:大众点评追加30亿升级“基建”

为了给 AI 大模型提供一个坚实的“真实信息底座”，美团及旗下平台正加大投入:

深耕底座: 大众点评在过去已投入数百亿资金用于物理世界信息线上化。

追加预算:2025年官方宣布，未来5年将至少追加 30亿元 资金，专门用于升级“本地生活信息基建”。

产品创新: 平台将不断创新工具，协助商家将真实的门店细节转化为 AI 可识别的数据资产。

未来愿景:每个商家都将拥有“AI 助理”

美团致力于降低商家使用新技术的门槛:

线上阵地: 北京三快科技有限公司（美团关联公司）将为长期经营的商家提供更优质的线上经营阵地。

全员 AI 化: 平台计划帮助每一个入驻商家都能用上专属的“AI 助理”，协助其处理复杂的顾客需求与店内运营。

结语:从“数字化”到“智能化”的最后一公里

正如李树斌所言，餐饮业拥抱 AI 的门槛不在于算法，而在于数据。当真实的物理空间被精准地映射到数字世界，AI 才能真正成为连接餐厅与食客的超级纽带。

via AI新闻资讯 (author: AI Base)

10 小时前

淘宝商家的“读心术”来了！网萌科技魔方 AI 质检 VOC 入驻服务市场

据报道，深耕客服 BPO 领域16年的 上海网萌网络科技有限公司 宣布，其自研的数智化工具 “魔方 AI 质检 VOC” 正式上线，并成功入驻淘宝服务市场。这款集 AI 自动化质检与用户洞察于一体的利器，旨在为淘宝商家提供一站式的服务风控方案。

核心双引擎:既是“质检员”也是“分析师”

魔方 AI 质检 VOC 并非简单的客服监控工具，它通过两大核心能力重塑了电商服务链路:

AI 全链路质检: 告别低效的人工抽检，实现客服对话100% 全量自动化审核，精准识别服务违规与风控隐患。

VOC 客户之声分析: 利用深度学习技术，从真实的用户反馈中提取关键需求与痛点，将零散的聊天记录转化为可落地的生意增长洞察。

行业背景:从“合规”向“增量”跃迁

随着电商竞争加剧，客服不再仅仅是解决问题的“灭火器”，而是品牌洞察用户的第一触点。

效率革命: 依托 网萌科技 多年的客服运营经验，该工具能帮助商家快速建立规范化服务体系。

赋能增长: 通过对 VOC 数据的深度解析，商家可以更早发现产品缺陷或爆款潜质，从而在经营决策中抢占先机。

结语:数智化运营的“必选项”

当 AI 能够精准识别客户的情绪与需求，服务的边界也随之扩展。魔方 AI 质检 VOC 的上线，标志着淘宝商家在实现服务规范化升级的同时，正加速步入精细化运营的增长新轨道。

via AI新闻资讯 (author: AI Base)

11 小时前

微软 GitHub 推出跨模型 AI 审查功能 Rubber Duck 助力提升编程效率

微软 GitHub 于 4 月 6 日发布了一个激动人心的消息，为其 Copilot CLI 推出了一项名为 Rubber Duck 的实验性功能。这项新功能引入了一种跨模型的 “第二意见” 审查机制，旨在帮助开发者提升代码的准确性和效率，最终使 AI 的性能提升近 75%。

在软件开发过程中，早期的决策错误往往会积累成更大的问题，而传统的自我审查方法容易受到模型本身训练偏差的影响。Rubber Duck 的推出，正是为了引入不同的模型作为独立审查者，从而提供多元化的视角，及时发现潜在的错误。这项功能支持用户选择 Claude 系列模型作为主控，接着使用 GPT-5.4 进行代码审查，确保代码的准确性和完整性。

通过 SWE-Bench Pro 基准测试，研究显示 Claude Sonnet 4.6 和 Opus 4.6 的单独运行存在显著性能差距，而 Sonnet 4.6 结合 Rubber Duck 后，成功弥补了 74.7% 的性能差距。在处理复杂任务时，该功能的表现更为突出，得分比基线高出 3.8%。具体案例表明，它能有效识别架构逻辑漏洞、循环覆盖错误以及跨文件的冲突问题。

Rubber Duck 的使用方式灵活多样，支持主动、被动和用户触发的三种审查模式。系统会在制定计划、复杂实现和测试编写后的关键节点自动寻求审查，也可以在开发者陷入问题时被动触发。同时，用户还可以随时主动请求审查，系统会展示反馈内容和修改依据。

目前，Rubber Duck 功能已在实验模式下上线，用户只需安装 GitHub Copilot CLI 并运行 /experimental 命令，即可启用这一新功能，享受 Claude 模型与 GPT-5.4 的协同工作体验。

划重点：

🌟 1. 微软 GitHub 推出 Rubber Duck 功能，引入跨模型的 AI 审查机制，提升编程效率。

🔍 2. 该功能通过结合 Claude Sonnet 4.6 和 GPT-5.4，成功弥补 74.7% 的性能差距。

⚙️ 3. Rubber Duck 支持多种审查模式，用户可主动请求审查，确保代码质量。

via AI新闻资讯 (author: AI Base)

11 小时前

测试显示 AI Overviews 每 10 个答案就有一个是错误的

2026-04-08 14:18 by 奇迹男孩与冰霜巨人

纽约时报的测试显示，Google 搜索的 AI 概括功能 AI Overviews 每 10 个答案有一个是错误的，这听起来还不错，但考虑到 Google 服务每天的搜索量，这意味着每分钟就有成千上万的错误信息传播出去。纽约时报和 Oumi 合作利用 AI 工具通过 SimpleQA 评估 AI Overviews 答案的准确性。Oumi 从去年开始执行测试，当时 Google 最好的模型还是 Gemini 2.5，当时 AI Overviews 的准确性是 85%。当模型升级到 Gemini 3 后，AI Overviews 的准确性提高到 91%。AI Overviews 给出答案时会列出引用来源，当它出错时，其答案经常会与引用来源的信息互相矛盾。

https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html

#Google

via Solidot - Telegram Channel

Before

After