ChatGPT / AI新闻聚合

https://api.oaibest.com - API中转2.8折起

https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8折起支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN

1 天前

菜鸟与蜜雪集团携手推智能供应链管理系统，提供 AI 预测销量具

菜鸟与蜜雪集团正式宣布达成合作，计划共同开发一套以销售预测为核心的智能供应链管理系统。这一系统将整合智能补货与原材料全链路供应功能，旨在推动蜜雪集团的供应链由传统经验主导向人工智能驱动转型。

蜜雪集团旗下拥有知名品牌蜜雪冰城和幸运咖，门店遍布全球 13 个国家和地区，已超过 53，000 家。此次合作，菜鸟将运用人工智能技术预测销量，并自动生成补货计划，使采购、仓储和运输等环节高效联动，从而提升原材料供应的效率。新的系统能够有效应对蜜雪集团的业务增长需求，减少原材料浪费和资金的无效占用。

菜鸟表示，将继续加大在数字化和自动化方面的研发投入，积极拓展海外市场，已经在美洲、亚太地区、中东和欧洲设立了物流科技本地团队。这些团队将确保多个全球项目的顺利合作与交付。目前，菜鸟的物流科技产品已经在 27 个国家和地区落地，全球合作项目已达到 800 多个。

此次合作不仅展现了菜鸟在智能供应链领域的技术实力，同时也为蜜雪集团未来的发展提供了强有力的支持，有助于提升整体运营效率和市场竞争力。

划重点：

🌟 菜鸟与蜜雪集团达成合作，共同开发智能供应链管理系统。

📈 新系统将通过 AI 技术预测销量，优化补货计划，提升供应链效率。

🌍 菜鸟积极拓展国际市场，目前已在 27 个国家和地区推出物流科技产品。

via AI新闻资讯 (author: AI Base)

1 天前

🤖 2025年开源AI模型回顾：DeepSeek R1与Qwen 3引领行业变革

AI研究机构Interconnects发布的2025年开源模型年度回顾报告指出，2025年是开源模型发展的里程碑年份。报告显示，开源模型在性能上已能与闭源模型在多数关键基准测试中匹敌。其中，于1月20日发布的DeepSeek R1（采用MIT许可证）和Qwen 3模型家族被评为年度最具影响力的模型。DeepSeek R1展现了小团队的创新力，并推动了中国实验室开放模型。Qwen 3则以其多领域覆盖和突出的多语言能力，下载量已超越Llama，成为最受欢迎的微调基础模型。

(科技圈)

via 茶馆 - Telegram Channel

1 天前

2025 年开源 AI 模型回顾：DeepSeek R1 和 Qwen 3 引领行业变革

AI 研究机构 Interconnects 发布 2025 年开源模型年度回顾报告，认为这是开源模型发展的里程碑年份。报告显示，开源模型在性能上已能与闭源模型在多数关键基准测试中匹敌，其中 DeepSeek R1 和 Qwen 3 被评为年度最具影响力的模型。

DeepSeek R1 于 1 月 20 日发布，采用 MIT 开源许可证，不仅展现了小团队的创新能力，还推动了众多中国实验室开放其模型。Qwen 3 模型家族覆盖了从通用模型到视觉、编程、嵌入等各个领域，在多语言能力方面表现突出，下载量已超越 Llama 成为最受欢迎的微调基础模型。

Interconnects

🍀在花频道 🍵茶馆 📮投稿新鲜事

via 科技圈🎗在花频道📮 - Telegram Channel

1 天前

下载量猛增！“蚂蚁阿福”冲上苹果应用总榜第三位

12月16日消息，蚂蚁集团旗下AI健康应用“蚂蚁阿福”昨日发布后下载量猛增，今日冲上苹果应用榜总榜第三位。据悉，“蚂蚁阿福”App月活用户规模已超1500万，每天回答用户500多万个健康提问。

昨天，蚂蚁集团宣布将旗下AI健康应用AQ品牌升级为“蚂蚁阿福”，并发布App新版本，升级健康陪伴、健康问答、健康服务三大功能。按照月活计算，“蚂蚁阿福”已经跻身国内AI App前五，成为第一大健康管理AI App。QuestMobile三季度的报告数据显示，“蚂蚁阿福”的月活复合增长率高达83%，远超行业13.5%的平均增速。

via AI新闻资讯 (author: AI Base)

2 天前

AI硬件神器！Stickerbox一键把孩子脑洞“打印”成贴纸，家长直呼太会玩了

AIbase报道 2025年，AI硬件再次迎来新奇爆款:一款专为儿童设计的创意神器——Stickerbox。它将孩子的口头想象力直接转化为实体贴纸，真正实现了“说出来的故事，打印成现实”。这款产品一经曝光，迅速成为家长圈和科技圈的热议焦点。

一句话搞定:语音→AI→贴纸

Stickerbox的操作极简却充满魔法:

- 孩子对着设备说话，描述自己脑海中的画面或故事;

- 内置AI大模型实时生成精美插图;

- 设备内置热敏打印机，3-5秒内即时打印出彩色贴纸。

整个过程无需任何屏幕交互，全部通过语音完成，完美适配3-10岁儿童。

专为儿童打造的安全设计

Stickerbox在硬件层面做了极致安全优化:

- 零屏幕:完全无屏幕交互，避免孩子长时间盯屏;

- 儿童安全模式:内置内容过滤，杜绝不适宜生成;

- 环保材料:使用热敏纸，无需墨水、无BPA、无BPS，健康环保;

- 可上色、可收藏:打印出的贴纸质感好，孩子可自由涂色、粘贴在笔记本、水杯、书包上，变成独一无二的“创作纪念品”。

“把想象力贴出来”的魔法体验

家长反馈最多的就是:孩子第一次用完就上瘾了!

- 有的孩子说“我想让小恐龙和独角兽一起开派对”，几秒钟就打印出一张梦幻贴纸;

- 有的孩子讲自己编的故事，AI生成的插图竟然完美还原了细节;

- 还有孩子把打印的贴纸贴满房间，瞬间变身“个人画展”。

Stickerbox不仅是一台打印机，更像孩子想象力的“外置大脑”，让抽象的创意瞬间具象化，极大地激发了儿童的创造欲。

市场潜力巨大

Stickerbox的出现，被认为是AI硬件从成人走向儿童领域的又一次成功突破。它将AI生成能力与实体输出完美结合，既有趣又有教育意义，填补了儿童创意工具的空白。

AIbase认为，随着AI硬件越来越“接地气”，Stickerbox这类产品有望成为下一个爆款“亲子科技玩具”。它不仅让孩子玩得开心，更让家长看到AI真正走进家庭、赋能下一代的方式。

via AI新闻资讯 (author: AI Base)

2 天前

AI 技术助力《复仇者联盟 5》预告片升级为 4K 高清画质

近日，漫威的新片《复仇者联盟 5：毁灭日》贴片预告在网络上意外曝光，影片中的美国队长由克里斯・埃文斯再次回归。预告片中，我们看到美队放下战袍，怀抱婴儿，似乎在暗示他已经转型为一位父亲，展现了角色的新面貌。

由于这支预告片是通过偷拍方式获取，画质相对模糊，很多网友对此表示不满。为了改善观影体验，有技术爱好者运用 AI 技术对该预告片进行了重置，成功实现了 4K 高清画质，带来了更加清晰的视觉享受。

根据 IT 之家早前的报道，迪士尼计划在未来四周内陆续推出四支不同版本的《复仇者联盟 5》预告片。这些预告片将以贴片形式附在即将上映的《阿凡达 3：火与烬》中，每支预告片将在影院播放一周，然后轮换。此举旨在吸引漫威粉丝和影迷多次前往影院观看《阿凡达 3》，并推动其票房增长。

随着预告片的曝光，影迷们对影片的期待不断升温，同时也对即将到来的正式发布充满期待。

划重点：

📽️ 《复仇者联盟 5》贴片预告确认美国队长回归，展示新角色形象。

🖥️ AI 技术成功将模糊的预告片重置为 4K 高清画质，提升观影体验。

🎬 迪士尼将推出四支不同的预告片，附加在《阿凡达 3：火与烬》中，以吸引更多观众。

via AI新闻资讯 (author: AI Base)

2 天前

恶意VPN窃取逾800万用户完整ChatGPT与Gemini对话记录

via cnBeta.COM - 中文业界资讯站 (author: 稿源：cnBeta.COM)

Telegraph

恶意VPN窃取逾800万用户完整ChatGPT与Gemini对话记录

2 天前

机器人界的GitHub诞生！Tnkr平台上线，让造机器人像写代码一样简单

在物理智能加速落地的2025年，一个被称作“机器人GitHub”的开源平台——Tnkr——正式登场，试图终结机器人研发长期存在的碎片化困局。该平台首次将硬件、软件、数据与AI模型四大核心要素整合于统一开源生态，让开发者能像协作写代码一样，共建、共享、共优实体机器人项目。

传统机器人开发如同“拼图游戏”:工程师需在CAD软件、代码编辑器、数据采集工具和AI训练平台之间反复切换，项目文档散落各处，复现难度极高。Tnkr则提供端到端解决方案——用户可上传完整的机器人项目包，包含3D装配图纸、控制代码、零件清单、运行数据乃至训练好的AI模型。他人不仅能一键重建，还可提交改进、贡献新数据，甚至通过实际运行反馈优化智能策略，形成“越用越聪明”的闭环迭代。

平台深度集成Onshape、SolidWorks、GitHub等主流工具，实现从设计到部署的无缝工作流。更引人注目的是其内置的AI工程助手**Leonardo**——一位24小时在线的“机器人装配导师”。它能分析用户上传的装配视频、CAD文件与控制代码，自动生成交互式安装指南，实时指出潜在结构错误，并将模糊的操作视频转化为精准到“这颗螺丝该拧在第3号孔位”的分步指导。初学者面对复杂人形机器人，也能在AI引导下顺利完成组装。

目前，Tnkr已汇聚多类开源项目，涵盖四足机器狗、双足人形平台等热门形态，社区可自由“remix”（混改）现有设计，快速衍生新应用。这种模式有望彻底降低机器人创新门槛，吸引全球开发者、高校实验室乃至爱好者加入物理智能共创浪潮。

AIbase认为，Tnkr的出现标志着开源精神正式从数字世界延伸至物理世界。当机器人研发进入“Git式协作”时代，创新速度或将呈指数级提升——未来，一台家用助老机器人可能融合了巴西开发者设计的机械臂、德国团队优化的步态算法、以及来自日本社区的真实家庭运行数据。Tnkr要做的，不仅是提供工具，更是搭建一个让全球智慧共同“造物”的新文明基座。

体验地址：https://tnkr.ai/

via AI新闻资讯 (author: AI Base)

2 天前

中国信通院建设的人工智能产品安全漏洞专业库（CAIVD）正式上线运行

中国信息通信研究院（简称 “中国信通院”）在工业和信息化部网络安全管理局的指导下，正式推出了人工智能产品安全漏洞专业库(简称 CAIVD)。这一全新的专业库现已上线，网址为 ai.nvdb.org.cn，旨在加强人工智能产品的安全管理，提升网络产品的安全性。

CAIVD 的建立是为了贯彻《网络产品安全漏洞管理规定》的要求，并加强对网络产品安全漏洞的管理。自2021年以来，工业和信息化部启动了网络安全威胁和漏洞信息共享平台（NVDB），该平台涵盖了多种网络产品，包括通用网络产品、工业控制产品、政府信创产品、移动互联网应用程序以及车联网产品，形成了 “1个总库 +5个专业库” 的漏洞管理体系。

为了有效应对人工智能领域的新威胁和新挑战，CAIVD 的上线将进一步加强人工智能产品的安全风险防范。它将作为桥梁，连接人工智能产品提供者、安全厂商、科研机构和个人用户，建立一个安全漏洞的收集、分析、研判、通报、预警和处置工作体系。这一体系将规范漏洞的收集和发布渠道，助力中国人工智能产业的高质量和健康发展。

未来，中国信通院将依托 CAIVD 进行人工智能产品安全漏洞的收集和验证，督促产品提供者及时修复自身产品的安全漏洞，支撑人工智能产品的规范管理，努力共建一个安全有序的产业生态。

划重点:

🌐 CAIVD 是中国信通院新上线的人工智能产品安全漏洞专业库。

🔍 该库旨在加强人工智能产品的安全管理和漏洞应对。

🤝 CAIVD 将促进产业各方建立安全漏洞的收集和处理体系，助力行业健康发展。

via AI新闻资讯 (author: AI Base)

2 天前

海外医疗AI平台OpenEvidence再获2.5亿美元融资估值飙升至120亿美元

AIbase报道随着人工智能在医疗领域的深度渗透，2025年已成为AI医疗爆发式增长的关键一年。海外医疗AI平台OpenEvidence最新融资动态引发业界高度关注，而国内巨头蚂蚁集团同期推出健康AI升级产品，进一步彰显AI医疗“大有可为”的广阔前景。

OpenEvidence估值飙升至120亿美元

据可靠消息，专注于医师临床决策支持的AI平台OpenEvidence正在进行新一轮融资，计划筹集约2.5亿美元，估值高达120亿美元。这距离其上轮融资仅数月，估值已实现翻倍增长。

OpenEvidence被誉为“医生专属ChatGPT”，其核心产品是一个医学问答与证据检索系统，专为医生和临床人员设计:

- 快速提供可信医学证据，所有结论均可追溯至真实同行评审文献;

- 直接应用于真实临床决策场景，支持点对护理（point-of-care）快速查询;

- 对注册医生完全免费，主要通过制药广告及医疗合作伙伴内容合作实现变现。

最新数据显示，该平台年化广告收入已达1.5亿美元，自8月以来增长三倍，毛利率高达90%以上。目前已覆盖美国超过40%的医师用户，每月处理数千万临床咨询，深受医疗机构青睐。

融资历程回顾

OpenEvidence自成立以来融资节奏迅猛:

-2025年2月:A轮融资约7500万美元，估值约10亿美元;

-2025年7月:B轮融资约2.1亿美元，估值约35亿美元;

-2025年10月:C轮融资约2亿美元，估值约60亿美元;

- 最新一轮:预计2.5亿美元，估值120亿美元。

这一估值跃升反映了投资者对垂直AI医疗应用的极高信心，尤其在证据-based医学支持领域的独特优势。

国内动态:蚂蚁集团推出“蚂蚁阿福”

与此同时，国内AI医疗领域也传来重磅消息。蚂蚁集团正式将其AI健康应用AQ升级更名为“蚂蚁阿福”，并发布全新版本，标志着产品定位从“AI问诊工具”向“日常健康陪伴”全面转型。

升级后的“蚂蚁阿福”聚焦“健康+”战略，三大核心功能全面优化:

- 健康陪伴:接入智能手表等设备，汇总用户运动、睡眠、历史病例及问诊数据，建立个人及家人健康档案，实现AI“私人陪伴”式管理;

- 健康问答:提供专业精准的多模态交互，支持一人一策的个性化建议;

- 健康服务:整合预约挂号、云陪诊等实用功能。

目前，“蚂蚁阿福”月活用户已超1500万，成为国内最大健康管理AI应用，每天回答超500万个健康问题，在下沉市场表现出色。该产品依托专业医疗大模型，强调可靠性和包容性，已在AI健康领域形成显著领先优势。

AI医疗前景广阔

从OpenEvidence的专业临床支持到“蚂蚁阿福”的日常健康陪伴，中美AI医疗创新各有侧重，却共同指向同一个方向:人工智能正深刻重塑医疗生态。无论是助力医生证据决策，还是陪伴大众健康管理，AI医疗正迎来黄金发展期，未来潜力无限。

via AI新闻资讯 (author: AI Base)

2 天前

快手 Agentic Coding 模型 KAT-Coder-Pro V1杀入全球 AI 榜单 Top10

快手研发的 Agentic Coding 模型 KAT-Coder-Pro V1 近日宣布重磅升级，在知名大模型竞技场 Artificial Analysis Intelligence Index 的官方评测中取得了优异成绩。

KAT-Coder-Pro V1以 64分的成绩，成功超越了 Claude4.5Sonnet，综合模型能力强势入围总榜 Top10。更值得关注的是，该模型在 Non-Reasoning Model 榜单中以显著优势斩获第一名。

评测结果显示，KAT-Coder-Pro V1不仅性能卓越，其输出 Token 消耗量远低于同性能区间的其他模型，实现了出色的价格与性能平衡。

via AI新闻资讯 (author: AI Base)

2 天前

谷歌发布全新 Gemini 深度研究助手，AI 竞争再升级

在人工智能领域，谷歌近期推出了 “重新构想” 的 Gemini 深度研究助手，这一更新将开发者与其最先进的自主研究能力连接起来。新的系统基于 Gemini 3 Pro 构建，旨在将深度研究从一个专门的报告撰写助手转变为一个能够进行长时间推理和复杂分析的自主研究代理。

新系统具备分析和浓缩大量复杂数据的能力，相比之前的版本，它能够提供更加详细和准确的报告。谷歌在一篇博客中表示，这一改版系统的设计也减少了 “幻觉” 的发生，这对于长期运作的代理来说至关重要。谷歌强调：“该代理优化了长时间上下文收集和综合任务的执行能力。” 通过大规模的多步强化学习，代理能够以高准确度自主导航复杂信息环境。

在研究过程中，Deep Research 能够逐步规划其调查方案 —— 它会制定查询、阅读结果、识别知识空白并再次进行搜索。与此同时，谷歌还推出了一项新工具，开发者可以通过该工具将谷歌的研究能力直接嵌入到自己的应用程序中。这一新接口旨在促进不同代理之间的互动，让开发者在不断增强的代理 AI 背景下获得更大的控制权。

谷歌表示，早期用户已在金融服务、生物技术、市场研究以及药物毒性安全研究等领域应用 Gemini 深度研究，精确性和可追溯性在这些领域中至关重要。此外，谷歌还计划在其各项服务中整合新发布的深度研究代理，包括谷歌搜索、谷歌财经、Gemini 应用以及 NotebookLM。

除了新助手的发布，谷歌还推出了一个新的复杂网页搜索基准 ——DeepSearchQA，这一框架专门用于评估代理在 “复杂的多步骤信息检索任务” 中的表现。通过该基准，谷歌发现当代理有更多时间进行搜索和推理步骤时，表现显著提升，并表示将继续在未来版本中加大对此的开发。

在谷歌发布这一新系统的同一天，OpenAI 也推出了其 “最强大” 的 GPT-5.2 版本，进一步加剧了两家公司在定义下一代代理 AI 系统方面的竞争。

划重点：

🌟 谷歌推出新版本 Gemini 深度研究助手，提升自主研究能力。

📊 新系统可分析大量复杂数据，减少幻觉现象，提供更准确报告。

🔍 同日 OpenAI 发布 GPT-5.2，AI 竞争进入新阶段。

via AI新闻资讯 (author: AI Base)

2 天前

阿里万相2.6发布:支持“角色扮演”与多分镜控制，单次视频时长达15秒

12月16日，阿里巴巴宣布推出新一代 万相2.6系列模型，该模型针对专业影视制作和图像创作场景进行了全面升级，并被称为**“全球功能最全的视频生成模型”。万相2.6已同步上线阿里云百炼和万相官网**。

万相2.6系列最大的亮点在于它是国内首个支持“角色扮演”功能的视频模型，同时支持音画同步、多镜头生成及声音驱动等功能。

核心升级与技术突破

此次升级在画质、音效、指令遵循等方面进一步提升，并将单次视频时长提升至国内最高的15秒。该模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力。

1. 角色扮演功能（国内首创）:

万相2.6能够参考输入视频中的角色外观和音色，按照提示词生成单人、多人、人与物合拍的视频。在模型结构上，通义万相集成了多项创新技术，可对参考视频进行多模态联合建模与学习，提取主体情绪、姿态、视觉特征以及音色、语速等声学特征，确保全感官全维度的一致性保持与迁移。

2. 专业级分镜控制:

模型新增分镜控制功能，可将用户简单的提示词转换为多分镜脚本，生成包含多个镜头的连贯叙事视频。通过高层语义理解，万相2.6能构建具备完整故事线和叙事张力的专业级多镜头段落，并在镜头丝滑切换的过程中保持核心主体、场景布局和环境氛围的高度一致性。

赋能影视级创作场景

万相2.6的角色扮演和分镜控制功能极大地满足了专业影视级场景需求。

例如，普通用户上传一段个人视频，输入科幻悬疑风格的提示词，万相2.6仅需几分钟就能完成分镜设计、角色演绎、画面配音等工作，生成一段镜头叙事完整、电影级运镜的短片，帮助用户“圆电影主角梦”。

面向广告设计、短剧制作等专业场景，通过输入连续提示词，模型可以生成一段完整叙事的短片，让人人都能当导演。

延续国内领先地位

阿里曾在今年9月率先在国内发布音画同步的视频生成模型万相2.5，在权威大模型评测集 LMArena 上，万相图生视频位居国内第一。此次2.6版本的发布，进一步巩固了其在国内视频生成领域的领先地位。

即日起，所有人可直接在万相官网体验万相2.6，企业用户可通过阿里云百炼调用 API。据悉，千问 APP 也将于近期上线该模型，并提供更丰富的玩法。

via AI新闻资讯 (author: AI Base)

2 天前

谷歌搜索测试“+”按钮:允许用户上传图片文档，利用 Gemini AI 进行深度分析

谷歌搜索中近日新增了一个神秘的**“+”按钮**，允许用户上传图片和文档，从而利用谷歌的 Gemini AI 模型进行深度分析。尽管谷歌尚未发布官方博文，表明该功能可能仍处于实验阶段，仅对部分用户开放。

用户只需上传图片或文档，即可启用 Google AI 模式。Gemini 将解析内容，允许用户提出相关问题，实现即时、上下文相关的查询。例如，上传模型套件说明书后可询问零件购买地，或上传吉他图片后询问其使用的拾音器型号。

AI 军备竞赛升级:谷歌凭借规模与自研芯片领跑

谷歌搜索的增强型人工智能功能标志着该公司已全面转向 AI 领域，以应对来自 ChatGPT 开发商 OpenAI 的持续竞争。

尽管两大巨头一直在功能方面展开激烈较量，但据报道，谷歌最近发布的 Gemini3 模型已让 OpenAI 处于“红色警戒”状态，促使 OpenAI 发布了其 GPT-5.2模型以保持竞争力。

分析人士指出，谷歌的规模优势使其具有巨大的竞争力。相较于 OpenAI，谷歌能以更低成本提供更多功能，例如为订阅用户提供数 TB 的 Google Drive 额外存储空间，以及在使用 Gemini AI 工具时提供更大的上下文窗口。

尤其值得注意的是，Gemini3的训练平台是谷歌自家的张量处理单元（Tensor Processor）芯片，而非英伟达的芯片。这意味着谷歌无需依赖第三方芯片制造商，依然能够打造高性能的 AI 模型，一些观察人士甚至认为谷歌在当前的 AI 竞赛中已然遥遥领先。

via AI新闻资讯 (author: AI Base)

2 天前

OpenAI与迪士尼达成“股权换IP”重磅合作：Sora获米老鼠等200+角色授权，押注AI视频未来

via AI新闻资讯 (author: AI Base)

Telegraph

OpenAI与迪士尼达成“股权换IP”重磅合作：Sora获米老鼠等200+角色授权，押注AI视频未来

一场颠覆传统授权模式的战略联姻，正在重塑AI与娱乐产业的边界。据知情人士透露，OpenAI与迪士尼达成一项极具创新性的合作：OpenAI以**认股权证**（warrants）而非现金，获得了迪士尼旗下超过 200 个经典角色的使用权——包括米老鼠、灰姑娘、小美人鱼Ariel、狮子王辛巴等标志性IP。此举不仅让Sora文生视频模型一举坐拥全球最具价值的动画角色库，更将两家巨头的未来深度绑定。在这笔“对赌式”交易中，迪士尼主动放弃短期现金收入，转而押注OpenAI的长期股权价值。若Sora在影视、游戏、互…

2 天前

IBM 发布 CUGA：一款开源 AI 助手，任务完成率超六成

近日，IBM 研究人员推出了一款名为 CUGA 的开源 AI 助手，旨在自动化复杂的企业工作流程，并能完成超过一半的任务。CUGA 代表 “可配置通用代理”，该软件通过多代理编排、API 集成和代码生成等功能，力求帮助知识工作者更高效地处理日常或复杂的工作。

根据 IBM 研究团队的描述，CUGA 的设计目标是让知识工作者能够安全、可靠地配置和调整该代理，以满足他们的工作需求。虽然市场上对于 AI 代理的安全性和可靠性存有疑虑，但 IBM 依然看好自动化的前景，并致力于提升工作效率。

CUGA 在 WebArena 和 AppWorld 基准测试中取得了61.7% 的网页任务完成率和48.2% 的 API 任务完成率。这些得分虽然不算高，但在当前 AI 代理技术中已算是顶尖表现。IBM 并未使用自己的企业专用测试标准 WebAgentBench 来评估 CUGA，这引发了一些关注。

通过对比其他 AI 代理的表现，CUGA 的得分显示出 AI 技术的进步。例如，其他代理在类似测试中平均完成率仅为24.4%。IBM 的研究团队指出，企业工作流程通常涉及多项政策的同时适用，因此 CUGA 需要具备更强的政策合规能力。

CUGA 的结构设计上，首先通过对用户意图的分析来理解输入的任务，然后将任务分解为多个子任务，并进行动态的重新规划。这样，CUGA 能将特定子任务分配给专业代理处理，从而确保结果尽可能符合企业的政策。

该系统还与 Langflow 低代码平台兼容，并支持多种开源模型的集成。尽管 CUGA 在实际应用中可能还存在一些小问题，比如偶尔无法正常退出运行循环，但 IBM 强调，用户在使用 AI 代理软件时应保持合理的期望。

划重点:

🌟 CUGA 是一款开源 AI 助手，旨在自动化复杂的企业工作流程。

📊 CUGA 在基准测试中取得61.7% 的任务完成率，显示出 AI 代理技术的进步。

🔧 CUGA 支持动态任务分解和多种开源模型，有望提高工作效率。

via AI新闻资讯 (author: AI Base)

2 天前

ChatGPT移动端上线“对话分支”功能，多线程思考终于自由切换

OpenAI正式将广受期待的“对话分支”（Branch Conversations）功能扩展至iOS和Android移动端，标志着ChatGPT全面进入“多线程对话”时代。从此，用户无论在电脑还是手机上，都能在一次对话中创建多个并行分支，自由探索不同思路，而无需担心覆盖或丢失原始上下文。

所谓“对话分支”，即允许用户从当前聊天的任意节点“分叉”出一条新路径。例如，在制定营销方案时，可从同一份市场分析中分出三个分支，分别尝试激进、保守与创新策略;在写小说时，可让主角在关键情节走向不同命运;在研究技术方案时，可并行测试多种假设。每个分支独立保存，随时切换，互不干扰。

在该功能上线前，ChatGPT的对话更像一条“单行道”——一旦偏离主线，要么覆盖原内容，要么被迫开启全新聊天窗口，导致上下文割裂、思路中断。许多用户不得不手动复制粘贴关键信息，效率低下且易出错。自2024年9月网页版率先推出分支功能后，用户反馈积极，移动端的缺失成为主要痛点。如今，这一短板终于补全。

OpenAI表示，分支功能特别适用于需要深度探索、反复试错的高阶场景，如商业决策、学术研究、创意写作及复杂问题拆解。它不仅提升了ChatGPT作为“思考伙伴”的实用性，更将其从“问答工具”升级为“思维协作者”。

随着移动端全面支持，用户可在通勤、会议间隙或碎片时间中，灵活切换不同思维路径，真正实现“随时随地多线程思考”。这一更新虽看似细微，却极大释放了生成式AI在真实工作流中的潜力——毕竟，人类的思维本就不是线性的，而AI，终于开始理解这一点。

via AI新闻资讯 (author: AI Base)

2 天前

Nvidia 收购 SchedMD 并发布新一代开放 AI 模型，进一步布局开源生态

Nvidia 近期在开源 AI 领域的布局再度加码，宣布收购了 SchedMD 公司，同时推出了新一代开放 AI 模型 Nemotron 3 系列。这一系列的举措表明，Nvidia 正致力于推动开源技术的发展，以支持高性能计算和人工智能的创新。

SchedMD 是著名的开源工作负载管理系统 Slurm 的主要开发者。Slurm 自 2002 年推出以来，已成为高性能计算和 AI 领域的重要工具。SchedMD 成立于 2010 年，由 Slurm 的主要开发者 Morris Jette 和 Danny Auble 创办，目前 Auble 担任 CEO。Nvidia 表示，尽管收购了 SchedMD，但该公司将继续以开放源代码和中立软件的形式运营 Slurm，且不会改变其开放性原则。

Nvidia 还发布了 Nemotron 3 系列开放 AI 模型，该系列被称为构建高效 AI 代理的最优模型。Nemotron 3 系列包括三个版本：Nemotron 3 Nano，适用于特定任务的小型模型；Nemotron 3 Super，针对多 AI 代理应用而设计；以及 Nemotron 3 Ultra，旨在处理更复杂任务的高级模型。Nvidia 的创始人兼首席执行官黄仁勋在发布会上表示，开放创新是 AI 进步的基础，Nemotron 系列将为开发者提供透明性和效率，以便他们在规模上构建智能系统。

此外，Nvidia 还在上周推出了一款新的开源推理视觉语言模型 Alpamayo-R1，专注于自动驾驶研究。同时，公司也发布了更多工作流程和指南，以帮助开发者更好地利用其 Cosmos 世界模型，这些模型在宽松许可下开源，旨在支持物理 AI 的开发。

这一系列举措反映了 Nvidia 对物理 AI 未来的信心，目标是成为众多机器人和自动驾驶公司所需的 AI 及软件解决方案的首选供应商。

划重点：

🌟 Nvidia 收购 SchedMD，继续推动 Slurm 的开源发展。

🤖 发布 Nemotron 3 系列开放 AI 模型，包含多种版本满足不同需求。

🚗 新推出的 Alpamayo-R1 模型专注于自动驾驶，助力物理 AI 的进步。

via AI新闻资讯 (author: AI Base)

Before

After

Home