https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
智元发布 GO-2 具身大模型:首创动作思维链,刷新行业 SOTA

据报道,智元机器人正式发布了新一代具身基座大模型 Genie Operator-2(简称 GO-2)。该模型的核心使命是彻底打通从“逻辑推理”到“精准动作执行”的最后一公里,让机器人不仅能听懂指令,更能稳定地完成任务。

核心黑科技:首创“动作思维链” (Action Chain-of-Thought)

GO-2引入了一种全新的交互逻辑,彻底改变了机器人的思考方式:

● 拒绝“边看边做”: 不同于传统模型直接输出控制信号,GO-2会先在脑海中生成一段高层动作序列,作为任务的整体规划。
● 想清楚再动: 通过这种结构化的中间表示,机器人实现了从“感知输入”到“动作空间推理”的跨越。相关技术成果已被 AI 顶级会议 CVPR2026 接收。

架构革新:异步双系统确保“执行不跑偏”

为了解决机器人执行过程中的稳定性问题,智元构建了一套精密协同的异步体系:

● 慢系统(智囊): 以低频运行,持续输出具备长程逻辑的动作规划“意图流”。
● 快系统(肌肉): 以高频运行,实时对齐慢系统的规划。当遇到桌面高度偏差或物体滑动时,快系统会进行瞬时修正,确保最终动作贴合预设轨迹。

战绩彪炳:多个基准测试刷新 SOTA 纪录

在多项衡量具身智能实力的权威测试中,GO-2展现出了统治级的表现:

● LIBERO Benchmark:平均成功率高达 98.5%,在四类核心任务中均排名全球第一。
● Genie Sim3.0:在仅使用仿真数据训练的情况下,真实环境测试成功率达 82.9%,显著优于竞对模型(如 π0.5)。

产业愿景:从“实验室”走向“生产线”

智元机器人不仅仅发布了一个模型,更构建了一套闭环的学习体系:

● 分布式进化: 依托Genie Studio平台,模型能在真实环境中持续采集交互数据并在线优化,实现“越用越聪明”。
● 通用大脑:GO-2的目标是成为具身智能的通用大脑,助力机器人从虚拟仿真平滑过渡到复杂的产业落地场景。

结语:开启“知行合一”的机器人时代

正如智元官方所言,具身智能的终极追求是理解与执行的统一。随着 GO-2 的落地,机器人正在从只会纸上谈兵的“思考者”,进化为能够精准改变物理世界的“实干家”。

via AI新闻资讯 (author: AI Base)
腾讯云 QClaw V2 发布,开启多 Agent 协同新时代

腾讯云近日宣布其 AI 助手 QClaw 正式上线 V2 大版本。此次升级的核心在于打破了 AI 单兵作战的局限,通过引入多 Agent 协同和跨应用直连技术,为用户构建起一个高效、安全的“数字工作团队”,大幅提升了复杂任务的处理能力。

多专家并行与应用直连

新版本支持同时调用最多 3 个 Agent 并行工作,用户可自定义其性格与专业背景,或直接选用系统内置的撰稿人、程序员等角色。这种模式将长任务拆解,有效解决了 AI 在处理复杂逻辑时容易出现的“记忆遗忘”与“已读乱回”问题。

同时,QClaw V2 引入了连接器功能,彻底打通了办公软件间的壁垒。AI 生成的内容不再需要手动复制粘贴,而是可以直接在腾讯文档、Notion 或邮箱等主流工具中自动创建或发送,实现了从指令到执行的“最后一公里”直连。

首发安全管家护航数据

针对用户担心的隐私与数据安全风险,QClaw V2 业内首发了“龙虾管家”防护系统。该功能通过实时监控条,将 AI 的操作严格限制在安全范围内,有效拦截高风险执行脚本和文件误删,确保核心数据不受侵扰。

目前,QClaw V2 已深度接入腾讯会议、金山文档及金山问卷等多项高频办公场景。通过详尽的安全日志记录与一键授权机制,腾讯云正试图在保障用户数据主权的前提下,让 AI 真正成为深度嵌入日常流转的可靠生产力伙伴。

via AI新闻资讯 (author: AI Base)
Sonnet 4.6 elevated rate of errors

Apr 9, 08:07 UTC
Identified - The issue has been identified and a fix is being implemented.

via Claude Status - Incident History
知行合一:智元发布具身大模型 GO-2 刷新机器人性能标杆

智元机器人今日正式发布了新一代具身基座大模型 Genie Operator-2(简称 GO-2),标志着具身智能领域取得重大突破。该模型的核心使命是弥合机器人从“理解指令”到“精准执行”之间的语义鸿沟,让机器人不仅能听懂话,更能干好活。

首创动作思维链技术

GO-2在行业内首创了“动作思维链”机制,改变了传统机器人“边看边做”的盲目模式。模型在接收指令后,会先在内部生成一段结构化的动作序列规划,类似于人类在投篮前预演轨迹,确保动作路径清晰且逻辑连贯。

配合这一机制,GO-2采用了创新的异步双系统架构。慢系统负责高层规划,快系统则以更高频率实时修正动作细节,这种设计使机器人在面对桌面高度偏差或物体滑动等干扰时,依然能稳定完成任务。

刷新多项行业基准记录

在性能表现上,GO-2在 LIBERO 等多个全球主流具身智能基准测试中均取得了第一名的成绩,平均成功率高达98.5%。即便是在充满光照干扰和背景噪声的复杂环境下,该模型依然展现出了极强的泛化能力和鲁棒性。

目前,智元机器人已通过其 Genie Studio 开发平台打通了从模型训练到真实场景部署的闭环。这意味着 GO-2不再只是实验室里的演示模型,而是一个能够通过云端数据持续学习、不断进化的生产力系统,为具身智能走向实用化铺平了道路。

via AI新闻资讯 (author: AI Base)
一句话变收款神器:微信支付 AI 接入工具箱正式上线

微信支付官方近日发布了一套专为商家与开发者打造的 AI 原生接入工具,旨在消除支付功能集成的技术门槛。通过这一创新工具,即便是没有任何代码基础的小微商家,也能在几分钟内快速开通线上支付功能,实现经营效率的质变。

零门槛口头改写代码

这套工具箱核心由 Skill 技能包、AI 友好文档及 AI 友好 API 三部分组成,支持在主流 AI 开发工具中一键加载。最引人注目的是其“口头代写代码”功能:用户只需输入简单的中文指令说明需求,AI 即可自动生成可运行的支付代码。

对于初次接入的小商家,原本需要数天的开发流程被缩短至分钟级。同时,该工具箱全面覆盖了小程序支付、H5 支付、订单退款及分账等二十余种常用功能,确保了日常经营中支付场景的全覆盖。

技术专家全天候诊断

除了降低准入门槛,微信支付 AI 工具还扮演了“24 小时技术助手”的角色。它支持代码诊断功能,能像金融支付专家一样识别并拦截逻辑错误,从技术底层避免商户可能遭遇的资金损失。

对于已有系统的开发者,该工具同样展现了极高的实用价值。无论是接口报错排查,还是旧代码的一键升级,AI 都能快速完成修复与转换。这不仅将开发者从繁琐的重复工作中解放出来,也让更多创意业务能以更低的成本迅速落地。

via AI新闻资讯 (author: AI Base)
你的浏览器免费变身 AI Agent!腾讯推出国内首个浏览器“龙虾”QBotClaw:微信扫码远程操控

4月8日,腾讯云正式发布国内首个浏览器智能体“龙虾”——QBotClaw,将 AI Agent 能力原生集成到 QQ 浏览器中。这款工具让浏览器从单纯的网页访问工具升级为能够理解屏幕、自主执行复杂任务的智能助手,用户只需一句话即可指挥浏览器完成操作。

零设置免费使用,支持自带大模型

QBotClaw 开箱即用,无需订阅、无需复杂配置。用户打开 QQ 浏览器,在侧边栏即可下载安装。它支持用户自行配置主流大模型 API 密钥(Bring Your Own LLM),灵活适配不同需求。目前 Mac 版本已上线,Windows 版本即将推出。

首创微信远程控制,实现手机指挥电脑

QBotClaw 的最大亮点在于支持微信远程控制。用户通过微信扫描 Clawbot 二维码即可绑定,实现手机与电脑的远程连接。即使电脑处于锁定或空闲状态,用户也能通过微信发送文字或语音指令,远程指挥电脑执行任务,如文件整理、浏览器自动化操作等。这一功能让 AI 真正成为微信里的“联系人”,随时随地远程办公。

精准页面理解与自主行动

得益于腾讯自研的浏览器 Skill 和 X5高精度识别技术,QBotClaw 能够精准读取页面内容、理解屏幕信息,并根据用户指令完成跨页面复杂任务。它兼容 OpenClaw 技能生态,支持文件操作、邮件处理、比价购物、多平台内容发布等实际场景,极大提升了生产力。

浏览器即 Agent:从工具到智能同事的转变

传统浏览器仅负责展示网页,而 QBotClaw 让浏览器本身成为一个可自主思考和行动的 Agent。它不仅能处理当前页面,还能结合上下文记忆进行连续操作,真正实现“说一句,浏览器帮你干完”。

这一产品的推出,标志着浏览器 AI Agent 在国内的加速落地,显著降低了普通用户使用 AI 自动化的门槛。无论是日常办公、内容创作还是开发场景,QBotClaw 都提供了低成本、高效率的解决方案。

目前 QBotClaw 已在 QQ 浏览器中开放安装,感兴趣的用户可直接体验。AIbase 将持续跟踪 QBotClaw 的实际使用反馈、Windows 版本上线进度以及更多技能扩展,欢迎读者分享使用心得

via AI新闻资讯 (author: AI Base)
即梦AI发布协作型叙事工具“小章鱼”Octo,首推VibeCreate创作模式

即梦AI于4月8日正式上线首个协作型AI叙事创作工具“小章鱼”Octo,并创新性地提出VibeCreate(氛围创作)模式,试图重塑AI内容生成的交互范式。 这一动作标志着AI创作从传统的“单向指令、结果交付”模式,向“同屏共创、深度协同”的合伙人模式演进。作为即梦在AI叙事领域的探索性尝试,Octo目前仅在Web端开放内测申请,尚未全量上线。

在核心技术层面,Octo支持“对话+多模态混合”的同屏共创,其搭载的智能Agent能实时感知界面内容与用户操作,通过图片、音频等多种形式与创作者进行异步并行的创意碰撞。该工具构建了从故事大纲梳理、核心资产构建到剧本分镜生成、短片成片输出的全流程制作闭环,并深度联动Seedance2.0、Seedream5.0Lite等即梦最新底层模型。

从行业视角看,继VibeCoding重构人与代码的关系后,即梦提出的VibeCreate模式进一步拓展了AI在创意产业的边界。通过将AI定位为“创意合伙人”,Octo不仅提高了生成效率,更确保了灵感在创作全链路中的承接与放大。这种协作型工具的出现,预示着AI视频创作正从单一的模型能力竞争转向工作流集成与交互体验的深度革新。

via AI新闻资讯 (author: AI Base)
腾讯云宣布5月9日起上调AI算力及容器服务价格,涨幅达5%

腾讯云今日宣布将于2026年5月9日起正式上调多项核心AI业务价格,标志着继阿里云与百度云之后,国内又一头部云服务商完成算力资源的结构性调价。

根据公告显示,此次价格调整涵盖了AI算力相关产品服务、容器服务TKE-原生节点以及弹性MapReduce(EMR)相关产品,上调幅度统一为5%。对于在生效日期前已购入相关服务的用户,其当前订单或计费周期内的价格暂不受影响,新资费标准将在下一个续费周期开始执行。

腾讯云方面表示,此举系因全球AI算力需求持续激增,核心硬件供应链成本大幅上涨,调价旨在保障服务质量及算力资源的持续供给。

via AI新闻资讯 (author: AI Base)
谷歌发布 Gemini「notebooks」功能:跨平台深度管理项目实战

据报道,谷歌发布了名为 「notebooks」(笔记本) 的新功能。该功能旨在通过集中管理特定主题的内容,让Gemini进化为用户的私人专属知识助理。

核心功能:让 AI 拥有“长效记忆”

与常规的即时聊天不同,「notebooks」功能更强调信息的高度整合与复用:

全素材整合: 允许用户将分散的文件、历史对话记录以及自定义指令(Personal Instructions)一并放入特定的“笔记本”中。

精准上下文调用: Gemini将以此为核心上下文进行理解和回答,确保建议和生成的内容与用户的特定项目高度一致。

生态无缝同步: 该功能支持与谷歌现有的NotebookLM进行同步,实现了从个人笔记到 AI 深度洞察的闭环。

权限与发布:谁能率先体验?

谷歌正采取逐步释放的方式推广这一功能,重点覆盖核心订阅群体:

首批用户: 本周起,该功能将率先向订阅了AI Ultra、Pro 和 Plus 计划的用户开放网页版。

全平台布局: 移动端(iOS 及 Android)以及免费版用户预计将在未来数周内陆续获得更新。

行业视角:从“对话框”到“工作空间”

此次更新反映了谷歌对 AI 交互范式的深度思考:

去碎片化: 过去用户需要反复复制粘贴信息,现在通过「notebooks」可以实现信息的“一次导入,长期使用”。

独立化演进: 近期动态显示,谷歌正在为Gemini等 AI 助手引入独立音量控制滑块等精细化功能,足见其在安卓系统及办公套件中的独立地位正日益巩固。

结语:AI 的下半场是“个性化”

当 AI 不再只是回答百科知识,而是能基于你提供的专属文件进行思考,它才真正具备了生产力属性。谷歌Gemini「notebooks」的上线,正是为了让每一位用户都能在海量数据中,构建出属于自己的智慧堡垒。

via AI新闻资讯 (author: AI Base)
拒绝“套壳”AI:微信公众号重拳打击非真人自动化写作

微信公众平台近日发布了针对“非真人自动化创作行为”的最新管理规则,旨在维护内容生态的原创性。多位创作者反映,后台文章因被判定为自动化生成而遭到批量删除,这标志着平台对AI滥用行为的监管已进入实操阶段。

明确三大违规红线

新规明确禁止利用AI、脚本或接口替代真人完成创作与发布。具体违规场景包括:完全脱离真人表达的AI生成或改写内容、通过程序托管进行批量连续发布,以及传播此类自动化创作的教程与服务。

即使部分创作者声称仅使用了第三方排版工具导入,或发布的是AI技术教程,若内容特征符合“非真人自动化”标准,仍会触发系统的违规判定。平台强调,内容必须承载创作者的真实思考与表达。

严厉处罚净化生态

对于违反规则的账号,微信将根据违规程度采取分级处罚。轻者将面临相关文章的流量限制或直接删除,严重者则会被限制账号功能甚至永久封禁,绝不容许自动化流水线内容稀释原创价值。

此举被视为公众号回归“内容为王”本质的重要信号。在AI工具普及的背景下,微信通过技术手段与规则约束,强制要求创作者在利用工具辅助的同时,必须保留人工审核与情感投入的底线。

via AI新闻资讯 (author: AI Base)
谷歌DeepMind CEO称正以初创公司模式重回技术巅峰

谷歌DeepMind首席执行官德米斯·哈萨比斯近日在播客节目中透露,为了在激进的AI竞赛中保持领先,这家科技巨头正在打破内部壁垒。通过整合全公司的算力资源与顶尖人才,DeepMind在过去两三年内成功实现了从“追赶者”到“领跑者”的身份转变,其运作效率已全面向初创公司看齐。

资源大整合重塑竞争力

哈萨比斯指出,算力已成为当前AI研究的最大瓶颈,谷歌通过将分散的资源集中化,确保了核心项目能够获得极致的支持。这种转型让公司不再纠结于内部多个版本的低效开发,而是能够以极高的专注度和速度,推动如Gemini等超大规模模型的迭代升级。

作为现代人工智能突破性成果的主要贡献者,DeepMind与谷歌大脑合并后的协同效应正逐步显现。哈萨比斯自豪地表示,行业内约90%的底层突破源自谷歌系实验室,而现在的组织架构让他们能够更灵活地应对来自OpenAI和Anthropic等对手的挑战。

速度与标准的管理哲学

这一“巨头初创化”的趋势并非谷歌独有,亚马逊与苹果的高管也曾多次表达过类似的经营理念。亚马逊CEO贾西曾强调,快速行动与高标准并不对立,而苹果创始人乔布斯也曾将庞大的苹果公司定义为“地球上最大的初创公司”,旨在保持组织的敏捷性。

对于谷歌而言,这种变革不仅是应对外部竞争的权宜之计,更是重塑技术前沿地位的必然选择。在AI领域步入深水区的今天,哈萨比斯领导的DeepMind正通过这种精简、快速的文化,试图在多个前沿领域持续占据统治地位。

via AI新闻资讯 (author: AI Base)
OpenClaw、Claude Code 等 Agent 为什么都选择 Node.js?

via 掘金人工智能本月最热 (author: 吴佳浩Alben)
字节跳动发布原生全双工语音大模型 Seeduplex:懂倾听、抗干扰

4月9日,字节跳动 Seed 团队正式发布原生全双工语音大模型 Seeduplex,标志着 AI 语音交互从传统的“回合制”向更贴近人类直觉的“实时自然交互”演进。作为豆包端到端语音模型的重大升级,Seeduplex 核心突破在于实现了“边听边说”的同步处理框架,从底层架构上释放了语音交互的自然感。目前,该技术已在豆包 App 全量上线,完成了全双工技术从实验室向亿级用户规模化落地的跨越。

Seeduplex 通过语音与语义的联合建模,显著提升了模型在复杂声学环境下的抗干扰能力。相比半双工方案,其误回复率与误打断率降低了50%,即便在导航干扰、多人混叠或环境杂音中,也能精准识别主用户意图并联动环境信息。

在对话节奏控制上,该模型引入动态判停技术,将判停延迟缩短约250ms,抢话比例下降40%,能敏锐区分用户的“思考留白”与“对话结束”。工程层面,团队通过投机采样与量化优化,在确保超低时延的同时解决了高并发下的卡顿挑战,使通话满意度绝对值提升8.34%。

Seeduplex 的落地不仅是交互效率的飞跃,更预示着感知、思考与执行一体化的未来趋势。随着后续视觉模态的引入,语音助手将向“听、看、想、说”多维协同的通用智能体深度进化,重塑智能硬件及多模态交互的行业标准。

项目主页:

https://seed.bytedance.com/seeduplex

via AI新闻资讯 (author: AI Base)
科技圈🎗在花频道📮:

Photo

NASA 公布“阿耳忒弥斯 Ⅱ”绕月飞越首批官方照片

NASA 公布“阿耳忒弥斯 Ⅱ”任务首批官方绕月飞越照片。这批照片由 4 名宇航员在 4 月 6 日执行月球背面约 7 小时飞越期间拍摄,呈现了部分此前无人见过的月面区域,也记录到一次罕见的太空日食。机组已用多台相机拍下数千张照片,更多影像预计将在接下来几天继续回传。

NASA

🌸在花频道茶馆讨论投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]