https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
真正的情感自由!Fish Audio发布S2:多说话人、词级情绪控制、完全开源

Fish Audio 正式发布新一代文本转语音(TTS)模型 S2,标志着开源TTS技术在表现力和可控性上迎来重大突破。

这款名为 Fish Audio S2的模型主打超强情感可控性,用户可通过自然语言指令实现精细化的韵律与情绪调节,例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心)等标签,甚至支持自由描述如 [professional broadcast tone](专业播音腔)或 [pitch up](升高音调),在词级或短语级实现精准控制,生成极富表现力、自然生动的语音。

核心亮点包括:

完全开源:模型权重、微调代码及基于SGLang的流式推理引擎全部公开(GitHub 与 Hugging Face 可获取),S2-Pro 为旗舰版本(约44亿参数)。
超低延迟:推理延迟低于 150毫秒,适合实时应用场景如对话机器人、虚拟主播等。
原生多说话人支持:单次推理即可处理多个说话人,支持对话轮转、打断、自然情感传递与音色一致性,无需额外处理。

Fish Audio 表示,S2基于约1000万小时、覆盖近50种语言的音频数据训练,结合强化学习对齐与双自回归架构,在多项基准测试中展现出领先的自然度与表现力,被誉为当前开源与闭源TTS中最具情感智能的系统之一。“真正的语言自由,从现在开始。” Fish Audio 以这句话宣告:从机械朗读走向真正富有情感与个性的AI语音时代已来。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/

via AI新闻资讯 (author: AI Base)

Invalid media: video
Meta 宣布收购 AI 代理平台Moltbook,创始人将加入超级智能实验室

Meta 公司于2026年3月10日宣布收购专为人工智能代理打造的社交协作平台Moltbook。根据协议,Moltbook创始人 Matt Schlicht 与 Ben Parr 将加入由前 Scale AI 首席执行官 Alexandr Wang 领导的Meta 超级智能实验室(MSL)。尽管具体收购金额尚未披露,但交易预计将于3月中旬完成,现有用户在过渡期间可继续使用该服务。

Moltbook自今年1月下旬上线以来,被业界视为“AI 代理版 Reddit”,旨在构建一个供人工智能程序相互连接、协调并共同完成任务的实验性生态。Meta 此次收购的核心意图在于获取该团队开发的身份验证与注册系统。这一技术框架允许智能机器人验证身份,并将其操作行为与人类所有者进行安全绑定,从而在代理化生态中建立必要的信任基石。

尽管此前有研究指出Moltbook平台上的实际活跃代理数量及社交互动程度低于预期,但 Meta 显然更看重其在机器对机器(M2M)交互规范上的探索价值。

此次战略扩张紧随OpenAI聘请代理框架 OpenClaw 开发者 Peter Steinberger 之后,预示着全球科技巨头正加速从单一模型开发转向代理生态基础设施的竞速。随着大模型能力向自主行动能力转化,建立标准化的代理识别与协作协议已成为通往通用人工智能(AGI)的关键路径。Meta 通过整合Moltbook的身份注册机制,旨在为其智能助手体系构建更具确定性的社会化协作能力,进一步巩固其在开源代理生态中的主导地位。

via AI新闻资讯 (author: AI Base)
尼尔森旗下 Gracenote 起诉 OpenAI:指控其非法抓取媒体元数据训练模型

尼尔森旗下的元数据服务巨头 Gracenote 已正式向美国纽约南区联邦法院提起诉讼,指控 OpenAI 在未经授权且未支付费用的情况下,大规模抓取其专有媒体元数据库,用于训练 ChatGPT 等商业 AI 产品。

Gracenote 声称,OpenAI 的行为不仅构成了严重的版权侵权,还通过“复刻”其核心资产直接威胁到公司的商业根基。Gracenote 指出,其数据库由数百名编辑人工标注,包含详尽的节目简介、视频特征、唯一标识符及复杂的关系图谱。公司强调,被侵权的不仅是文字,还包括其专利性的“数据关联框架”。

诉状举证称,当用户要求 ChatGPT 描述如《权力的游戏》等热门影视剧时,AI 输出的内容与 Gracenote 编辑撰写的简介几乎完全一致。这表明相关数据已被直接复制并嵌入模型。

Gracenote 担心,如果 AI 公司可以免费爬取并提供这些数据,智能电视厂商等终端客户将不再购买授权服务,转而依赖 AI 生成的替代品,从而导致元数据市场的生态崩溃。Gracenote 表示,此前曾多次主动联系 OpenAI 商谈授权,但长期遭到拒绝或忽视,最终被迫通过法律手段维权。

对此,OpenAI 发言人回应称,其模型训练基于“公开可获得的数据”,符合现行版权法下的“合理使用”原则。

via AI新闻资讯 (author: AI Base)
OpenAI 升级 Atlas 浏览器:支持多账号登录,实现工作与生活数据分离

OpenAI 近期对其 AI 浏览器 Atlas 进行了重要功能更新,正式支持多 ChatGPT 账号登录。这一更新旨在解决用户在单一浏览器中无法平衡多重身份的使用痛点。

Atlas 浏览器产品负责人亚当·弗莱表示,支持账号切换是用户反馈中呼声最高的功能之一,也是许多人将其作为主力浏览器的最后一道障碍。

用户现在可以在同一个 Atlas 浏览器中,通过独立配置文件分别登录个人、工作及学校账户。不同账号下的对话历史、浏览偏好及个性化数据将完全分开,确保工作产出与私人生活互不干扰,提升了隐私安全性。

自去年发布以来,Atlas 保持着每周更新的节奏。除多账号支持外,目前已集成了标签页自动组织、插件导入、标签重命名及分组等主流浏览器必备功能。

此次更新标志着 Atlas 正在从一个“实验性 AI 工具”向“成熟的生产力浏览器”转型,进一步缩小了与 Chrome、Edge 等传统浏览器在基础易用性上的差距。

via AI新闻资讯 (author: AI Base)
AI智能体OpenClaw催生反向服务,“上门卸载”业务走红二手平台

近日,代号“小龙虾”的AI智能体OpenClaw在引发全球关注的同时,其衍生的商业服务生态正呈现出独特的双向化趋势。继此前涌现的大量“上门安装与部署”业务后,社交媒体及二手交易平台近期针对该模型推出了“专业彻底卸载”服务。

据调研显示,此类服务涵盖远程操作与上门处理,定价区间因服务形式差异分布在20元至299元不等,标志着AI工具的售后管理已成为细分市场的新增长点。

尽管卸载服务的客单价普遍低于安装部署,但其市场需求正随产品渗透率的提升而同步增长。多位服务提供商表示,目前已有稳定的咨询客群,用户核心诉求主要集中在规避潜在的隐私安全风险以及控制因模型运行产生的高额算力与API成本。由于卸载流程相较于环境配置及使用教学更为标准化且耗时较短,相关从业者更倾向于将其作为一种低成本的高频业务进行推广。

这一现象折射出当前AI Agent落地过程中的行业痛点。当复杂的AI智能体深入用户本地化环境,其部署门槛与后期运维的复杂度正迫使非技术背景用户寻求专业技术支撑。从“全民部署”到“付费卸载”的转变,不仅反映了市场对AI工具认知趋于理性,也提示开发者与厂商在追求功能迭代的同时,需进一步优化AI产品的易用性与退出机制,平衡高性能与数据安全及运行成本之间的关系。

via AI新闻资讯 (author: AI Base)
厨房“黑科技”:Nosh One 机器人厨师发布,1500 美元实现烹饪全自动化

对于厌倦了备餐和刷锅的家庭厨师来说,Nosh Robotics 公司推出的 Nosh One 机器人厨师或许是终极解决方案。这款售价1499美元的智能家电号称能实现“从食材到餐桌”的完全自动化,无需人工干预即可独立完成晚餐。

目前,该产品已在 Kickstarter 开启预售,并计划于今年夏季开始向首批用户发货。

Nosh One 的核心功能与操作流程:

● 全自动烹饪逻辑:用户只需将切好的食材放入指定的分类托盘并选择食谱。机器会自动在精确的时间点投放食材、进行搅拌,并利用内置的人工智能摄像头实时监控烹饪进度。
● 海量云端食谱:系统内置超过500道菜肴。此外,用户只需通过自然语言描述想吃的菜品,其集成的 AI 即可自动生成相应的烹饪逻辑和食谱。
● 远程智能操控:通过配套的应用程序,用户可以预约用餐时间、编辑食谱,并在菜肴出锅时收到即时通知。
● 订阅服务模式:公司推出了 Culinary+ 订阅服务,允许用户解锁全部食谱库,并获得每年自定义50道私房菜的权限。

尽管 Nosh One 表现抢眼,但市场竞争依然激烈。业内指出,其面临着来自 Posha 等同类产品的直接竞争,后者在价格、工业设计及 AI 自动烹饪功能上与 Nosh One 高度重合。

via AI新闻资讯 (author: AI Base)
谢赛宁团队发布首个多人视频世界模型 Solaris,采用昆仑万维 Matrix-Game2.0底座

近日,DiT(Diffusion Transformers)作者、纽约大学助理教授谢赛宁团队正式发布全球首个多人视频世界模型 Solaris。该模型以昆仑天工于2025年8月开源的通用场景实时长序列交互式生成世界模型 Matrix-Game2.0为技术底座,成功在《我的世界》(Minecraft)中验证了多玩家协同感知能力。

Solaris 通过引入多人自注意力层实现了玩家间的高效信息交换,在建筑一致性与玩家视觉对齐等复杂交互场景中,其表现显著优于此前业内唯一的多人方案 Multiverse。

作为 Solaris 的核心支撑,Matrix-Game2.0的开源不仅填补了交互式生成世界模型的技术空白,更展现了国产开源底座在全球前沿 AI 研究中的关键价值。

值得关注的是,由谢赛宁担任联合创始人兼首席科学官、图灵奖得主 Yann LeCun 于2026年1月创立的 AI 公司 AMI,近期已宣布完成10.3亿美元种子轮融资,估值达到35亿美元。

此番 Solaris 的技术突破与 AMI 的资本热度,共同印证了世界模型在迈向通用人工智能(AGI)进程中的巨大潜力。Matrix-Game2.0的持续演进与落地,将为全球开发者探索多人协作、实时交互等前沿 AI 应用提供重要的技术基石。

Matrix-Game2.0开源地址

技术报告:

https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

项目主页:

https://matrix-game-v2.github.io/

HuggingFace地址:

https://huggingface.co/Skywork/Matrix-Game-2.0

GitHub地址:

https://github.com/SkyworkAI/Matrix-Game

via AI新闻资讯 (author: AI Base)
亚马逊获法院禁令:禁止PerplexityAI代理Comet在平台购物并要求删除数据

2026年3月10日,旧金山联邦法院正式向亚马逊发出禁令,限制人工智能初创公司Perplexity使用其AI浏览器代理 Comet 在亚马逊平台上执行购物任务。此次判决源于亚马逊于去年11月发起的诉讼,指控Perplexity在代表真实用户购物时未披露代理身份,且在收到停止操作要求后仍无视平台规则。

法官玛克辛·切斯尼在裁定中指出,亚马逊提供了强有力的证据,证明Perplexity在未经授权的情况下访问了受密码保护的账户。根据法院要求,Perplexity必须删除所有非法采集的亚马逊数据,并获得一周的上诉缓冲期。

此案件不仅是单一的法律纠纷,更揭示了AI代理在执行复杂商业任务时面临的伦理与技术边界挑战。目前,OpenAI虽然将产品研究与在线购物视为聊天功能的关键,但尚未实现直接结账功能。

值得注意的是,亚马逊近期已成为OpenAI的主要投资者,此举被视为亚马逊在规范外部AI行为的同时,试图掌控AI电商入口的战略布局。随着法律对AI自动化行为定义的日益明确,未来AI代理在电商领域的渗透将面临更严苛的合规性审查。

via AI新闻资讯 (author: AI Base)
谷歌 Gemini 全面入驻 Workspace,谷歌 AI 助手正式开启全流程办公协同

在生成式 AI 改变办公效率的浪潮中,谷歌再次祭出了杀手锏。据科技媒体 Engadget 报道,谷歌正在其Workspace应用中深度更新GeminiAI 助手,实现了从文稿起草、表格构建到幻灯片设计的全面智能化。这意味着,那个曾经只能聊天的 AI,现在正正式成为你桌面上“会干活”的数字同事。

文档与邮件:一键提取,秒出初稿

在Docs文稿中,Gemini展现了强大的整合能力。它能够自动从云端硬盘、Gmail 邮件、Chat 对话甚至是广袤的网络中提取上下文信息,并迅速生成一份逻辑清晰的初稿。更令人惊艳的是,AI 还可以精准匹配用户参考文稿的写作风格,让生成的内容不再是冷冰冰的“机器人语”,而是更具个性化的表达。

表格与数据:效率提升9倍的“魔法填充”

对于繁琐的表格工作,Gemini在Sheets中引入了自然语言生成能力。用户只需输入简单的指令,AI 就能构建完整的电子表格,并自动规整数据。通过“用 Gemini 填充”功能,原本耗时的单元格整理变得瞬间可得。官方的一项研究数据显示,AI 的处理效率最高可达人类的 9倍

演示文稿:单页 PPT 衍生完整报告

在Slides幻灯片领域,Gemini解决了“做 PPT 难”的痛点。它支持根据用户提供的一页 PPT 内容,自动推演出逻辑连贯、视觉统一的完整演示文稿。从大纲到设计,AI 正在重塑职场人的汇报方式。

测试版上线:首批覆盖高级订阅用户

据悉,谷歌已于近日开始向 AI Ultra 订阅用户及GeminiAlpha 企业客户推送该测试版。目前,该项功能优先支持英文环境。

随着Gemini与Workspace的深度合体,办公软件正从单纯的“创作工具”进化为“协作伙伴”。对于广大开发者和职场人来说,这不仅是生产力的解放,更是 AI 基础设施化进程中的又一个关键里程碑。

via AI新闻资讯 (author: AI Base)
3826 亿港元!MiniMax 市值正式超越百度,大模型格局迎来“惊天大逆转”

2026 年 3 月 10 日,中国 AI 产业的版图上写下了具有里程碑意义的一笔。今日港股收盘,AI 大模型独角兽MiniMax股价大幅飙升,收盘涨幅超过 22%。凭借这一强势表现,MiniMax的总市值冲上 3826 亿港元,正式超越老牌互联网巨头百度(总市值 3322 亿港元)。

从曾经的“大模型六小龙”到如今市值登顶,MiniMax的上位不仅是资本市场的狂欢,更是 AI 商业化逻辑的一场胜利。

营收激增 158.9%:不仅有算力,更有财力

MiniMax最新披露的财务数据显示,其商业化进程远超市场预期。期内,公司总收入达到 7903.8 万美元,同比暴增 158.9%

更令行业瞩目的是其极其健康的收入结构。MiniMax超过 70% 的收入来自国际市场,这标志着中国大模型已经成功摆脱了单纯的国内卷,在复杂的全球市场中建立了极强的竞争力。同时,其毛利率已提升至 25.4%,毛利达 2007.9 万美元,经调整净亏损大幅收窄至 2.5 亿美元,展现出极强的抗风险与盈利潜力。

百度 AI 转型的防御战:虽然稳健,但略显沉重

相比之下,作为中国 AI 领域的“黄埔军校”,百度虽然在 2025 年交出了 1291 亿元总营收的稳健成绩单,其中 AI 业务贡献了 400 亿元,但在资本市场的想象力上,显然正面临新兴势力的严峻挑战。

百度Q4 总营收为 327 亿元,同比仅增长 5%。虽然其 AI 业务收入已占到一般性业务收入的 43%,且自动驾驶“萝卜快跑”已落地瑞士,但面对MiniMax这种开盘即涨 42%、随后一路狂奔的“AI 原生力量”,百度亟需在市值保卫战中寻找更具爆发力的增长点。

大模型下半场:全球化与盈利能力的终极 PK

MiniMax 市值超百度这一历史性的交叉,预示着大模型产业的竞争重心已经彻底发生位移。

如果说 2024 年是在拼“参数”和“打榜”,2025 年是在拼“落地”,那么进入 2026 年,能否在全球市场换回真金白银、能否将毛利率持续拉升,才是决定谁能稳坐钓鱼台的关键。随着MiniMax稳站 3800 亿关口,属于中国 AI 新势力的黄金时代,或许才刚刚开启。

via AI新闻资讯 (author: AI Base)
美参议院批准使用谷歌等三大AI聊天机器人

周一,美国参议院的一名高层管理人员批准助手们在公务中使用三款AI聊天机器人。这表明,此类AI产品在全球工作场所中已得到广泛应用。根据备忘录,负责参议院电脑系统及安全事务的参议院警卫官办公室首席信息官表示,助手们可以使用已整合至参议院平台的微软Copilot和谷歌Gemini以及OpenAI的ChatGPT。该备忘录指出,Copilot“能够协助处理参议院的日常工作,包括起草和编辑文件、汇总信息、准备发言要点和简报材料,以及开展研究和分析”。备忘录文件补充称,与Copilot Chat共享的数据将保留在安全的Microsoft 365政府环境内,并受到与保护其他参议院数据相同的安全措施的保护。

—— 凤凰网科技纽约时报

via 风向旗参考快讯 - Telegram Channel
微软提交法庭文件力挺 Anthropic:国防部封杀令缺乏逻辑,将导致全行业“剧痛”

在 2026 年的 AI 权力博弈中,一场罕见的“全明星级别”声援正在上演。当地时间 3 月 10 日,科技巨头微软正式提交法庭文件,公开支持竞争对手Anthropic反抗美国国防部将其列为“供应链风险”的诉讼。这一举动标志着,面对行政权力的粗放干预,硅谷 AI 阵营正破天荒地放下门户之见,筑起统一战线。

微软主张:禁令太仓促,承包商“等不起”

在提交的意见书中,微软的立场非常鲜明:要求法院立即发布临时限制令,暂停执行五角大楼的封杀禁令。

微软严厉指出,五角大楼的决策过程极度不透明且缺乏法律依据。最令人诟病的是,虽然国防部给自己留了六个月的淘汰期,却要求成千上万的国防承包商在极短时间内重建依赖Anthropic的服务体系。这种“只许州官放火”的行为,将让供应商面临高昂的重建成本和潜在的业务中断。

史诗级抱团:OpenAI 与谷歌工程师集体出列

更让外界感到震惊的是,这场维权行动已经演变为整个 AI 工业界的集体请命。除了微软的官方背书,来自OpenAI 和谷歌的 37 名顶尖研究人员及工程师也已提交法庭意见书,共同支持Anthropic公司。

这些曾经在算法和市场份额上拼得你死我活的对手,如今在“程序正义”面前达成了一致。他们担心的不仅是Anthropic的遭遇,更是这种毫无预警的行政定性会成为悬在所有 AI 企业头上的达摩克利斯之剑。

回溯事件:特朗普政府的“风险认定”风波

此次冲突的导火索是 3 月 9 日特朗普政府做出的一项认定,将Anthropic列入“供应链风险”名单。这一认定几乎切断了这家 AI 新贵与所有政府相关业务的往来。Anthropic随即对国防部及相关联邦机构提起诉讼,指控该分类完全站不住脚。

科技与权力的终极博弈

当微软站出来为对手说话,这已经超越了单纯的商业竞争。正如界面新闻所述,这场诉讼的结果将直接定义未来 AI 企业与政府机构合作的边界。在 2026 年这个 AI 深刻改写地缘政治的节点,科技巨头们正试图用法律武器告诉五角大楼:创新的安全不应建立在拍脑袋的决策之上。

via AI新闻资讯 (author: AI Base)
RevenueCat发布2026订阅报告:AI应用年度留存率仅21%,流失速度快于传统应用30%

RevenueCat于2026年3月10日发布《2026年订阅应用现状报告》,披露了AI集成对移动应用留存率的复杂影响,指出尽管AI技术能显著提升早期转化,但难以转化为长期的用户忠诚度。

报告基于其平台上超过75,000家开发者、10亿笔交易及110亿美元年收入的大数据分析显示,虽然目前仅27.1%的应用集成了AI技术,但该比例正处于快速增长阶段,其中照片与视频类别以61.4%的占比领先,而游戏、旅游等领域渗透率较低。

核心数据显示,AI驱动型应用的年度留存率中位数仅为21.1%,显著低于非AI应用的30.7%;其月度留存率亦仅为6.1%,落后于非AI应用的9.5%。这种“高流失”特征在订阅取消率上表现尤为明显,AI应用用户取消年度订阅的速度比传统应用快30%,退款率中位数也高出20%。然而在变现效率方面,AI应用展现出极强的爆发力,其试用转化率(8.5%)比非AI应用高出52%,下载变现率亦高出约20%,且付费用户产生的月度与年度实际生命周期价值(RLTV)均大幅领先于传统应用。

这种“高转化、低留存”的背离现象反映出当前AI应用市场仍处于技术驱动的尝鲜期,用户倾向于在不同产品间快速切换以寻找最新技术,导致应用面临更剧烈的收入波动与体验瓶颈。从行业视角看,AI集成已不再是单纯的盈利保障,如何从初期的流量收割转向深层的用户价值留存,将成为AI应用开发者在下一阶段竞争中必须攻克的关键课题。

via AI新闻资讯 (author: AI Base)
福特推出 Ford Pro AI:为商业车队打造的“数据管家”

福特汽车(Ford)今日宣布为其商业车队及远程信息处理软件客户推出一项名为 Ford Pro AI 的全新生成式 AI 服务。该系统能够分析由联网车辆产生的海量数据——包括车速、安全带使用情况及发动机健康状况等,并将其转化为车队管理者的决策建议。

目前,Ford Pro 远程信息处理软件的付费订阅用户已超过 84 万,这款 AI 助手的加入旨在进一步简化他们的工作流程。

功能亮点与技术特性:

● 交互式对话界面:系统以 AI 聊天机器人的形式嵌入软件中,界面类似于 ChatGPT。管理者可以直接询问:“如何降低燃油成本?”或要求其针对特定车辆的运行状况撰写总结邮件。
● 消除 AI “幻觉”:不同于通用的语言模型,Ford Pro AI 采用多智能体架构。福特强调,该系统基于“厂商级”的原始车辆数据运行,确保生成的每一条建议都具备高准确性和可信度。
● 全方位数据洞察:AI 不仅能监控驾驶行为(如急刹车、超速),还能实时跟踪机械损耗,帮助管理者在故障发生前进行预防性维护。
● 品牌技术升级:福特一直在加速 AI 布局,此前已在智能手机应用中集成聊天机器人辅助普通车主,而此次更新则标志着其商用车业务完成了智能化的关键转身。

福特 Pro 智能部门总经理 Kevin Dunbar 表示,这款工具的核心价值在于将数据转化为“结构清晰、可操作的指令”,从而大幅降低车队管理的认知负担。

via AI新闻资讯 (author: AI Base)
微信秘密研发AI Agent:拟打通数百万小程序,将于2026年中开启测试

腾讯微信团队正秘密研发一款高优先级AI Agent(智能体)产品,旨在全面接入微信生态内数百万个小程序。该项目由微信技术负责人周颢负责,直接向张小龙汇报,并于2025年上半年启动。

据了解,该Agent计划于2026年年中开启灰度测试,并争取在第三季度逐步放量。核心功能层面,该产品拟实现跨应用的任务执行能力,用户通过自然语言指令即可调用打车、外卖、订票及缴费等第三方服务,将微信从“社交入口”升级为“智能任务中心”。

在技术选型上,微信团队保持了审慎的开放态度。尽管腾讯已从OpenAI招募研究员姚顺雨负责混元大模型体系升级,但微信Agent目前并未完全押注混元,而是同步测试了智谱、阿里、DeepSeek等外部大模型及自研小模型,以确保在复杂多步骤任务处理中的稳定性。

这一动作被视为腾讯在AI应用层面的关键反击。此前,腾讯虽推出独立App“元宝”,但在月活跃用户数上与字节跳动“豆包”、阿里“通义”仍存在差距。

此次微信深度介入Agent赛道,标志着大模型竞争已从“对话问答”转向“执行协作”。凭借14亿月活用户的底座优势与日臻成熟的小程序生态,微信Agent有望重塑移动互联网的操作逻辑。若能成功克服外部模型整合与私域数据调用的技术壁垒,微信将极有可能成为国内覆盖面最广的AI智能助手平台,从而掌握下一代AI原生应用的流量入口。

via AI新闻资讯 (author: AI Base)
Gemini 挺进五角大楼:谷歌 AI 智能体覆盖美国国防部 300 万员工

谷歌宣布已向美国国防部超过 300 万名文职与军职人员部署 Gemini AI 智能体。这是谷歌与五角大楼合作关系的重大进展,标志着主流 AI 技术正式进入美国核心防务体系的行政与运营层面。

美国国防部负责研究与工程事务的副部长埃米尔·迈克尔表示,这些 AI 工具目前仅获准在非机密网络中使用,未来是否扩展至机密或最高机密系统仍需进一步讨论。

首批 AI 智能体的功能与应用数据:

● 行政自动化:首批上线的 8 个定制智能体专注于处理繁琐的行政事务,包括自动整理会议纪要、辅助编制部门预算,以及审查行动计划是否符合国家防务战略。
● 自主创建权限:除了官方提供的工具,国防部工作人员还可以通过自然语言指令,自行创建满足特定需求的定制化 AI 智能体。
● 高频交互需求:自去年 12 月试运行以来,约 120 万名员工已通过专用门户提交了约 4000 万条提示词,处理了超过 400 万份文件,显示出军方内部对 AI 工具的强烈需求。
● 培训滞后挑战:尽管使用人数激增,但培训进度仍显缓慢。目前仅有约 2.6 万人完成了系统的 AI 培训课程,远低于实际使用人数。

尽管谷歌曾在 2018 年因“Project Maven”项目遭遇内部员工大规模抗议,并一度缩减军 事合作,但近年来公司已逐渐放宽限制。与此同时,五角大楼也在多元化其 AI 供应商阵营,在与 Anthropic 因安全限制问题产生分歧后,已分别与 OpenAI 和 xAI 达成合作,将技术引入受限网络。

via AI新闻资讯 (author: AI Base)
OpenAI发布ChatGPT动态视觉解释功能,支持 70 余项数理化公式实时交互

OpenAI于2026年3月10日宣布为ChatGPT推出“动态视觉解释”(Dynamic Visual Explanations)功能,标志着该人工智能交互模式从文本与静态图表向实时交互可视化的重要演进。

该功能允许用户通过操纵变量实时观察数学公式与科学关系的变化,例如在探索勾股定理或透镜方程时,用户调整数值即可瞬时看到几何图形或物理输出的相应反馈。目前,这一交互模块已覆盖包括欧姆定律、库仑定律、复利计算及二项式平方在内的70多个核心学术主题,并面向所有登录用户开放。

这一技术动作是OpenAI深化教育领域布局的关键步骤,旨在通过降低抽象概念的理解门槛,增强用户对复杂逻辑的直观感知。据官方数据显示,每周有超过1.4亿用户利用ChatGPT辅助数理化学习,新功能的加入与此前的“学习模式”及QuizGPT共同构建了更完整的AI教学生态。

与此同时,行业竞争也在加剧,谷歌的Gemini已于去年11月上线类似的可视化工具。这种从“答案提供者”向“交互式导师”的角色转变,预示着生成式AI正深度重塑在线教育的交互范式,将传统的单向知识传递转化为沉浸式的探索体验,尽管其对深度理解的实际转化率仍需教育界的进一步观察与验证。

via AI新闻资讯 (author: AI Base)
谷歌Gemini Embedding 2重磅发布!首款全多模态嵌入模型来了

谷歌于2026年3月10日前后正式推出Gemini Embedding2,这是其首款基于Gemini架构的完全多模态嵌入模型。目前已在Gemini API和Vertex AI上开放Public Preview,开发者可立即调用体验。

统一嵌入空间,打破模态壁垒  

Gemini Embedding2的核心创新在于,将文本、图片、视频、音频和文档(PDF)等多种数据类型映射到同一个统一的嵌入向量空间中。这一设计彻底实现了跨模态检索与分类,支持超过100种语言,真正让不同模态数据“说同一种语言”。

混合输入能力,精准捕捉语义关联  

模型原生支持混合模态输入,例如同时传入图片+文字、视频+音频等复杂组合。系统能够深度理解不同媒体之间的语义关联,而非简单并列处理,为多媒体内容理解带来质的飞跃。

音频原生处理,无需ASR转录  

另一大突破是音频直接嵌入功能。用户可直接输入原始音频文件,模型无需先进行语音转文本(ASR),即可输出高质量嵌入向量。这不仅大幅简化了多模态数据处理流程,还显著降低了延迟和计算成本。

多场景落地,RAG迎来新纪元  

凭借统一架构和强大跨模态能力,Gemini Embedding2可广泛应用于RAG检索增强生成、语义搜索、情感分析、内容聚类、法律证据检索等场景。AIbase编辑认为,这一模型的发布将显著降低企业构建多模态AI应用的门槛,推动AI从“文本时代”全面迈向“全感知时代”。

via AI新闻资讯 (author: AI Base)
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]