https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
破解高退货率难题:微盟推出“AI试衣”助力零售电商智能化升级

在电商赛道竞争白热化的今天,服饰类品牌始终面临着消费者决策难和退换货率居高不下的顽疾。针对这一行业痛点,微盟集团近期正式推出了“AI试衣”解决方案,旨在通过前沿技术重塑零售购物体验。

技术赋能:从“看图购物”到“虚拟试穿”

微盟的“AI试衣”并非简单的视觉展示,而是一套深度的智能化服务体系:

高度还原的试穿感:依托自研模型与深厚的行业知识库,系统能提供高度写实的虚拟试穿效果,降低消费者的决策门槛。

智能穿搭推荐:通过精准的服装商品识别技术,AI 能为用户提供个性化的穿搭建议,提升客单价与转化效率。

大模型深度集成:该功能借助了阿里通义千问大模型的能力,实现了对 C 端消费者和 B 端品牌商的全覆盖。

战略布局:构建数据闭环与竞争壁垒

微盟技术副总裁肖锋强调,AI 在零售业尤其是服饰行业具有巨大的商业价值。

全场景延伸:除了现有的线上应用,微盟还计划将“AI试衣”扩展至 B 端市场,并进一步探索线下门店的交互场景。

价值重估:通过 AI 技术形成的数据闭环,不仅强化了微盟的服务能力,更展现了其在 AI 应用爆发期下的估值潜力。

行业影响:零售电商的效能革命

对于商家而言,“AI试衣”最直接的贡献在于提升转化率的同时,大幅降低了因尺码或风格不符带来的退货成本。这种由技术驱动的体验升级,正成为零售电商破解增长瓶颈的关键钥匙。

via AI新闻资讯 (author: AI Base)
🚀 DeepSeek 发布 OCR-2 模型支持多场景识别

DeepSeek 在 Hugging Face 平台正式发布 DeepSeek-OCR-2 光学字符识别模型。该模型支持动态分辨率处理,默认配置为 (0-6)×768×768 结合 1×1024×1024 分辨率,涵盖文档转换、图像 OCR 及图表解析等多种功能。技术架构方面,模型基于 transformers 框架开发,要求 Python 3.12.9 与 CUDA 11.8 运行环境,并支持 NVIDIA GPU 推理。用户可通过不同提示词实现文档转 Markdown 等操作。目前,项目已在 GitHub 发布关于模型推理加速及 PDF 处理的详细指导。

(科技圈)

via 茶馆 - Telegram Channel
DeepSeek 发布 OCR-2 光学字符识别模型

DeepSeek 在 Hugging Face 平台发布 DeepSeek-OCR-2 光学字符识别模型。该模型支持动态分辨率处理,默认配置为 (0-6)×768×768 + 1×1024×1024 分辨率,可处理文档转换、图像 OCR、图表解析等多种任务。

模型基于 transformers 框架,支持 NVIDIA GPU 推理,要求 Python 3.12.9 和 CUDA 11.8 环境。用户可通过不同提示词实现文档转 Markdown、图像 OCR、图表解析等功能。项目在 GitHub 提供了模型推理加速和 PDF 处理的详细指导。

Huggingface

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
研究揭示就业寒冬早于 ChatGPT 问世,AI 冲击波早在2022年初已显现

长期以来,公众普遍认为 AI 对就业市场的冲击始于2022年11月 ChatGPT 的发布,但由匹兹堡大学摩根·弗兰克领导的最新研究通过大数据分析打破了这一固有认知。研究团队深度挖掘了美国劳工部失业数据、1060万份 LinkedIn 个人资料及300万份大学课程,发现人工智能相关职业的就业前景早在2022年初——即大语言模型热潮爆发前数月——就已经开始出现下滑趋势。

研究显示,2022年春季,受大语言模型影响较大的计算机与数学等职业,其失业风险便已开始攀升。尽管在疫情期间,这些技术工种因易于远程办公而表现出极强的就业韧性,失业风险一度比建筑等传统领域低20% 至80%,但这种优势在2022年初迅速收窄。

该研究对“ChatGPT 是失业潮起点”的简单叙事提出了质疑,表明劳动力市场对技术变革的反应远比公众感知的更早、更敏锐,企业可能在生成式 AI 普及前就已在针对自动化趋势调整人才结构。

via AI新闻资讯 (author: AI Base)
OpenAI正在研究ChatGPT广告的收费标准

OpenAI为ChatGPT上的广告开出了高价,约为每千次浏览60美元,即Meta平台广告通常价格的三倍。尽管价格更高,OpenAI不会向广告商提供谷歌和Meta那样详细的信息,例如用户是否在看到ChatGPT上的广告后采取了行动如进行购买。ChatGPT的早期广告商将仅获得关于其广告效果的高层次数据,例如总广告浏览量或总点击量。OpenAI未来可能会向广告商提供更多细节,但在本月早些时候宣布ChatGPT引入广告时,OpenAI公司向用户承诺将永远不会将您的数据出售给广告商,并会保护ChatGPT对话的隐私。

—— Theverge

via 风向旗参考快讯 - Telegram Channel
“十五五”新风口:太空光伏与建筑 AI 应用正加速驶入快车道

随着“人工智能+”被正式纳入国家“十五五”规划,AI 技术正以前所未有的速度渗透进各传统行业。国泰海通证券近日发布的研报指出,除了备受瞩目的太空光伏外,AI 在建筑工程、交通治理及低空经济等领域的应用落地正成为新的行业增长极。

太空光伏:能源领域的“星辰大海”

在卫星电源系统与新型太阳能电池研发方面,上海港湾旗下的伏曦炘空已取得实质性进展,特别是在钙钛矿太阳能电池的研发上展现出强劲的技术储备。这一领域的突破,预示着清洁能源的获取正从地面向外太空延伸。

AI+多场景落地:从智慧交通到垂直建筑

“人工智能+”的深度融合正为多个垂直领域带来效率革命:

● 智慧交通与低空经济:苏交科与深城交正积极推进 AI 在交通治理及新兴低空场景中的建设,助力构建更智能的空间流向系统。
● 工程设计垂直应用:华设集团与设计总院专注于工程设计领域的垂直 AI 研发,旨在通过算法优化提升建筑设计的精准度与创造力。

挑战与机遇并存

尽管 AI 产业趋势不可阻挡,但研报也提醒投资者需关注潜在的宏观经济政策波动及项目推进速度放缓等风险。然而,在政策与技术的双重驱动下,建筑 AI 与太空光伏的协同发展,正为构建智慧社会打开新的想象空间。

via AI新闻资讯 (author: AI Base)
输入法进入“大模型”时代:搜狗输入法 AI 用户破亿,语音准确率达 98%

随着 AI 技术的深度渗透,国民级输入工具正迎来质的飞跃。近日,腾讯搜狗输入法正式发布20.0版本,宣布实现全面 AI 化。这一迭代不仅是功能的堆砌,更是基于大模型底座对交互逻辑的重塑,标志着输入法正式从“工具时代”跨入“智能助手时代”。

三大核心升级:更准、更快、更聪明

在本次20.0版本中,搜狗输入法针对语音、打字、翻译三大高频场景进行了底层技术升级:

AI 语音:识别更丝滑

延时大幅降低:语音识别延时降低了40%,极大提升了即时沟通的爽快感。

准确率天花板:识别准确率已提升至98%,方言识别能力也同步增强了30%。

智能纠错:针对轻声识别、语序混乱等痛点进行了深度优化,并提供“一键替换”功能,让口语表达秒变书面语。

AI 打字:深度理解语境

依托十亿级词库规模,结合大模型对上下文的理解能力,候选词结果将更贴合用户当前的交流语境。

AI 翻译:混元大模型加持

接入腾讯混元大模型,支持超过30种语言 的“输入即译”,打破跨境沟通的语言壁垒。

体验优化:还键盘一份清爽

除了硬核技术的提升,新版本在用户体验上也释放了诚意:

广告一键清理:新增“一键关闭键盘广告”功能,力求为用户打造更纯净、无干扰的输入环境。

市场反响:日均语音请求近20亿次

数据证明了 AI 化的巨大成功。目前,搜狗输入法的 AI 用户规模已正式突破1亿大关。更惊人的是,其日均 AI 语音使用次数已接近20亿次,显示出用户对智能输入方式的高度粘性与信任。

作为深圳市腾讯计算机系统有限公司旗下的重要产品,搜狗输入法的全面 AI 化不仅提升了输入效率,也为后续 AI 在端侧设备的进一步落地提供了广阔的想象空间。

via AI新闻资讯 (author: AI Base)
腾讯搜狗输入法发布 20.0 重磅版本全面AI

腾讯搜狗输入法正式宣布全面 AI 化,重磅发布20.0.0纪念版本。 本次升级核心围绕 AI 语音、AI 翻译、AI 打字三大维度,依托腾讯混元大模型能力,实现了输入效率与智能化体验的跨越式提升。

在新版本中,AI 语音输入表现尤为亮眼。 基于腾讯混元研发的 AI 语音大模型,识别延时大幅下降40%,整体准确率推高至98%,方言识别准确率亦同步提升30%。 值得一提的是,新版针对“图书馆、深夜”等需要轻声耳语的场景进行了专项优化:在低至20分贝的音量下,识别准确率仍能稳定维持在97%。 此外,模型还能智能重整语序混乱的口语,并提供“的地得”等易混音一键替换功能,让表达更显专业。

AI 翻译方面,搜狗输入法深度接入了混元冠军级翻译模型,支持超过30种语言。 翻译功能被无缝嵌入输入流中,用户在聊天或阅读时无需切换 App 即可实现“输入即译”,极大提升了跨语言交流效率。

而在 AI 打字领域,通过对上下文语境和用户意图的深度理解,候选词结果更加精准。 热门词汇的首选率提升超过10%,并实现了影视名、明星及网络热梗的每日更新,真正做到了“今天新剧,明天即打”。

除了 AI 能力的全面爆发,本次版本还上线了极具诚意的体验优化——一键关闭键盘广告,进一步回归输入工具的纯净本质。

via AI新闻资讯 (author: AI Base)
OpenAI公司总裁是特朗普的超级捐助者

OpenAI 的联合创始人兼长期总裁格雷格·布罗克曼并非仅仅向主要的亲特朗普超级政治行动委员会进行了一笔普通的捐款 —— 根据近期一份申报文件,布罗克曼和妻子安娜在2025年 9 月的捐款合计达到了所有捐款中的最高额度,总计向MAGA Inc.捐赠了2500万美元。布罗克曼夫妇的捐款构成了该六个月筹款周期中近四分之一的份额。这是科技公司高管与美国特朗普政府拉近关系的一系列最新例证,与此同时,政府正大力推动支持人工智能行业,并削弱州级监管措施,这类措施曾遭到OpenAI等AI公司的普遍反对。

—— TechCrunch

via 风向旗参考快讯 - Telegram Channel
百度文心APP开启行业首个“多人多Agent”群聊内测

1 月 27日,百度旗下文心APP正式开启行业首个“多人、多Agent”群聊功能的新一轮内测。作为国内首个推出AI群聊功能的应用,文心APP此次打破了传统“一对一”的交互模式,实现了AI社交形态的重大跨越。

核心亮点:

● 多智能体共存: 同一群聊可同时调动“群聊助手”、“健康管家”等多个垂类Agent,形成多维度的“AI智囊团”。
● 主动介入机制: AI助手不仅能深度理解上下文,还能根据讨论氛围判断时机,无需用户@或提及,即可在关键时刻主动“插话”并提供建议。
● 交互范式升级: 该功能将AI从被动响应工具转化为具备社交属性的参与者,极大提升了从家庭生活到职场协作的沟通效率。

目前,文心APP正定向邀请用户参与测试,这一前瞻性探索标志着国内AI应用正式迈入“多人+多AI”协同的新时代。

via AI新闻资讯 (author: AI Base)
ChatGPT 广告时代开启:千次展示 60 美元,主打“高转化”与“强隐私”

随着 AI 商业化进程加速,OpenAI正式揭开了 ChatGPT 广告业务的神秘面纱。据最新消息,ChatGPT已制定详细的广告投放方案,旨在通过其独特的“高意图场景”重新定义 AI 时代的广告价值。

高昂定价:三倍于 Meta 的底气

根据 The Information 披露的消息,OpenAI计划将广告投放价格定为 每1000次展示(CPM)60美元。

市场对比:这一价格是社交媒体巨头Meta广告均价的三倍有余。

转化逻辑:高定价背后是极高的转化预期。不同于社交媒体的无意识刷帖,ChatGPT用户通常带有明确目的(如咨询维修、选购建议),在回答末尾精准推送的相关服务将具备更高的点击率与购买转化率。

极简分析:不提供详细数据追踪

尽管收费昂贵,但OpenAI在数据反馈方面显得颇为“克制”:

数据脱敏:目前仅计划提供总浏览量和总点击量等高级数据,不会提供像Google或Meta那样详尽的用户行为分析及购买追踪。

隐私承诺:OpenAI明确表示不会向广告商出售用户私密数据,并将确保对话的私密性,在隐私保护上力求优于传统搜索巨头。

投放机制:谁会看到广告?

覆盖人群:首批广告将在未来几周内上线,主要面向 免费版ChatGPT 及最新的 ChatGPT Go订阅用户。

智能匹配:广告不会出现在所有回答中,而是由系统判断问答内容是否与广告商策略匹配时才会在结尾展示。

未成年保护:若系统判断用户年龄可能不满18周岁,将严格屏蔽所有广告内容,且该过程由内部系统自动完成,不受用户干预。

通过这套方案,OpenAI正试图在保障用户体验与商业变现之间寻找一种新的平衡。

via AI新闻资讯 (author: AI Base)
阿里健康医学AI应用“氢离子”上线新功能,支持全球医学文献日更追踪

1月27日,阿里健康旗下医学AI应用“氢离子”发布重大更新,正式上线**“动态证据定位”**功能。

该功能核心在于将传统的“静态引用”升级为**“活证据”。针对临床与科研中AI虚假信息(幻觉)的痛点,新系统不仅能精准定位原文语句,还能同步校验信息的时效性、权威性与逻辑一致性**。

依托独创的“三维循证架构”,氢离子实现了对全球医学指南与文献的日更追踪。当医生查询复杂临床数据(如厄达替尼试验终点)时,系统可直接标注可点击的引用标签,支持从结论到原始文献的无缝追溯。产品负责人表示,此举旨在通过精准提取关键语句和动态权重筛选,让医学AI真正达到“可验、可信、敢用”的专业标准。

via AI新闻资讯 (author: AI Base)
全国首例 AI “幻觉”侵权案宣判:平台无责,AI 自拟的“十万赔偿”无效

近日,杭州互联网法院对全国首例因生成式 AI “幻觉(Hallucination)”引发的侵权纠纷案作出了一审判决。法院认定涉案 AI 平台已尽到合理注意义务,不存在主观过错,依法驳回了原告的全部诉讼请求。

案件起因于 2025 年 6 月,用户梁某在利用某 AI 插件查询高校报考信息时,AI 生成了该校主校区地址的不准确信息。即便在梁某指出错误后,该 AI 仍坚称信息属实,甚至公开承诺:“如果生成内容有误,我将赔偿您 10 万元,您可前往杭州互联网法院起诉。”随后,梁某以此为由将研发公司告上法庭,要求赔偿 9999 元。

杭州互联网法院审理后,针对生成式 AI 的法律责任明确了三大核心裁判要点:

● AI 不具主体资格:AI 生成的“赔偿承诺”不代表背后的平台公司真实意思表示,因此不具备法律效力。
● 适用一般过错原则:AI 服务由于缺乏固定的质检标准,且平台难以完全控制生成内容的随机性,故不适用“产品责任”的无过错原则。
● 平台已尽注意义务:被告平台已在用户协议及欢迎页面显著提醒内容可能存在不准确性,并采用了 RAG(检索增强生成)技术来降低幻觉风险,已履行了合理的管理职责。

法院在判决中特别提醒,公众应理性认知 AI 的技术局限性,不应将其视为绝对的“知识权威”。在涉及报考、医疗或法律等重大决策时,用户务必通过官方渠道进行多方验证。

via AI新闻资讯 (author: AI Base)
DeepSeek-OCR 2 正式发布:引入“视觉因果流”,文档识别更接近人类逻辑

DeepSeek 宣布推出新一代文档识别模型 DeepSeek-OCR2。 该模型在视觉编码器设计上实现了重大突破,旨在解决传统模型在处理复杂版式文档时逻辑感缺失的问题。

DeepSeek-OCR2的核心亮点在于自研的 DeepEncoder V2编码器。 不同于传统视觉模型按照从左到右、从上到下的固定栅格顺序处理图像,新模型引入了“视觉因果流”概念。 它能够根据图像语义动态调整信息的处理顺序,在识别文字前先对视觉内容进行智能排序,从而使机器的阅读逻辑更贴合人类对表格、公式及复杂文档的理解方式。

在架构上,模型沿用了高效的编解码框架。 图像经 DeepEncoder V2进行语义建模和顺序重组后,交由混合专家架构(MoE)语言模型进行解码。 实验数据表明,在 OmniDocBench v1.5基准测试中,DeepSeek-OCR2的整体得分达到91.09%,较前代提升了3.73%。 尤其在阅读顺序准确度方面,其编辑距离显著降低,表明模型对内容结构的还原能力更强。

此外,DeepSeek-OCR2在实际应用中也展现出更强的稳定性。 在 PDF 批处理及在线日志数据的测试中,识别重复率均有明显下降。 这意味着模型在保持低资源开销的同时,提供了更高质量、更具逻辑性的识别输出。

划重点:

● 动态语义排序:DeepSeek-OCR2通过“视觉因果流”技术,打破了传统固定栅格的识别顺序,实现了基于语义的动态阅读。
● 性能跨越式提升:在权威基准测试中,新模型识别性能提升3.73%,阅读顺序准确度显著增强。
● 高效 MoE 架构:模型继续采用 MoE 架构解码,在不增加算力负担的前提下,实现了更高的识别精度与可靠性。

via AI新闻资讯 (author: AI Base)
Kimi 进化!发布 K2.5 模型:视觉理解、代码复现与“Agent 集群”协同

月之暗面正式发布并开源 Kimi K2.5模型。 作为 Kimi 迄今为止最智能、最全能的模型,K2.5不仅在视觉、代码及通用任务上取得了开源界领先水平,更通过原生的多模态设计,实现了从单一对话到复杂任务执行的全面进化。

Kimi K2.5最大的突破在于其“触手可及”的交互门槛。 用户可以通过上传拍照、截图甚至录屏,让 Kimi 直接理解背后的逻辑。 在前端开发测试中,K2.5仅凭一段录屏就能复现完整的交互逻辑并生成专业代码。 此外,该模型已深度掌握 Word、Excel、PPT 等办公软件的高阶技能,助用户实现准专业级的文档交付。

值得关注的是,Kimi K2.5首次引入了“Agent 集群”能力。 面对极其复杂的任务,它不再单打独斗,而是能自主创建自己的“分身”组成专业团队,并行处理上千个步骤。 实测显示,在处理大规模搜索场景时,Agent 集群通过分工协作,将运行效率最高提升了4.5倍。

目前,Kimi K2.5已在 Kimi 官网、最新版 Kimi App 及 Kimi API 开放平台同步上线。 同时,全新的编程助手 Kimi Code 也正式发布,支持集成到 VSCode、Cursor 等主流编辑器,全方位赋能开发者。

划重点:

● 视觉与代码双增强:Kimi K2.5支持通过图片或录屏直接进行编程辅助,大幅降低了从设计稿到代码实现的门槛。
● Agent 集群协作:从单一 Agent 进化为集群模式,支持调度百个分身团队作战,将复杂任务的执行效率提升数倍。
● 全能办公助手:具备 Word、Excel、PPT 等软件的中高阶处理能力,助力用户高效完成专业级办公任务。
● 开源与生态开放:Kimi K2.5继续保持开源,并配套发布了 Kimi Code 及 Agent SDK,推动技术平权与社区共建。

via AI新闻资讯 (author: AI Base)
机器人感知新高度:全球首个跨本体视触觉大模型数据集“白虎-VTouch”正式发布

在具身智能飞速发展的今天,如何让机器人拥有像人类一样灵敏的“触觉”感知,正成为行业突破的关键。2026年1月27日,国家地方共建人形机器人创新中心联合多家科研团队,正式发布了名为 “白虎-VTouch” 的跨本体视触觉多模态数据集。 这一成果不仅填补了大规模视触觉数据的空白,更为全球机器人开发者提供了一座极具价值的“数字矿山”。

海量数据沉淀:超6万分钟的“感官记忆”

作为目前全球规模最大的同类开源数据集之一,白虎-VTouch 在数据广度与深度上都实现了质的飞跃:

超长交互时长:包含超过60,000分钟 的机器人真实交互数据。

多维感官对齐:数据集深度整合了视觉影像、触觉反馈以及机器人关节位姿等多模态信息。

物理特性捕捉:通过高精度传感器记录,使 AI 能够学习到物体在接触过程中的细微物理变化与形变逻辑。

跨本体范式:打破硬件间的“感知壁垒”

该数据集最大的亮点在于其**“跨本体”**特性。 它不再局限于单一型号的机器人,而是涵盖了不同构型(如人形机器人、轮式机器人、机械臂等)的感知数据。 这种通用性的数据架构,能够帮助 AI 模型在不同硬件之间实现感知的快速迁移与泛化,让更多形态的机器人能快速掌握精细操作的能力。

赋能具身智能:从“看见”到“摸透”

长期以来,机器人的操作往往依赖于视觉,但在处理透明物体、光线昏暗环境或精细组装任务时,视觉往往会“失灵”。 “白虎-VTouch” 的发布,标志着机器人正从单一的“视觉主导”进化到“视触融合”的新阶段。 这一数据集将为家居家政、工业精密制造、医疗辅助等场景提供更坚实的底层支持。

随着该数据集的开源,全球机器人领域有望迎来一波感知算法的迭代潮。 当机器人的指尖不再冰冷迟钝,一个真正具备灵巧操作能力的具身智能时代正加速到来。

via AI新闻资讯 (author: AI Base)
💰 OpenAI 总裁 Greg Brockman 向特朗普超级政治行动委员会捐赠 2500 万美元

OpenAI 联合创始人兼总裁 Greg Brockman 及其妻子 Anna 于 2025 年 9 月向支持特朗普的超级政治行动委员会“MAGA Inc.”捐赠了 2500 万美元。披露文件显示,该笔款项占该机构六个月筹款总额的近四分之一。Brockman 表示,其参与政治旨在支持推动美国创新及政府与技术领域对话的政策。目前,特朗普政府正推动放宽 AI 行业监管,并试图削弱各州对 AI 技术的法律限制。OpenAI 尚未对此发表评论。

(科技圈)

via 茶馆 - Telegram Channel
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]