https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
硅基生物的“视力瓶颈”:顶级大模型视觉推理竟难敌 6 岁孩童?
在人工智能屡屡斩获各类博士级竞赛桂冠的今天,我们似乎默认了这些数字大脑已经全方位超越人类。然而,一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究,却给这种乐观情绪泼了一盆冷水。研究结果令人咋舌:即便是在这一赛道领跑的 Gemini 3 Pro Preview,其视觉推理能力也仅仅是小胜三岁幼儿,而面对六岁儿童的认知水平,它依然存在 20% 的能力断层。
这场被称为 BabyVision 的视觉推理“闭卷考试”,彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时,那些在数学难题面前谈笑风生的 AI 巨头们却纷纷翻车。
推理的“语言陷阱”:为何 AI 看不清世界?
为什么坐拥万亿参数的大模型,会卡在如此基础的视觉任务上?研究发现,症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时,习惯于先将图像翻译成文字描述,再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付,但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时,信息便在翻译过程中大量丢失。
视觉推理的四大“滑铁卢”
研究团队通过 BabyVision 基准,将大模型的视觉缺陷归纳为四大维度:
● 非言语精细细节缺失:大模型往往无法分辨像素级的几何差异,在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。
● 流形一致性丢失:在长距离连线或轨迹追踪任务中,大模型就像在迷宫中迷路的孩子,一旦遇到路径交叉,极易“走岔”并丢失原有的感知线索。
● 空间想象力匮乏:文字叙述无法忠实还原三维空间,大模型在推断积木的侧视图或隐藏体积时,频繁出现数错层数或投影错误的尴尬。
● 视觉模式归纳障碍:它们倾向于死板地“数属性”而非理解变化规律,难以从少量视觉示例中抽象出深层的因果逻辑。
具身智能的阵痛与新生
这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境,我们又该如何指望它在真实的物理世界中安全地协助人类?
针对这一瓶颈,研究者提出了两条进化路径:一是引入强化学习(RLVR),通过显式的中间推理来对冲感知的不确定性;二是彻底拥抱原生多模态推理,让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”,而非借道语言。
AI 进化史上的这一场“返祖”研究提醒我们,通往通用人工智能(AGI)的道路,或许并不在更高难度的数学题里,而在那些六岁孩子就能轻松玩转的拼图游戏中。
via AI新闻资讯 (author: AI Base)
在人工智能屡屡斩获各类博士级竞赛桂冠的今天,我们似乎默认了这些数字大脑已经全方位超越人类。然而,一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究,却给这种乐观情绪泼了一盆冷水。研究结果令人咋舌:即便是在这一赛道领跑的 Gemini 3 Pro Preview,其视觉推理能力也仅仅是小胜三岁幼儿,而面对六岁儿童的认知水平,它依然存在 20% 的能力断层。
这场被称为 BabyVision 的视觉推理“闭卷考试”,彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时,那些在数学难题面前谈笑风生的 AI 巨头们却纷纷翻车。
推理的“语言陷阱”:为何 AI 看不清世界?
为什么坐拥万亿参数的大模型,会卡在如此基础的视觉任务上?研究发现,症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时,习惯于先将图像翻译成文字描述,再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付,但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时,信息便在翻译过程中大量丢失。
视觉推理的四大“滑铁卢”
研究团队通过 BabyVision 基准,将大模型的视觉缺陷归纳为四大维度:
● 非言语精细细节缺失:大模型往往无法分辨像素级的几何差异,在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。
● 流形一致性丢失:在长距离连线或轨迹追踪任务中,大模型就像在迷宫中迷路的孩子,一旦遇到路径交叉,极易“走岔”并丢失原有的感知线索。
● 空间想象力匮乏:文字叙述无法忠实还原三维空间,大模型在推断积木的侧视图或隐藏体积时,频繁出现数错层数或投影错误的尴尬。
● 视觉模式归纳障碍:它们倾向于死板地“数属性”而非理解变化规律,难以从少量视觉示例中抽象出深层的因果逻辑。
具身智能的阵痛与新生
这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境,我们又该如何指望它在真实的物理世界中安全地协助人类?
针对这一瓶颈,研究者提出了两条进化路径:一是引入强化学习(RLVR),通过显式的中间推理来对冲感知的不确定性;二是彻底拥抱原生多模态推理,让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”,而非借道语言。
AI 进化史上的这一场“返祖”研究提醒我们,通往通用人工智能(AGI)的道路,或许并不在更高难度的数学题里,而在那些六岁孩子就能轻松玩转的拼图游戏中。
via AI新闻资讯 (author: AI Base)
在程序员的工具箱里,JetBrains 系列 IDE 一直是不可撼动的“重型武器”,而今天,这柄利剑正式装上了来自 OpenAI 的最强核心。据IT之家报道,OpenAI 的编程利器 Codex 现已正式登陆 JetBrains 旗下全系开发工具。这意味着,无论你是在 IntelliJ IDEA 里构建复杂的后端逻辑,还是在 PyCharm 中调优 AI 模型,亦或是在 WebStorm 里打磨前端界面,都能直接召唤这位“AI 编程代理”助阵。
这次跨界融合的核心亮点在于 Codex 强大的“双模”作战能力:它允许开发者在云端智能体与本地编程环境之间丝滑切换,并行处理多项软件工程任务。此前,Codex 已在 VS Code 和 Cursor 等轻量级编辑器上证明了自己的实力,而此次进驻Rider、Intellij IDEA、PyCharm等重量级 IDE,则真正实现了从代码规划、编写到测试、发布的全流程 AI 闭环。开发者从此无需在多个窗口间疲于奔命,在编辑器内即可一键搞定全部流程。
更让技术圈侧目的是,这次空降的 Codex 底层基于全新的 GPT-5.2Codex。这种量级的能力注入,让代码生成的准确度和逻辑理解力提升到了新的维度。为了方便用户接入,OpenAI 提供了极其灵活的“入场方式”:你可以使用现有的 ChatGPT 账号登录,也可以通过 OpenAI API Key 接入,甚至直接利用 JetBrains AI 订阅启动。最令人兴奋的是,目前该功能正处于限时免费阶段,每位用户都拥有专属的促销额度供挥霍。
不过,想要体验这股算力飓风的开发者需要注意一个小细节:JetBrains 默认并不会主动“推销”这个插件。你需要手动在插件市场中安装并启用 AI Assistant,才能解锁这个藏在 IDE 里的数字大脑。这不仅仅是一次简单的插件更新,更是 AI 深度重塑生产力工具的一个里程碑。
via AI新闻资讯 (author: AI Base)
🎓 Google Gemini 推出免费 SAT 模拟测试功能
Google 在其 AI 助手 Gemini 中正式上线免费的 SAT 全长模拟考试功能,旨在为高中及大学预科生提供备考支持。该功能采用与普林斯顿评论等机构合作提供的审核内容,支持即时反馈与答案解析。系统可根据测试结果识别学生的知识缺口,并制定个性化学习计划。目前该服务已开放使用,未来将涵盖更多标准化考试类别。
(科技圈)
via 茶馆 - Telegram Channel
Google 在其 AI 助手 Gemini 中正式上线免费的 SAT 全长模拟考试功能,旨在为高中及大学预科生提供备考支持。该功能采用与普林斯顿评论等机构合作提供的审核内容,支持即时反馈与答案解析。系统可根据测试结果识别学生的知识缺口,并制定个性化学习计划。目前该服务已开放使用,未来将涵盖更多标准化考试类别。
(科技圈)
via 茶馆 - Telegram Channel
Google 宣布在其 AI 助手 Gemini 中推出 SAT 练习测试功能,为高中生和大学预科学生提供免费的全长模拟考试。该功能现已上线,未来将支持更多标准化考试。
为确保练习效果,Google 与普林斯顿评论(The Princeton Review)等知名教育机构合作,提供经过严格审核的测试内容。学生完成练习后可获得即时反馈,了解优势和薄弱环节,并可要求 Gemini 解释正确答案。系统还能根据学生的知识缺口制定个性化学习计划。
🍀在花频道 🍵茶馆聊天 📮投稿
via 科技圈🎗在花频道📮 - Telegram Channel
当地时间1月22日,特斯拉 CEO 埃隆·马斯克(Elon Musk)打破多年对达沃斯论坛的抵触,首次现身瑞士世界经济论坛。在与贝莱德(BlackRock)CEO 拉里·芬克(Larry Fink)的巅峰对话中,马斯克抛出了关于人形机器人 Optimus 商业化的精确时间表。
2027:从工厂走进家庭的转折点
马斯克透露,特斯拉计划在 2027年底前正式向公众出售 Optimus 机器人。他认为,届时产品的可靠性、安全性和功能范围将达到“极高水平”,用户可以指挥它处理几乎任何家务,包括照看孩子、看护宠物以及照顾年迈父母。
● 演进节奏: 目前 Optimus 已在特斯拉工厂执行简单任务。马斯克预计,到 2026年底它们将具备执行复杂工业任务的能力。
● 远景: 马斯克重申“机器人数量将超越人类”的预言,认为随着 AI 和机器人的普及,全球经济将迎来史无前例的“丰裕时代”。
生产爬坡:不可逾越的“S 型曲线”
尽管前景乐观,马斯克也在社交平台 X 上给出了冷静的提醒。他指出,Optimus 和自动驾驶出租车 Cybercab 的初期生产将由于“零件与步骤的全新性”而极其缓慢。这种遵循“S 型曲线”的爬坡过程,意味着早期产量会非常受限,但后期将呈指数级增长。
行业挑战:数据与落地成本
虽然马斯克信心满满,但市场仍存理性声音。Mahoney 资产管理公司指出,Optimus 的真正成功取决于可扩展的制造证据以及清晰的单位经济效益。此外,缺乏用于训练具身智能模型的大规模真实数据,仍是人形机器人从实验室走向大众市场的核心技术瓶颈。
via AI新闻资讯 (author: AI Base)
达沃斯现场直击:松鼠Ai梁静炮轰“教育AI泡沫”,大模型套壳岂能教好书?
近日,在达沃斯世界经济论坛的一场深度对话中,松鼠Ai联合创始人梁静以一席冷峻的观察,撕开了当前AI教育火热表象下的裂缝。她直言不讳地指出,真正的教育AI绝非大模型的“简单套壳”,而是一场基于垂直领域深耕的智力长跑。
在梁静看来,当前的教育科技市场正充斥着危险的“泡沫现象”。无数标榜人工智能的教学产品,实质上只是将通用的通用大语言模型生搬硬套到教学环节中。这些产品虽然能给学生提供看似标准、流畅的答案,却像是一个只知照本宣科的平庸助教,触及不到知识背后的逻辑灵魂。这种“表面化”的答案交互,不仅无法真正启发学生的思考,更在无形中削弱了教育的本质。
教育是一门关于“精准”的艺术,而大模型在教育领域的落地,必须依赖于垂直领域的深度数据积累。梁静强调,只有深入理解教学场景中的每一个细微互动,积累海量的专业教育数据,才能构建出真正懂教育、懂学生的垂直大模型。AI不应该只是一个答案生成器,而应成为一个能够感知学生学习曲线、洞察知识薄弱点的智慧引路人。
这场来自达沃斯的谏言,无疑为狂热的AI教育赛道泼下了一盆清醒剂。它提醒着每一位从业者:在AI重塑教育的征途中,技术的厚度决定了我们能走多远,而对教育逻辑的敬畏,决定了我们是否走在正确的道路上。
via AI新闻资讯 (author: AI Base)
近日,在达沃斯世界经济论坛的一场深度对话中,松鼠Ai联合创始人梁静以一席冷峻的观察,撕开了当前AI教育火热表象下的裂缝。她直言不讳地指出,真正的教育AI绝非大模型的“简单套壳”,而是一场基于垂直领域深耕的智力长跑。
在梁静看来,当前的教育科技市场正充斥着危险的“泡沫现象”。无数标榜人工智能的教学产品,实质上只是将通用的通用大语言模型生搬硬套到教学环节中。这些产品虽然能给学生提供看似标准、流畅的答案,却像是一个只知照本宣科的平庸助教,触及不到知识背后的逻辑灵魂。这种“表面化”的答案交互,不仅无法真正启发学生的思考,更在无形中削弱了教育的本质。
教育是一门关于“精准”的艺术,而大模型在教育领域的落地,必须依赖于垂直领域的深度数据积累。梁静强调,只有深入理解教学场景中的每一个细微互动,积累海量的专业教育数据,才能构建出真正懂教育、懂学生的垂直大模型。AI不应该只是一个答案生成器,而应成为一个能够感知学生学习曲线、洞察知识薄弱点的智慧引路人。
这场来自达沃斯的谏言,无疑为狂热的AI教育赛道泼下了一盆清醒剂。它提醒着每一位从业者:在AI重塑教育的征途中,技术的厚度决定了我们能走多远,而对教育逻辑的敬畏,决定了我们是否走在正确的道路上。
via AI新闻资讯 (author: AI Base)
当全球AI的聚光灯还流连于那些吞噬万亿参数的巨型模型时,一场关于算力效率的革命已经在底层代码的深处悄然爆发。作为全球顶尖开源推理引擎vLLM的造物主们,今日正式向世界宣告了他们的野心:成立AI基础设施公司Inferact,立志在AI推理的蛮荒之地建立一套全新的秩序。这不仅是一次技术的跃迁,更是一场关于人工智能如何真正步入实用化阶段的史诗告白。
资本市场对这位含着金钥匙出生的新星展现出了近乎疯狂的热情。根据相关报道,Inferact在种子轮融资中便以约8亿美元的惊人估值,斩获了1.5亿美元的重注。这笔巨额融资背后的支持者名单堪称全球顶级权力的缩影:由风投巨头Andreessen Horowitz与光速创投领衔,红杉资本、Altimeter Capital、红点创投以及真格基金等知名机构悉数到场,共同为这台未来的推理引擎注入了强劲的燃料。
作为开源界的宠儿,vLLM早已在开发者心中刻下了不可磨灭的烙印。它以一己之力支撑起500多种模型架构,在200多种硬件加速器上如履平地,并成功扛起了全球规模的推理重任。而Inferact的目标则更加宏大且具体:他们要通过将vLLM推向世界领先的地位,彻底打碎昂贵的推理成本枷锁,用极致的速度让AI的智慧流淌到每一个计算节点。
在AI波澜壮阔的发展进程中,如果说模型训练是旷日持久的闭门造车,那么推理就是刺破黑暗的实战出征。随着大模型应用的全面铺开,推理阶段对算力资源的消耗已如滚雪球般壮大,成为了决定商业化成败的生死命脉。Inferact的挺身而出,标志着行业的风向标已经从昂贵的练兵场转向了高效的部署战场。这不仅验证了开源技术在商业版图中的巨大张力,更昭示着AI基础设施竞争已经步入了追求极致效能的下半场。
via AI新闻资讯 (author: AI Base)