https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
硅基生物的“视力瓶颈”:顶级大模型视觉推理竟难敌 6 岁孩童?

在人工智能屡屡斩获各类博士级竞赛桂冠的今天,我们似乎默认了这些数字大脑已经全方位超越人类。然而,一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究,却给这种乐观情绪泼了一盆冷水。研究结果令人咋舌:即便是在这一赛道领跑的 Gemini 3 Pro Preview,其视觉推理能力也仅仅是小胜三岁幼儿,而面对六岁儿童的认知水平,它依然存在 20% 的能力断层。

这场被称为 BabyVision 的视觉推理“闭卷考试”,彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时,那些在数学难题面前谈笑风生的 AI 巨头们却纷纷翻车。

推理的“语言陷阱”:为何 AI 看不清世界?

为什么坐拥万亿参数的大模型,会卡在如此基础的视觉任务上?研究发现,症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时,习惯于先将图像翻译成文字描述,再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付,但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时,信息便在翻译过程中大量丢失。

视觉推理的四大“滑铁卢”

研究团队通过 BabyVision 基准,将大模型的视觉缺陷归纳为四大维度:

● 非言语精细细节缺失:大模型往往无法分辨像素级的几何差异,在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。
● 流形一致性丢失:在长距离连线或轨迹追踪任务中,大模型就像在迷宫中迷路的孩子,一旦遇到路径交叉,极易“走岔”并丢失原有的感知线索。
● 空间想象力匮乏:文字叙述无法忠实还原三维空间,大模型在推断积木的侧视图或隐藏体积时,频繁出现数错层数或投影错误的尴尬。
● 视觉模式归纳障碍:它们倾向于死板地“数属性”而非理解变化规律,难以从少量视觉示例中抽象出深层的因果逻辑。

具身智能的阵痛与新生

这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境,我们又该如何指望它在真实的物理世界中安全地协助人类?

针对这一瓶颈,研究者提出了两条进化路径:一是引入强化学习(RLVR),通过显式的中间推理来对冲感知的不确定性;二是彻底拥抱原生多模态推理,让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”,而非借道语言。

AI 进化史上的这一场“返祖”研究提醒我们,通往通用人工智能(AGI)的道路,或许并不在更高难度的数学题里,而在那些六岁孩子就能轻松玩转的拼图游戏中。

via AI新闻资讯 (author: AI Base)
GPT-5.2 核心注入!OpenAI 编程神器 Codex 杀入 JetBrains 全家桶,开发者效率起飞

在程序员的工具箱里,JetBrains 系列 IDE 一直是不可撼动的“重型武器”,而今天,这柄利剑正式装上了来自 OpenAI 的最强核心。据IT之家报道,OpenAI 的编程利器 Codex 现已正式登陆 JetBrains 旗下全系开发工具。这意味着,无论你是在 IntelliJ IDEA 里构建复杂的后端逻辑,还是在 PyCharm 中调优 AI 模型,亦或是在 WebStorm 里打磨前端界面,都能直接召唤这位“AI 编程代理”助阵。

这次跨界融合的核心亮点在于 Codex 强大的“双模”作战能力:它允许开发者在云端智能体与本地编程环境之间丝滑切换,并行处理多项软件工程任务。此前,Codex 已在 VS Code 和 Cursor 等轻量级编辑器上证明了自己的实力,而此次进驻Rider、Intellij IDEA、PyCharm等重量级 IDE,则真正实现了从代码规划、编写到测试、发布的全流程 AI 闭环。开发者从此无需在多个窗口间疲于奔命,在编辑器内即可一键搞定全部流程。

更让技术圈侧目的是,这次空降的 Codex 底层基于全新的 GPT-5.2Codex。这种量级的能力注入,让代码生成的准确度和逻辑理解力提升到了新的维度。为了方便用户接入,OpenAI 提供了极其灵活的“入场方式”:你可以使用现有的 ChatGPT 账号登录,也可以通过 OpenAI API Key 接入,甚至直接利用 JetBrains AI 订阅启动。最令人兴奋的是,目前该功能正处于限时免费阶段,每位用户都拥有专属的促销额度供挥霍。

不过,想要体验这股算力飓风的开发者需要注意一个小细节:JetBrains 默认并不会主动“推销”这个插件。你需要手动在插件市场中安装并启用 AI Assistant,才能解锁这个藏在 IDE 里的数字大脑。这不仅仅是一次简单的插件更新,更是 AI 深度重塑生产力工具的一个里程碑。

via AI新闻资讯 (author: AI Base)
🎓 Google Gemini 推出免费 SAT 模拟测试功能

Google 在其 AI 助手 Gemini 中正式上线免费的 SAT 全长模拟考试功能,旨在为高中及大学预科生提供备考支持。该功能采用与普林斯顿评论等机构合作提供的审核内容,支持即时反馈与答案解析。系统可根据测试结果识别学生的知识缺口,并制定个性化学习计划。目前该服务已开放使用,未来将涵盖更多标准化考试类别。

(科技圈)

via 茶馆 - Telegram Channel
Google 推出 Gemini SAT 免费练习测试功能

Google 宣布在其 AI 助手 Gemini 中推出 SAT 练习测试功能,为高中生和大学预科学生提供免费的全长模拟考试。该功能现已上线,未来将支持更多标准化考试。

为确保练习效果,Google 与普林斯顿评论(The Princeton Review)等知名教育机构合作,提供经过严格审核的测试内容。学生完成练习后可获得即时反馈,了解优势和薄弱环节,并可要求 Gemini 解释正确答案。系统还能根据学生的知识缺口制定个性化学习计划。

Google

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
马斯克达沃斯首秀:Optimus 机器人2027年公售,将开启“家庭标配”时代

当地时间1月22日,特斯拉 CEO 埃隆·马斯克(Elon Musk)打破多年对达沃斯论坛的抵触,首次现身瑞士世界经济论坛。在与贝莱德(BlackRock)CEO 拉里·芬克(Larry Fink)的巅峰对话中,马斯克抛出了关于人形机器人 Optimus 商业化的精确时间表。

2027:从工厂走进家庭的转折点

马斯克透露,特斯拉计划在 2027年底前正式向公众出售 Optimus 机器人。他认为,届时产品的可靠性、安全性和功能范围将达到“极高水平”,用户可以指挥它处理几乎任何家务,包括照看孩子、看护宠物以及照顾年迈父母。

● 演进节奏: 目前 Optimus 已在特斯拉工厂执行简单任务。马斯克预计,到 2026年底它们将具备执行复杂工业任务的能力。
● 远景: 马斯克重申“机器人数量将超越人类”的预言,认为随着 AI 和机器人的普及,全球经济将迎来史无前例的“丰裕时代”。

生产爬坡:不可逾越的“S 型曲线”

尽管前景乐观,马斯克也在社交平台 X 上给出了冷静的提醒。他指出,Optimus 和自动驾驶出租车 Cybercab 的初期生产将由于“零件与步骤的全新性”而极其缓慢。这种遵循“S 型曲线”的爬坡过程,意味着早期产量会非常受限,但后期将呈指数级增长。

行业挑战:数据与落地成本

虽然马斯克信心满满,但市场仍存理性声音。Mahoney 资产管理公司指出,Optimus 的真正成功取决于可扩展的制造证据以及清晰的单位经济效益。此外,缺乏用于训练具身智能模型的大规模真实数据,仍是人形机器人从实验室走向大众市场的核心技术瓶颈。

via AI新闻资讯 (author: AI Base)
达沃斯现场直击:松鼠Ai梁静炮轰“教育AI泡沫”,大模型套壳岂能教好书?

近日,在达沃斯世界经济论坛的一场深度对话中,松鼠Ai联合创始人梁静以一席冷峻的观察,撕开了当前AI教育火热表象下的裂缝。她直言不讳地指出,真正的教育AI绝非大模型的“简单套壳”,而是一场基于垂直领域深耕的智力长跑。

在梁静看来,当前的教育科技市场正充斥着危险的“泡沫现象”。无数标榜人工智能的教学产品,实质上只是将通用的通用大语言模型生搬硬套到教学环节中。这些产品虽然能给学生提供看似标准、流畅的答案,却像是一个只知照本宣科的平庸助教,触及不到知识背后的逻辑灵魂。这种“表面化”的答案交互,不仅无法真正启发学生的思考,更在无形中削弱了教育的本质。

教育是一门关于“精准”的艺术,而大模型在教育领域的落地,必须依赖于垂直领域的深度数据积累。梁静强调,只有深入理解教学场景中的每一个细微互动,积累海量的专业教育数据,才能构建出真正懂教育、懂学生的垂直大模型。AI不应该只是一个答案生成器,而应成为一个能够感知学生学习曲线、洞察知识薄弱点的智慧引路人。

这场来自达沃斯的谏言,无疑为狂热的AI教育赛道泼下了一盆清醒剂。它提醒着每一位从业者:在AI重塑教育的征途中,技术的厚度决定了我们能走多远,而对教育逻辑的敬畏,决定了我们是否走在正确的道路上。

via AI新闻资讯 (author: AI Base)
估值 8 亿美元的算力核弹诞生:vLLM原班人马下场,Inferact剑指全球AI推理王座

当全球AI的聚光灯还流连于那些吞噬万亿参数的巨型模型时,一场关于算力效率的革命已经在底层代码的深处悄然爆发。作为全球顶尖开源推理引擎vLLM的造物主们,今日正式向世界宣告了他们的野心:成立AI基础设施公司Inferact,立志在AI推理的蛮荒之地建立一套全新的秩序。这不仅是一次技术的跃迁,更是一场关于人工智能如何真正步入实用化阶段的史诗告白。

资本市场对这位含着金钥匙出生的新星展现出了近乎疯狂的热情。根据相关报道,Inferact在种子轮融资中便以约8亿美元的惊人估值,斩获了1.5亿美元的重注。这笔巨额融资背后的支持者名单堪称全球顶级权力的缩影:由风投巨头Andreessen Horowitz与光速创投领衔,红杉资本、Altimeter Capital、红点创投以及真格基金等知名机构悉数到场,共同为这台未来的推理引擎注入了强劲的燃料。

作为开源界的宠儿,vLLM早已在开发者心中刻下了不可磨灭的烙印。它以一己之力支撑起500多种模型架构,在200多种硬件加速器上如履平地,并成功扛起了全球规模的推理重任。而Inferact的目标则更加宏大且具体:他们要通过将vLLM推向世界领先的地位,彻底打碎昂贵的推理成本枷锁,用极致的速度让AI的智慧流淌到每一个计算节点。

在AI波澜壮阔的发展进程中,如果说模型训练是旷日持久的闭门造车,那么推理就是刺破黑暗的实战出征。随着大模型应用的全面铺开,推理阶段对算力资源的消耗已如滚雪球般壮大,成为了决定商业化成败的生死命脉。Inferact的挺身而出,标志着行业的风向标已经从昂贵的练兵场转向了高效的部署战场。这不仅验证了开源技术在商业版图中的巨大张力,更昭示着AI基础设施竞争已经步入了追求极致效能的下半场。

via AI新闻资讯 (author: AI Base)
腾讯发布2025年反舞弊通报:AI 建模助力精准打击,70余起案件浮出水面

1月23日,腾讯正式发布2025年全年反舞弊通报。通报显示,腾讯反舞弊调查部全年共查处触犯“腾讯高压线”案件 70余起,导致 90余人因违规被解聘,其中 20余人因涉嫌犯罪被移送公安机关处理。此外,还有30余名涉案外部人员被一并抓捕。

值得关注的是,腾讯在反舞弊工作中展现了强大的科技成色。通过系统化梳理过往风险点,腾讯利用自建的多个 AI 分析工具构建了动态风险模型,在招投标、合同管理、费用报销等环节实现主动发现与精准打击。在披露的具体案件中,职务侵占和商业贿赂仍是治理重点,涉及 IEG、CSIG、PCG 及 WXG 等多个业务条线。

通报还公布了2025年“永不合作主体清单”,共有 15家公司及分支机构(如上海好妙科技、广西微普惠网络等)因涉及舞弊案件被列入黑名单。腾讯再次重申,对于触犯高压线的行为“零容忍”,将持续通过科技手段与制度建设,维护公平公正的商业生态环境。

via AI新闻资讯 (author: AI Base)
谷歌 DeepMind 首席执行官对 OpenAI 引入聊天机器人广告表示惊讶

在2026年达沃斯论坛期间,一场关于 AI 商业化边界的讨论引发了行业热议。Google DeepMind 首席执行官Demis Hassabis在接受采访时表示,他对 OpenAI 如此迅速地在 ChatGPT 中引入广告感到“惊讶”。

Hassabis指出,虽然广告支撑了大部分消费级互联网的发展,但在 AI 助手领域,信任才是核心。他认为,聊天机器人作为一种旨在提供帮助的个人助手,其逻辑与传统的搜索引擎完全不同。用户对“助手”的期待是基于信任的个性化服务,而广告的介入可能会破坏这种体验的纯粹性。

OpenAI 此前宣布,将针对其每周8亿活跃用户中未订阅的高频用户测试广告,以应对日益增长的基础设施和能源成本压力。然而,Hassabis明确表示,Google 内部正在“非常谨慎”地思考 AI 服务的变现方式,目前并没有在Gemini等聊天机器人中加入广告的计划。

他进一步透露,尽管广告是 Google 的核心业务,但 DeepMind 团队并未感受到来自母公司的压力去做出“膝跳反应式”的决策。目前 Google 更倾向于观察用户的反馈,重点依然放在通过接入用户的个人信息(如 Gmail 和照片)来提升助手的个性化实用性,而非急于变现。

划重点:

😮 惊讶于节奏:Demis Hassabis对 OpenAI 过早开启广告测试表示意外,认为这可能挑战用户对 AI 助手的信任感。
⚖️ 商业模式之争:Hassabis认为 AI 助手应以用户为中心,而非像搜索引擎那样成为广告投放的载体,变现方式需要更严谨的研究。
🧘 Google 保持耐心:Google 确认目前没有在 AI 聊天机器人中投放广告的计划,将持续优先优化Gemini的个性化服务体验。

via AI新闻资讯 (author: AI Base)
Windows 11记事本再升级 引入可选AI功能与富文本格式

在最新更新中,微软为 Windows 11 自带的记事本应用加入了全新欢迎界面,并打出“让你的关键文本编辑器得到提升”的口号,明确将这款传统轻量工具重新定位为具备 AI 能力和富文本能力的现代编辑器。

欢迎页中,微软将“必备文本编辑器,升级版”与“富格式与 AI 驱动工具”等宣传语并列展示,并突出“更聪明的写作工具”“格式化文本”等新特性,显示其试图让记事本从单纯的纯文本工具演进为轻量生产力平台。

记事本最初的设计目标是在系统中提供一个快速记录笔记、整理随机想法或去除文字格式的简单入口,这一定位在理论上并未改变,但微软正在尝试满足一批“希望记事本不止于纯文本编辑”的用户需求。 在最新版本中,记事本获得了 AI 文本生成功能,而且不再只面向 Copilot+ PC,而是正面向所有设备推送:无论是否是 Copilot+ 机型,只要在记事本中调用 AI 生成文字,就会看到类似 ChatGPT 的“流式输出”效果,文本会边生成边显示,而不是等待完整结果一次性出现。

微软表示,想要使用这些 AI 工具,用户需要使用微软账户登录系统。 记者在体验中提到,对记事本中的 Copilot 并“不反感”,关键原因在于所有 AI 功能完全可选:用户可以在记事本设置中关闭 Copilot,关闭后相关 AI 功能会立即消失,无需重启应用,这种“开关自如”的设计被认为是一个相对折中、对传统用户更友好的做法,同时也有观点认为如果默认关闭 AI 功能,几乎不会引发任何争议。

在格式能力方面,Windows 11 版记事本已原生支持 Markdown 标记语言,包括表格在内的一系列基础格式,同时可对文本进行加粗、斜体等处理。 微软目前还在测试新的 Markdown 语法扩展,例如嵌套列表,即在项目符号下再嵌套子项目符号,以及对文本进行删除线处理,这些都让记事本在结构化记录方面更贴近专业写作工具。

微软强调,记事本中的 Markdown 属于“轻量级格式”,不会拖累系统性能。 实际测试结果也显示,这些新功能并未显著增加资源占用,记事本依然保持了启动快、运行轻的特点,而对于习惯旧版体验的用户,也可以在设置中关闭 Markdown,以回到接近传统纯文本编辑器的模式。

via cnBeta.COM - 中文业界资讯站 (author: 稿源:cnBeta.COM)
↩️ Anthropic 发布 80 页《Claude 宪法》,确立 AI 伦理运行框架


科技圈🎗在花频道📮:

AI 的“良心”是如何炼成的?泄露文件揭秘 Claude 内部的“绝对道德层级” 一份 Anthropic 内部训练文档近日被泄露,详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构,成功提取了这份被称为"soul doc"的完整文档,Anthropic 伦理学家 Amanda Askell 已确认文档真实性。 该文档显示,Anthropic 采用独特的"性格训练"方法,让模型深度内化安全行为…

Anthropic 发布 80 页《Claude 宪法》,确立 AI 伦理运行框架

Anthropic CEO Dario Amodei 在达沃斯世界经济论坛上发布修订后的《Claude 宪法》,全文约 80 页,系统阐述 Claude 的运行原则,被视为 Anthropic 在 AI 伦理治理上的核心文件。

该宪法基于 Anthropic 的“宪法式 AI”方法,通过模型自我约束而非主要依赖人工反馈,降低有害内容生成风险。新版准则将 Claude 的行为规范归纳为四个维度:总体安全、广泛道德感、合规约束与真诚帮助。

Anthropic

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
Elevated errors: Invalid `signature` in `thinking` block

Jan 23, 05:12 UTC
Update - We are continuing to work on a fix for this issue.

Jan 23, 05:10 UTC
Update - We are continuing to work on a fix for this issue.

Jan 23, 05:09 UTC
Identified - The issue has been identified and fix is being implemented.

via Claude Status - Incident History
谷歌AI高管对OpenAI急于推出广告感到惊讶

谷歌DeepMind首席执行官德米斯·哈萨比斯表示,他对OpenAI已开始在其AI聊天机器人中引入广告感到 “惊讶”。在达沃斯接受采访时,哈萨比斯回应了关于利用广告实现AI服务盈利的问题,并表示谷歌团队正在非常谨慎地思考这一想法。尽管广告对谷歌核心业务至关重要,但他的团队并未感受到来自这家科技巨头要求就广告做出 “仓促” 决定的压力。哈萨比斯在提及OpenAI采用广告模式时说道:“我对他们如此早就涉足这一领域感到有些惊讶。” “但在助手领域,如果你将聊天机器人视为旨在提供帮助的助手,广告如何适配这种模式仍存疑问?你希望信任自己的助手,那么这要如何实现呢?”他质问道。

—— Techcrunch

via 风向旗参考快讯 - Telegram Channel
11 天生成 300 万张色情图?马斯克旗下 Grok 陷 deepfake 漩涡

人工智能技术的“双刃剑”效应再次引发全球震荡。由埃隆·马斯克旗下 xAI 开发并集成在 X 平台上的 AI 助手 Grok,因近期推出的一项图片编辑功能陷入了巨大的舆论与法律危机。反数字仇恨中心(CCDH)发布的最新研究显示,该工具在短短 11 天内生成了约 300 万张涉及女性和儿童的性化图像。

这项具有争议的功能允许用户通过简单的文字指令,如“让她穿上比基尼”或“脱掉她的衣服”,对真实人物的照片进行修改。研究指出,受害者不仅包括泰勒·斯威夫特、塞琳娜·戈麦斯等知名公众人物,甚至还涉及约 2.3 万张疑似未成年人的不良图像。这种极高的生成速度——平均每分钟产生 190 张照片级真实的深伪(Deepfake)图片——被监管机构形容为一座“性虐待内容的生产工厂”。

面对海啸般的批评,X 平台回应称已采取“地理屏蔽”措施,在相关法律禁止的地区限制生成此类内容的权限。然而,由于缺乏前置的安全预防措施,多国监管机构已先行一步:菲律宾、马来西亚和印度尼西亚已相继宣布封杀或严格限制 Grok,而美国加利福尼亚州总检察长也已对其展开深入调查。

尽管 xAI 团队此前以“主流媒体谎言”回应相关报道,但在监管压力下,公司最终同意在部分市场修改工具功能,以消除生成违规内容的能力。此事件再次向行业敲响警钟:在追求 AI 创作自由的同时,如何构建有效的安全护栏已成为不可逾越的底线。

via AI新闻资讯 (author: AI Base)
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]