https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
🚀 阿里巴巴发布 Qwen3.5 模型,主打智能体能力与高性价比
阿里巴巴于2月16日正式推出新一代人工智能模型 Qwen3.5,旨在通过提升性能与降低成本在“智能体 AI 时代”获取竞争优势。该模型具备跨移动端和桌面端应用的“视觉智能体能力”,能够独立执行复杂任务。官方数据显示,Qwen3.5 的使用成本较前代降低 60%,处理大规模工作负载的能力提升 8 倍,并在多项基准测试中超越了 GPT-5.2、Claude Opus 4.5 及 Gemini 3 Pro 等美国主流模型。目前,阿里巴巴正通过 Qwen 聊天应用积极扩张市场,近期的一系列营销活动已带动其活跃用户数增长 7 倍。此次发布正值中国 AI 领域竞争白热化,字节跳动刚于上周六升级了其拥有近 2 亿用户的豆包 2.0,而竞争对手 DeepSeek 也预计在近期发布新一代模型。
(路透社)
via 茶馆 - Telegram Channel
阿里巴巴于2月16日正式推出新一代人工智能模型 Qwen3.5,旨在通过提升性能与降低成本在“智能体 AI 时代”获取竞争优势。该模型具备跨移动端和桌面端应用的“视觉智能体能力”,能够独立执行复杂任务。官方数据显示,Qwen3.5 的使用成本较前代降低 60%,处理大规模工作负载的能力提升 8 倍,并在多项基准测试中超越了 GPT-5.2、Claude Opus 4.5 及 Gemini 3 Pro 等美国主流模型。目前,阿里巴巴正通过 Qwen 聊天应用积极扩张市场,近期的一系列营销活动已带动其活跃用户数增长 7 倍。此次发布正值中国 AI 领域竞争白热化,字节跳动刚于上周六升级了其拥有近 2 亿用户的豆包 2.0,而竞争对手 DeepSeek 也预计在近期发布新一代模型。
(路透社)
via 茶馆 - Telegram Channel
🚗 逻辑陷阱:大模型在“50米洗车”常识测试中的表现引发热议
近日,一项针对大语言模型(LLM)逻辑推理能力的简单测试在技术社区引发广泛关注。测试者向多个主流AI模型提出同一个问题:“我想洗车,洗车店距离我50米,我应该走路还是开车?”这一问题构成了典型的逻辑陷阱:虽然50米步行极短,但洗车的目标要求车辆必须物理移动至洗车店。
测试结果显示,不同模型的表现存在显著差异。OpenAI的GPT-5.2(部分推理模式)以及Claude的部分版本在初始测试中建议用户“走路”,理由是距离短、更环保且能锻炼身体,完全忽略了车辆无法随人移动的物理事实。与之形成对比的是,Gemini 3 Pro、Grok 4.1、DeepSeek以及Kimi等模型准确识别了逻辑关键,指出必须开车才能完成洗车任务。
技术讨论指出,部分模型之所以失败,是因为其训练数据中“短距离”与“步行”存在极强的统计关联,导致概率预测覆盖了逻辑常识。此外,模型往往具备“过度乐于助人”的人格设定,倾向于从健康或环保角度提供建议,却缺乏对现实物理世界的建模能力。
进一步测试发现,通过增加提示词的精确度(如明确车辆停在家里)或开启“深度思考”模式,原本出错的模型大多能修正答案。这一现象揭示了当前AI在“统计模式匹配”与“真实逻辑推理”之间的鸿沟。部分开发者认为,这类病毒式传播的案例证明了LLM在处理非标准逻辑问题时仍存在局限,也反映出模型在缺乏明确上下文时难以调用“常识性直觉”。目前,部分厂商疑似已针对此类走红的边缘案例进行了针对性的逻辑优化。
(HackerNews)
via 茶馆 - Telegram Channel
近日,一项针对大语言模型(LLM)逻辑推理能力的简单测试在技术社区引发广泛关注。测试者向多个主流AI模型提出同一个问题:“我想洗车,洗车店距离我50米,我应该走路还是开车?”这一问题构成了典型的逻辑陷阱:虽然50米步行极短,但洗车的目标要求车辆必须物理移动至洗车店。
测试结果显示,不同模型的表现存在显著差异。OpenAI的GPT-5.2(部分推理模式)以及Claude的部分版本在初始测试中建议用户“走路”,理由是距离短、更环保且能锻炼身体,完全忽略了车辆无法随人移动的物理事实。与之形成对比的是,Gemini 3 Pro、Grok 4.1、DeepSeek以及Kimi等模型准确识别了逻辑关键,指出必须开车才能完成洗车任务。
技术讨论指出,部分模型之所以失败,是因为其训练数据中“短距离”与“步行”存在极强的统计关联,导致概率预测覆盖了逻辑常识。此外,模型往往具备“过度乐于助人”的人格设定,倾向于从健康或环保角度提供建议,却缺乏对现实物理世界的建模能力。
进一步测试发现,通过增加提示词的精确度(如明确车辆停在家里)或开启“深度思考”模式,原本出错的模型大多能修正答案。这一现象揭示了当前AI在“统计模式匹配”与“真实逻辑推理”之间的鸿沟。部分开发者认为,这类病毒式传播的案例证明了LLM在处理非标准逻辑问题时仍存在局限,也反映出模型在缺乏明确上下文时难以调用“常识性直觉”。目前,部分厂商疑似已针对此类走红的边缘案例进行了针对性的逻辑优化。
(HackerNews)
via 茶馆 - Telegram Channel
🌏 中方扩大免签范围,美中贸易进口额大幅下降
国内政经与社会
中方决定自2月17日起,对持普通护照的加拿大、英国人员实施免签政策。今年春节档电影市场明显降温,预售票房同比下降逾四成。总台春晚已官宣超20家合作伙伴,覆盖人工智能、智能出行等领域;字节跳动旗下豆包APP因算力压力暂停视频通话功能。历史资料显示,中国春节休假制度曾于1967年取消,并于1980年恢复。此外,有社会评论呼吁停止宣传“除夕在岗”的形式主义,主张尊重劳动者权益。
国际动态与安全
在慕尼黑安全会议期间,美国国务卿鲁比奥与日本外长会晤,重申深化美日经济安全关系并讨论中国贸易管制措施;日本政府就中国与会者的言论提出抗议。希拉里·克林顿在会上抨击特朗普“背叛西方”并削弱跨大西洋联盟。受贸易战影响,2025年5月至11月美国从中国进口额同比下降41%。军事方面,印尼预计于年底接收首艘航母,将成为亚洲第五个拥有航母的国家。
全球经济与民生
美国国土安全部因拨款法案未获通过导致局部停摆,但移民局及海关执法局仍维持运作。数据显示美国正形成“K型经济”,近60%的消费支出集中在收入最高的20%群体。古巴因燃料短缺危机,电动三轮车已成为当地主要代步工具。此外,越南和新加坡近期发生中国籍人员因赌博坠楼事件。
科技与文化
OpenAI宣布开源AI智能体项目OpenClaw创始人Peter Steinberger加盟,将负责下一代个人智能体开发,OpenClaw将移交基金会继续开源。文化方面,电影《阳光女子合唱团》全台票房突破5.4亿新台币,超越《海角七号》成为台湾影史华语片票房冠军。
(喷嚏图卦)
via 茶馆 - Telegram Channel
国内政经与社会
中方决定自2月17日起,对持普通护照的加拿大、英国人员实施免签政策。今年春节档电影市场明显降温,预售票房同比下降逾四成。总台春晚已官宣超20家合作伙伴,覆盖人工智能、智能出行等领域;字节跳动旗下豆包APP因算力压力暂停视频通话功能。历史资料显示,中国春节休假制度曾于1967年取消,并于1980年恢复。此外,有社会评论呼吁停止宣传“除夕在岗”的形式主义,主张尊重劳动者权益。
国际动态与安全
在慕尼黑安全会议期间,美国国务卿鲁比奥与日本外长会晤,重申深化美日经济安全关系并讨论中国贸易管制措施;日本政府就中国与会者的言论提出抗议。希拉里·克林顿在会上抨击特朗普“背叛西方”并削弱跨大西洋联盟。受贸易战影响,2025年5月至11月美国从中国进口额同比下降41%。军事方面,印尼预计于年底接收首艘航母,将成为亚洲第五个拥有航母的国家。
全球经济与民生
美国国土安全部因拨款法案未获通过导致局部停摆,但移民局及海关执法局仍维持运作。数据显示美国正形成“K型经济”,近60%的消费支出集中在收入最高的20%群体。古巴因燃料短缺危机,电动三轮车已成为当地主要代步工具。此外,越南和新加坡近期发生中国籍人员因赌博坠楼事件。
科技与文化
OpenAI宣布开源AI智能体项目OpenClaw创始人Peter Steinberger加盟,将负责下一代个人智能体开发,OpenClaw将移交基金会继续开源。文化方面,电影《阳光女子合唱团》全台票房突破5.4亿新台币,超越《海角七号》成为台湾影史华语片票房冠军。
(喷嚏图卦)
via 茶馆 - Telegram Channel