https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8-4.2折 支持OpenAI, Claude, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8-4.2折 支持OpenAI, Claude, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
Gemini 现在会自动总结你的长电子邮件
Google Workspace用户将看到 Gemini 为总结其电子邮件所做的更多努力。 Gmail 现在会自动为复杂的邮件线程生成摘要,并且摘要将显示在邮件上方。Google Workspace帐户中自去年以来就已出现由人工智能驱动的电子邮件摘要,但到目前为止,用户必须手动触发它们。相反,谷歌的人工智能现在将自行决定何时摘要可能有帮助,无需请求即可为较长的电子邮件线程或包含多个回复的消息生成摘要。电子邮件线程的摘要将随着新回复的到来而保持更新。自动摘要现在将显示在英文电子邮件上方,但仅限于移动设备,并且可能需要最多两周时间才会推出。
—— Theverge
via 风向旗参考快讯 - Telegram Channel
Google Workspace用户将看到 Gemini 为总结其电子邮件所做的更多努力。 Gmail 现在会自动为复杂的邮件线程生成摘要,并且摘要将显示在邮件上方。Google Workspace帐户中自去年以来就已出现由人工智能驱动的电子邮件摘要,但到目前为止,用户必须手动触发它们。相反,谷歌的人工智能现在将自行决定何时摘要可能有帮助,无需请求即可为较长的电子邮件线程或包含多个回复的消息生成摘要。电子邮件线程的摘要将随着新回复的到来而保持更新。自动摘要现在将显示在英文电子邮件上方,但仅限于移动设备,并且可能需要最多两周时间才会推出。
—— Theverge
via 风向旗参考快讯 - Telegram Channel
谷歌修复了AI概览称现在是2024年的错误
人工智能工具被吹捧为得力助手,能够轻松帮助你研究、编程、总结、写作并为你带来任何知识。但有时简单的问题也会让它们困惑。例如,谷歌搜索的AI概览就搞不清现在是哪一年。过去几天,多位用户报告称,当他们询问谷歌现在是哪一年时,AI概览回答当前是2024年。谷歌最终在周四晚些时候修复了这个错误。被问及原因时,谷歌并未给出明确解释,仅表示正在更新系统,以防类似情况再次发生。谷歌发言人在一份声明中表示:“和所有搜索功能一样,我们会严格改进,并通过这类案例更新系统。绝大多数AI概览都能提供有用且真实的信息,我们正在积极进行更新以解决此类问题。”
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
人工智能工具被吹捧为得力助手,能够轻松帮助你研究、编程、总结、写作并为你带来任何知识。但有时简单的问题也会让它们困惑。例如,谷歌搜索的AI概览就搞不清现在是哪一年。过去几天,多位用户报告称,当他们询问谷歌现在是哪一年时,AI概览回答当前是2024年。谷歌最终在周四晚些时候修复了这个错误。被问及原因时,谷歌并未给出明确解释,仅表示正在更新系统,以防类似情况再次发生。谷歌发言人在一份声明中表示:“和所有搜索功能一样,我们会严格改进,并通过这类案例更新系统。绝大多数AI概览都能提供有用且真实的信息,我们正在积极进行更新以解决此类问题。”
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
美卫生部长健康报告引文多处错误 白宫称“格式问题”
由美国卫生与公众服务部长罗伯特·F·肯尼迪领导的“让美国再次健康”委员会近日发布的首份儿童健康报告,其引用的参考文献中存在多处严重错误。其中包括至少7项所引研究“根本不存在”,另有多位学者公开否认撰写了报告中声称引用的论文。部分引文链接更被发现带有指向ChatGPT等AI工具生成的“oaicite”标记。
对此,白宫新闻秘书回应称相关问题源于“格式问题”,不会影响报告主要内容,并表示报告已于29日晚些时候在白宫网站更新,删除了不存在的研究并替换了部分受质疑的链接。然而,鉴于肯尼迪一贯的反疫苗立场及该报告的部分论调,此事已引发科学界对其未来政策取向的广泛担忧。
新华网 | The Verge
📮投稿 ☘️频道 🧧狗东
via 科技圈🎗在花频道📮 - Telegram Channel
由美国卫生与公众服务部长罗伯特·F·肯尼迪领导的“让美国再次健康”委员会近日发布的首份儿童健康报告,其引用的参考文献中存在多处严重错误。其中包括至少7项所引研究“根本不存在”,另有多位学者公开否认撰写了报告中声称引用的论文。部分引文链接更被发现带有指向ChatGPT等AI工具生成的“oaicite”标记。
对此,白宫新闻秘书回应称相关问题源于“格式问题”,不会影响报告主要内容,并表示报告已于29日晚些时候在白宫网站更新,删除了不存在的研究并替换了部分受质疑的链接。然而,鉴于肯尼迪一贯的反疫苗立场及该报告的部分论调,此事已引发科学界对其未来政策取向的广泛担忧。
新华网 | The Verge
📮投稿 ☘️频道 🧧狗东
via 科技圈🎗在花频道📮 - Telegram Channel
Stack Overflow 正在探索付费专家支付回答和个性化主页
Stack Overflow 正在探索通过向专家支付报酬和创建个性化主页来吸引用户在 AI 时代重返网站。该公司 CEO Prashanth Chandrasekar 在博客中写道,上个月公司在 Stack Overflow(以及其旗下的所有其他 180 个 Stack Exchange 网站)上恢复了聊天功能。同时他们正在积极探索“直接咨询专家”功能——甚至有可能以某种方式为这些专家提供报酬。Chandrasekar 还讨论了“下一阶段”,“新的 Stack Overflow 将打造一个个性化的主页——一个属于你的技术聚合器。它可能会收集视频、博客、问答、战争故事、笑话、教育资料、工作机会等等所有这些格式,并将它们整合到一个个性化的目的地。我们希望这里成为你的‘第三屏’——你进入互联网社区的入口。”
—— The New Stack
via 风向旗参考快讯 - Telegram Channel
Stack Overflow 正在探索通过向专家支付报酬和创建个性化主页来吸引用户在 AI 时代重返网站。该公司 CEO Prashanth Chandrasekar 在博客中写道,上个月公司在 Stack Overflow(以及其旗下的所有其他 180 个 Stack Exchange 网站)上恢复了聊天功能。同时他们正在积极探索“直接咨询专家”功能——甚至有可能以某种方式为这些专家提供报酬。Chandrasekar 还讨论了“下一阶段”,“新的 Stack Overflow 将打造一个个性化的主页——一个属于你的技术聚合器。它可能会收集视频、博客、问答、战争故事、笑话、教育资料、工作机会等等所有这些格式,并将它们整合到一个个性化的目的地。我们希望这里成为你的‘第三屏’——你进入互联网社区的入口。”
—— The New Stack
via 风向旗参考快讯 - Telegram Channel
Perplexity的新工具可以生成电子表格等
人工智能搜索引擎Perplexity于本周四发布了Perplexity Labs,这是一款面向Perplexity每月20美元专业套餐订阅用户的工具,可用于制作报告、电子表格、仪表板等。Perplexity Labs 可在网页、iOS 和安卓上使用,并且即将在 Perplexity 的 Mac 和 Windows 应用中推出。Perplexity在一篇博客文章中解释道:“Perplexity Labs可以帮助你完成各种工作和个人项目。Labs旨在投入更多时间,10分钟或更长,并利用额外工具来完成任务,例如高级文件生成和迷你应用程序创建。”
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
人工智能搜索引擎Perplexity于本周四发布了Perplexity Labs,这是一款面向Perplexity每月20美元专业套餐订阅用户的工具,可用于制作报告、电子表格、仪表板等。Perplexity Labs 可在网页、iOS 和安卓上使用,并且即将在 Perplexity 的 Mac 和 Windows 应用中推出。Perplexity在一篇博客文章中解释道:“Perplexity Labs可以帮助你完成各种工作和个人项目。Labs旨在投入更多时间,10分钟或更长,并利用额外工具来完成任务,例如高级文件生成和迷你应用程序创建。”
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
研究人员认为大模型既不会思考也不会推理
2025-05-30 14:18 by 美丽新世界
流行的 AI 大模型都开始提供“推理过程”——给出最终答案前生成一系列冗长的中间文本,看起来类似人类的推理草稿。亚利桑那州立大学的研究人员在预印本平台 arxiv 上发表论文,建议不要将大模型的这一行为描述为“推理”或“思考”,认为这种拟人化的描述会对大模型的实际工作过程造成有害的误解。尽管推理模型如 DeepSeek R1 表现出了更高的性能,但它们实际上既不会思考也不会推理,研究人员没有发现任何代表真正推理过程的证据。大模型的所谓思考其实就是寻找相关性,而众所周知相关并不等于因果。研究人员警告,将大模型的中间输入视为推理会令用户对大模型的问题解决机制产生虚假的信心。
arxiv.org/pdf/2504.09762
/.:Researchers Warn Against Treating AI Outputs as Human-Like Reasoning
#人工智能
via Solidot - Telegram Channel
2025-05-30 14:18 by 美丽新世界
流行的 AI 大模型都开始提供“推理过程”——给出最终答案前生成一系列冗长的中间文本,看起来类似人类的推理草稿。亚利桑那州立大学的研究人员在预印本平台 arxiv 上发表论文,建议不要将大模型的这一行为描述为“推理”或“思考”,认为这种拟人化的描述会对大模型的实际工作过程造成有害的误解。尽管推理模型如 DeepSeek R1 表现出了更高的性能,但它们实际上既不会思考也不会推理,研究人员没有发现任何代表真正推理过程的证据。大模型的所谓思考其实就是寻找相关性,而众所周知相关并不等于因果。研究人员警告,将大模型的中间输入视为推理会令用户对大模型的问题解决机制产生虚假的信心。
arxiv.org/pdf/2504.09762
/.:Researchers Warn Against Treating AI Outputs as Human-Like Reasoning
#人工智能
via Solidot - Telegram Channel
开发者上线AI工具,可通过分析YouTube评论推测用户位置与背景
名为“YouTube-Tools”的新网站近日上线,可抓取YouTube用户历史评论并利用AI生成背景分析报告,预测其可能居住地、语言能力和社会政治倾向。该工具基于Mistral公司的大语言模型开发,开发者声称其初衷为协助警方与私家侦探调查,但目前任何人仅需支付约20美元即可注册使用,无需身份验证,引发对隐私泄露和骚扰滥用的担忧。
该网站声称掌握14亿用户和200亿条评论数据。尽管服务条款称仅限执法和专业调查用途,但实际注册过程无须审核,404 Media记者仅凭邮箱和信用卡即成功获取访问权限。该项目源于先前的“LoL-Archiver”,还涵盖Twitch、Kick等平台的聊天与评论记录。
404 Media
📮投稿 ☘️频道 🧧狗东
via 科技圈🎗在花频道📮 - Telegram Channel
名为“YouTube-Tools”的新网站近日上线,可抓取YouTube用户历史评论并利用AI生成背景分析报告,预测其可能居住地、语言能力和社会政治倾向。该工具基于Mistral公司的大语言模型开发,开发者声称其初衷为协助警方与私家侦探调查,但目前任何人仅需支付约20美元即可注册使用,无需身份验证,引发对隐私泄露和骚扰滥用的担忧。
该网站声称掌握14亿用户和200亿条评论数据。尽管服务条款称仅限执法和专业调查用途,但实际注册过程无须审核,404 Media记者仅凭邮箱和信用卡即成功获取访问权限。该项目源于先前的“LoL-Archiver”,还涵盖Twitch、Kick等平台的聊天与评论记录。
404 Media
📮投稿 ☘️频道 🧧狗东
via 科技圈🎗在花频道📮 - Telegram Channel
Hugging Face推出两款新型人形机器人
人工智能开发平台Hugging Face当地时间周四继续进军机器人领域,发布了两款新型人形机器人。这家公司宣布推出两款开源机器人:HopeJR 和 Reachy Mini。HopeJR 是款全尺寸人形机器人,拥有66个驱动自由度,即66个独立动作,其中包括行走和移动手臂的能力。该公司联合创始人兼首席执行官克莱姆·德兰格表示,他们预计至少在今年年底前开始发货首批几台机器人,目前已开放等候名单。Hugging Face 估计 HopeJR 每台售价约为3000美元,而 Reachy Mini 每台售价约为250至300美元,具体取决于关税。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
人工智能开发平台Hugging Face当地时间周四继续进军机器人领域,发布了两款新型人形机器人。这家公司宣布推出两款开源机器人:HopeJR 和 Reachy Mini。HopeJR 是款全尺寸人形机器人,拥有66个驱动自由度,即66个独立动作,其中包括行走和移动手臂的能力。该公司联合创始人兼首席执行官克莱姆·德兰格表示,他们预计至少在今年年底前开始发货首批几台机器人,目前已开放等候名单。Hugging Face 估计 HopeJR 每台售价约为3000美元,而 Reachy Mini 每台售价约为250至300美元,具体取决于关税。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
🤖 AI前沿扫描:阿里开源WebAgent,国产大模型加速落地应用
* 阿里巴巴在Github上开源其自主搜索AI Agent WebAgent,具备端到端自主信息检索和多步骤推理能力。
* 阿里云发布首个AI原生开发环境工具“通义灵码AIIDE”,兼容最新的千问3大模型,并全面集成通义灵码插件能力。
* Manus推出Manus slides功能,用户可以通过单个提示词立即生成幻灯片,并可编辑后导出或分享。
* 百度智能云千帆大模型平台正式上线DeepSeek最新R1-0528大模型。
* 腾讯宣布其元宝、ima和QQ浏览器等产品已集成最新版DeepSeek R1-0528深度思考模型。
* Google Play商店推出新的AI功能“Ask Play about this app”,将Gemini AI直接集成到应用列表中。
* Hugging Face发布两款开源机器人HopeJR和Reachy Mini,HopeJR是具有66个自由度的全尺寸人形机器人,Reachy Mini是桌面单元。
* AI芯片初创公司EnCharge AI发布EN100 AI加速器,基于精确且可扩展的模拟内存计算,总计算能力超过200 TOPS,并已筹集1.44亿美元。
* Midjourney宣布V7渲染速度提升40%,并显著升级了图像编辑器的AI审核功能。
(财经快讯)
via 茶馆 - Telegram Channel
* 阿里巴巴在Github上开源其自主搜索AI Agent WebAgent,具备端到端自主信息检索和多步骤推理能力。
* 阿里云发布首个AI原生开发环境工具“通义灵码AIIDE”,兼容最新的千问3大模型,并全面集成通义灵码插件能力。
* Manus推出Manus slides功能,用户可以通过单个提示词立即生成幻灯片,并可编辑后导出或分享。
* 百度智能云千帆大模型平台正式上线DeepSeek最新R1-0528大模型。
* 腾讯宣布其元宝、ima和QQ浏览器等产品已集成最新版DeepSeek R1-0528深度思考模型。
* Google Play商店推出新的AI功能“Ask Play about this app”,将Gemini AI直接集成到应用列表中。
* Hugging Face发布两款开源机器人HopeJR和Reachy Mini,HopeJR是具有66个自由度的全尺寸人形机器人,Reachy Mini是桌面单元。
* AI芯片初创公司EnCharge AI发布EN100 AI加速器,基于精确且可扩展的模拟内存计算,总计算能力超过200 TOPS,并已筹集1.44亿美元。
* Midjourney宣布V7渲染速度提升40%,并显著升级了图像编辑器的AI审核功能。
(财经快讯)
via 茶馆 - Telegram Channel
DeepSeek跃居全球第二AI实验室 R1登顶开源王座,R2全网催更
DeepSeek正式官宣R1已完成小版本升级,开启“深度思考”功能即可体验。在多项基准测试中,DeepSeek-R1-0528的数学、编程、通用逻辑性能,足以媲美最强o3和Gemini 2.5 Pro。而且,它还成为国内首屈一指的开源模型,全面超越Qwen3-235B。除了性能刷新SOTA,此次R1的更新,还体现在了其他三方面:前端代码生成能力增强 幻觉率降低45%-50%支持JSON输出和函数调用不仅如此,DeepSeek官方基于Qwen3-8B Base微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。这款8B模型在AIME 2024上,性能仅次于DeepSeek-R1-0528,甚至可与Qwen3-235B-thinking一较高下。如今,DeepSeek不仅稳坐世界开源头把交椅,而且还成为了全球第二大AI实验室。DeepSeek-R1迭代后推理更强,不过已有网友迫不及待催更R2了。DeepSeek-R1数学编程更强了HF模型卡中,DeepSeek具体公布了模型的更多的细节和性能对比。DeepSeek-R1-0528是以DeepSeek V3 Base(2024年12月)为基座进行训练。模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528在后训练阶段,R1投入了更多计算资源,并引入了算法优化机制,显著提升了模型的思维深度与推理能力。如上所述,在数学、编程、通用逻辑等多项基准测试中,DeepSeek-R1展现出卓越的性能。相较于上一代,0528版本在处理复杂推理任务方面取得了显著进步。比如,在AIME 2025测试中,R1准确率从70%提升到87.5%。这一性能的提升,源于推理过程中思维深度的增强。在AIME测试集中,DeepSeek-R1平均每个问题消耗12K token,而DeepSeek-R1-0528平均每个问题使用23K token。在外部多语言Aider基准测试,结果显示,DeepSeek-R1-0528达到了与Claude 4 Opus相当的水平,Pass@2得分为70.7%。幻觉率暴减50%此前,有很多报道分析称,DeepSeek-R1虽比V3强,但幻觉率极高。根据Vectara的测试,DeepSeek-R1幻觉率高达14.3%,比o3高出不少。这一次,经过优化,与初代相比,DeepSeek-R1-0528的幻觉率降低了45%-50%。尤其是,在改写润色、总结摘要、阅读理解等场景中,新模型能提供更加准确、可靠的结果。而且,DeepSeek-R1还专门针对论文、小说、散文等问题,进行了进一步优化。由此,它能够输出篇幅更长、结构内容更完整的长篇大作,更加贴近人类偏好的写作风格。艾伦研究所Nathan Lambert通过实验发现,R1-0528在编译智能体基准上,表现非常稳健。支持工具调用值得一提的是,DeepSeek-R1-0528还可以支持工具调用。比如,让它总结一篇文章,附上一个链接后,模型会主动调用爬虫插件获取网页内容,然后进行总结。它在Tau-Bench的测评成绩为airline 53.5%/retail 63.9%,与o1-high性能相当,但与o3-High、Claude 4 Sonnet仍有一定的差距。图源:DeepSeek在前端代码生成、角色扮演等方面,DeepSeek-R1-0528能力得到了进一步提升。比如,制作一张英文单词的复习卡片应用,短短几分钟,一个完整的APP就呈现了,包括复习卡片、搜索卡片、学习统计、创建卡片基本功能一应俱全。而且,DeepSeek-R1函数调用支持增强,还为氛围编程(vibe coding)提供了更流畅的体验。图源:DeepSeekDeepSeek蒸馏版Qwen3-8B来了在R1更新升级的同时,DeepSeek还蒸馏了DeepSeek-R1-0528的思维链,然后训练了Qwen3-8B Base,最后得到了DeepSeek-R1-0528-Qwen3-8B。DeepSeek表示,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。DeepSeek-R1-0528-Qwen3-8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),与Qwen3-235B相当。这个结果还是挺夸张的,毕竟与Qwen3-235B相比,8B的模型在参数上相差将近30倍。同时DeepSeek-R1-0528-Qwen3-8B的数学性能也强于最近的Phi-4 14B。DeepSeek-R1-0528-Qwen3-8B等开源模型的AIME 2024对比结果在数学性能上,DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。DeepSeek-R1-0528-Qwen3-8B等不同模型在多个基准测试中的性能目前,这款8B蒸馏模型也已同步在Hugging Face上开源。模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B全球第二大AI实验室 荣光属于DeepSeek就在DeepSeek R1更新后不久,独立AI分析网站Artificial Analysis发帖表示,DeepSeek的R1强势超越xAI、Meta和Anthropic。这使得DeepSeek一跃成为全球第二大AI实验室,并无可争议的成为开源模型的领导者。DeepSeek-R1-0528在智能指数中从60分跃升至68分,提升幅度与OpenAI的o1到o3(62分到70分)进步相当。这使得DeepSeek R1的智能水平超过了xAI的Grok 3 mini(High)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B,与Google的Gemini 2.5 Pro并驾齐驱。这些进步给AI领域带来了不少的启示:开源与闭源模型差距缩小:DeepSeek今年1月的R1发布首次让开源模型登上第二位,这次的R1更新再次巩固了这一地位。中国与美国AI并驾齐驱:来自中国AI实验室的模型几乎完全赶上了美国。目前,DeepSeek在人工智能分析智能指数中领先于美国AI实验室如Anthropic和Meta。强化学习驱动进步:DeepSeek在相同架构和预训练基础上展示了显著的智能提升。这凸显了后训练的重要性,尤其是通过RL技术训练的推理模型。OpenAI披露o1到o3的RL计算规模扩大了10倍——DeepSeek证明了他们目前能跟上OpenAI的RL计算扩展。扩展RL比扩展预训练需要的计算资源更少,是实现智能提升的高效方式,更适合GPU较少的AI实验室。 ...
PC版:https://www.cnbeta.com.tw/articles/soft/1503328.htm
手机版:https://m.cnbeta.com.tw/view/1503328.htm
via cnBeta.COM中文业界资讯站 - Telegram Channel
DeepSeek正式官宣R1已完成小版本升级,开启“深度思考”功能即可体验。在多项基准测试中,DeepSeek-R1-0528的数学、编程、通用逻辑性能,足以媲美最强o3和Gemini 2.5 Pro。而且,它还成为国内首屈一指的开源模型,全面超越Qwen3-235B。除了性能刷新SOTA,此次R1的更新,还体现在了其他三方面:前端代码生成能力增强 幻觉率降低45%-50%支持JSON输出和函数调用不仅如此,DeepSeek官方基于Qwen3-8B Base微调了更强版本——DeepSeek-R1-0528-Qwen3-8B。这款8B模型在AIME 2024上,性能仅次于DeepSeek-R1-0528,甚至可与Qwen3-235B-thinking一较高下。如今,DeepSeek不仅稳坐世界开源头把交椅,而且还成为了全球第二大AI实验室。DeepSeek-R1迭代后推理更强,不过已有网友迫不及待催更R2了。DeepSeek-R1数学编程更强了HF模型卡中,DeepSeek具体公布了模型的更多的细节和性能对比。DeepSeek-R1-0528是以DeepSeek V3 Base(2024年12月)为基座进行训练。模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528在后训练阶段,R1投入了更多计算资源,并引入了算法优化机制,显著提升了模型的思维深度与推理能力。如上所述,在数学、编程、通用逻辑等多项基准测试中,DeepSeek-R1展现出卓越的性能。相较于上一代,0528版本在处理复杂推理任务方面取得了显著进步。比如,在AIME 2025测试中,R1准确率从70%提升到87.5%。这一性能的提升,源于推理过程中思维深度的增强。在AIME测试集中,DeepSeek-R1平均每个问题消耗12K token,而DeepSeek-R1-0528平均每个问题使用23K token。在外部多语言Aider基准测试,结果显示,DeepSeek-R1-0528达到了与Claude 4 Opus相当的水平,Pass@2得分为70.7%。幻觉率暴减50%此前,有很多报道分析称,DeepSeek-R1虽比V3强,但幻觉率极高。根据Vectara的测试,DeepSeek-R1幻觉率高达14.3%,比o3高出不少。这一次,经过优化,与初代相比,DeepSeek-R1-0528的幻觉率降低了45%-50%。尤其是,在改写润色、总结摘要、阅读理解等场景中,新模型能提供更加准确、可靠的结果。而且,DeepSeek-R1还专门针对论文、小说、散文等问题,进行了进一步优化。由此,它能够输出篇幅更长、结构内容更完整的长篇大作,更加贴近人类偏好的写作风格。艾伦研究所Nathan Lambert通过实验发现,R1-0528在编译智能体基准上,表现非常稳健。支持工具调用值得一提的是,DeepSeek-R1-0528还可以支持工具调用。比如,让它总结一篇文章,附上一个链接后,模型会主动调用爬虫插件获取网页内容,然后进行总结。它在Tau-Bench的测评成绩为airline 53.5%/retail 63.9%,与o1-high性能相当,但与o3-High、Claude 4 Sonnet仍有一定的差距。图源:DeepSeek在前端代码生成、角色扮演等方面,DeepSeek-R1-0528能力得到了进一步提升。比如,制作一张英文单词的复习卡片应用,短短几分钟,一个完整的APP就呈现了,包括复习卡片、搜索卡片、学习统计、创建卡片基本功能一应俱全。而且,DeepSeek-R1函数调用支持增强,还为氛围编程(vibe coding)提供了更流畅的体验。图源:DeepSeekDeepSeek蒸馏版Qwen3-8B来了在R1更新升级的同时,DeepSeek还蒸馏了DeepSeek-R1-0528的思维链,然后训练了Qwen3-8B Base,最后得到了DeepSeek-R1-0528-Qwen3-8B。DeepSeek表示,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。DeepSeek-R1-0528-Qwen3-8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B(+10.0%),与Qwen3-235B相当。这个结果还是挺夸张的,毕竟与Qwen3-235B相比,8B的模型在参数上相差将近30倍。同时DeepSeek-R1-0528-Qwen3-8B的数学性能也强于最近的Phi-4 14B。DeepSeek-R1-0528-Qwen3-8B等开源模型的AIME 2024对比结果在数学性能上,DeepSeek-R1-0528-Qwen3-8B甚至超越了Gemini-2.5-Flash。DeepSeek-R1-0528-Qwen3-8B等不同模型在多个基准测试中的性能目前,这款8B蒸馏模型也已同步在Hugging Face上开源。模型地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B全球第二大AI实验室 荣光属于DeepSeek就在DeepSeek R1更新后不久,独立AI分析网站Artificial Analysis发帖表示,DeepSeek的R1强势超越xAI、Meta和Anthropic。这使得DeepSeek一跃成为全球第二大AI实验室,并无可争议的成为开源模型的领导者。DeepSeek-R1-0528在智能指数中从60分跃升至68分,提升幅度与OpenAI的o1到o3(62分到70分)进步相当。这使得DeepSeek R1的智能水平超过了xAI的Grok 3 mini(High)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B,与Google的Gemini 2.5 Pro并驾齐驱。这些进步给AI领域带来了不少的启示:开源与闭源模型差距缩小:DeepSeek今年1月的R1发布首次让开源模型登上第二位,这次的R1更新再次巩固了这一地位。中国与美国AI并驾齐驱:来自中国AI实验室的模型几乎完全赶上了美国。目前,DeepSeek在人工智能分析智能指数中领先于美国AI实验室如Anthropic和Meta。强化学习驱动进步:DeepSeek在相同架构和预训练基础上展示了显著的智能提升。这凸显了后训练的重要性,尤其是通过RL技术训练的推理模型。OpenAI披露o1到o3的RL计算规模扩大了10倍——DeepSeek证明了他们目前能跟上OpenAI的RL计算扩展。扩展RL比扩展预训练需要的计算资源更少,是实现智能提升的高效方式,更适合GPU较少的AI实验室。 ...
PC版:https://www.cnbeta.com.tw/articles/soft/1503328.htm
手机版:https://m.cnbeta.com.tw/view/1503328.htm
via cnBeta.COM中文业界资讯站 - Telegram Channel
OpenAI坚持反诉马斯克:驳回请求毫无依据
OpenAI公司表示,该公司应被允许继续对马斯克提起反诉,马斯克要求驳回其指控的动议 “没有事实依据”。OpenAI在周三晚间提交的法庭文件中表示,其反诉指控马斯克在加州法律下从事欺诈性商业行为的案子,应被纳入快速审理程序,而不是被搁置。马斯克去年起诉OpenAI及其CEO,指控该公司向营利模式转型背离了创立初衷,即为了造福人类而非企业利润而发展AI。OpenAI今年四月对马斯克提起反诉,称马斯克长期对公司进行骚扰,并请求联邦法官阻止其对OpenAI采取任何 “进一步违法和不正当的行为”。马斯克则要求联邦法官驳回或推迟审理OpenAI的反诉,延至案件的后续阶段再作处理。
—— 路透社
via 风向旗参考快讯 - Telegram Channel
OpenAI公司表示,该公司应被允许继续对马斯克提起反诉,马斯克要求驳回其指控的动议 “没有事实依据”。OpenAI在周三晚间提交的法庭文件中表示,其反诉指控马斯克在加州法律下从事欺诈性商业行为的案子,应被纳入快速审理程序,而不是被搁置。马斯克去年起诉OpenAI及其CEO,指控该公司向营利模式转型背离了创立初衷,即为了造福人类而非企业利润而发展AI。OpenAI今年四月对马斯克提起反诉,称马斯克长期对公司进行骚扰,并请求联邦法官阻止其对OpenAI采取任何 “进一步违法和不正当的行为”。马斯克则要求联邦法官驳回或推迟审理OpenAI的反诉,延至案件的后续阶段再作处理。
—— 路透社
via 风向旗参考快讯 - Telegram Channel
议员抨击英伟达在华设立研发中心的计划
共和党参议员吉姆·班克斯和民主党参议员伊丽莎白·沃伦要求英伟达CEO黄仁勋就公司计划在上海设立研发中心一事作出解释,称这一决定“引发了重大的国家安全和经济安全担忧”。班克斯和沃伦是对英国金融时报有关英伟达正在中国这座城市开设研发中心的报道做出的回应。该新闻机构援引知情人士的话说,该设施将用于潜在扩张和现有员工,公司正在中国招聘人工智能人才。英伟达发言人对相关报道提出异议并表示,该公司“只是为现有员工租赁了一个新空间,这些员工在疫情后重返工作岗位时需要更多空间。”两位参议员警告说,该中心可能会导致敏感信息泄露、被盗或以其他方式转移到中国。
—— 彭博社
via 风向旗参考快讯 - Telegram Channel
共和党参议员吉姆·班克斯和民主党参议员伊丽莎白·沃伦要求英伟达CEO黄仁勋就公司计划在上海设立研发中心一事作出解释,称这一决定“引发了重大的国家安全和经济安全担忧”。班克斯和沃伦是对英国金融时报有关英伟达正在中国这座城市开设研发中心的报道做出的回应。该新闻机构援引知情人士的话说,该设施将用于潜在扩张和现有员工,公司正在中国招聘人工智能人才。英伟达发言人对相关报道提出异议并表示,该公司“只是为现有员工租赁了一个新空间,这些员工在疫情后重返工作岗位时需要更多空间。”两位参议员警告说,该中心可能会导致敏感信息泄露、被盗或以其他方式转移到中国。
—— 彭博社
via 风向旗参考快讯 - Telegram Channel