ChatGPT / AI新闻聚合

https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
✨BEST AI中转 https://api.oaibest.com 2.8-4.2折支持OpenAI, Claude, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN

3 小时前

人类VS AI：波兰程序员10小时编程马拉松中击败OpenAI

在东京举行的2025年AtCoder世界巡回赛总决赛（AWTF）中，来自波兰格丁尼亚的42岁程序员Psyho创造了历史，击败了OpenAI的定制AI模型，赢得了这场比赛。

这场赛事被认为是世界上最负盛名的编程比赛之一，邀请了12位顶尖人类程序员和一个AI竞争对手来应对极具挑战性的任务。

经过10小时的编程马拉松，Psyho以约9.5%的优势战胜了AI，赢得了第一名，而OpenAI的模型获得了第二名。

Psyho在社交媒体上表示：“人类胜利了（至少现在是这样）！”他承认在比赛前的三天里，他只睡了大约10个小时，将自己推向了极限。

OpenAI首席执行官Sam Altman回应道：“干得好，Psyho。”

今年的挑战要求参赛者在30×30的网格上规划机器人的路径，使用尽可能少的移动次数，这是一个NP-hard优化问题，有无数可能的结果。

赛前OpenAI的AI模型OpenAIAHC被认为在比赛中占据主导地位，但D?biak的创新性、启发式驱动的方法——使用解决问题的捷径和有根据的猜测，而不是暴力计算——确保了他赢得了比赛。

比赛管理员Yoichi Iwata赞扬了他的独特方法，指出AI在原始优化方面表现出色，但在“人类创造力”方面仍有不足。

Psyho是一位前OpenAI工程师，曾帮助开发OpenAI Five，他使用Visual Studio Code进行比赛，仅依赖基本的自动完成功能，并承认AI将他推向了极限：“我的得分接近模型的得分，这促使我全力以赴。”

在10小时马拉松的最后阶段，他超越了OpenAIAHC，赢得了比赛和50万日元的奖金。

via cnBeta.COM - 中文业界资讯站 (author: 稿源：快科技)

4 小时前

NVIDIA 为消费者带来 15 亿至 320 亿个参数的推理模型

NVIDIA 今天发布了 OpenReasoning-Nemotron，这是由四个精简的推理模型组成的集合，参数分别为 15 亿、70 亿、140 亿和 320 亿，均源自拥有 671 亿参数的 DeepSeek R1 0528。通过将庞大的“老师”模型压缩成四个基于 Qwen-2.5 的“学生”模型，NVIDIA 使得即使在标准游戏设备上也能进行高级推理实验，而无需担心高昂的 GPU 费用和云使用量。

关键不在于复杂的技巧，而在于原始数据。NVIDIA 使用 NeMo Skills 流水线生成了 500 万个数学、科学和代码解决方案，然后通过纯粹的监督学习对每个解决方案进行微调。目前，320 亿参数的模型在 AIME24 上获得了 89.2 分，在 HMMT 二月竞赛中获得了 73.8 分，而即使是 15 亿参数的版本也取得了 55.5 分和 31.5 分的稳定成绩。

NVIDIA 设想将这些模型打造为强大的研究工具包。所有四个检查点均可在 Hugging Face 上下载，为探索强化学习驱动的推理或针对特定任务定制模型奠定坚实的基础。使用 GenSelect 模式（每个问题进行多次迭代），可以生成多个并行生成并选出最佳答案，从而使 32B 模型的性能达到卓越水平，在多个数学和编码基准测试中堪比甚至超越 OpenAI 的 o3-high 性能。

由于 NVIDIA 仅使用监督微调训练这些模型，而未使用强化学习，因此社区拥有清晰、先进的未来强化学习实验起点。对于游戏玩家和家庭爱好者来说，如果您拥有更强大的游戏 GPU，我们将获得一个完全本地化的模型，该模型可以非常接近最先进的水平。

via cnBeta.COM - 中文业界资讯站 (author: 稿源：cnBeta.COM)

5 小时前

DeepMind证实：反对意见让GPT-4o轻易放弃正确答案

via cnBeta.COM - 中文业界资讯站 (author: 稿源：量子位)

Telegraph

DeepMind证实：反对意见让GPT-4o轻易放弃正确答案

LLM太谄媚！就算你胡乱质疑它的答案，强如GPT-4o这类大模型也有可能立即改口。现在Google DeepMind携手伦敦大学的一项新研究发现：这种行为可能也不是谄媚，而是缺乏自信。不仅如此，团队发现如GPT-4o、Gemma 3等大语言模型有“固执己见”和“被质疑就动摇”并存的冲突行为。简单来说就是，他们的研究弄明白了为啥大模型有时候自信但有时候也自我怀疑，关键就两点：一是总觉得自己一开始说的是对的，二是太把别人反对的意见当回事儿。当大模型表现出对自己的答案很自信时，这与人类认知具有一致性——人们通常会维护自己的观点。…

Before

After