ChatGPT / AI新闻聚合

https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN

2 小时前

🤖 OpenAI 详解 Codex 代理循环机制并开源核心代码

OpenAI 于 1 月 23 日发布技术文档，详解其软件代理 Codex 的核心逻辑“代理循环”。该机制负责协调用户、模型与工具间的交互，支持 CLI、Cloud 及 VS Code 插件。系统通过 Responses API 实现无状态推理，并提供零数据保留模式。为提升性能，Codex 利用提示词缓存技术减少重复计算，并在上下文超限时调用专用接口自动压缩对话。目前，Codex CLI 核心代码已在 GitHub 开源。

(科技圈)

via 茶馆 - Telegram Channel

2 小时前

↩️ OpenAI 详解 Codex 代理循环机制，实现无状态推理与自动上下文压缩

科技圈🎗在花频道📮:

🤖 OpenAI 发布 GPT-5.2-Codex，显著提升智能编程与网络安全能力 OpenAI 于 12 月 19 日发布 GPT-5.2-Codex，旨在处理复杂的真实世界软件工程任务。该模型通过上下文压缩优化了长周期工作流，在 SWE-Bench Pro 等基准测试中取得领先成绩，并显著增强了 Windows 环境下的自主编程与网络安全防御能力。此前，安全研究员已利用该系列模型发现并修复了 React 框架的安全漏洞。目前，该模型已面向 ChatGPT 付费用户开放，API 接入将于近期开启。 OpenAI…

OpenAI 详解 Codex 代理循环机制，实现无状态推理与自动上下文压缩

OpenAI 于 1 月 23 日发布技术文档，详解其软件代理 Codex 的核心逻辑“代理循环 (agent loop)”。该机制负责协调用户、模型与工具间的交互。Codex 涵盖 CLI、Cloud 及 VS Code 插件，通过 Responses API 实现无状态推理，并支持零数据保留 (ZDR) 模式。为提升性能，系统利用提示词缓存技术减少重复计算，并在上下文超限时调用专用接口自动压缩对话。目前，Codex CLI 核心代码已在 GitHub 开源。

OpenAI

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel

3 小时前

研究：马斯克的Grok生成300万张不雅照

研究人员周四指出，马斯克的AI聊天机器人Grok据估于短短11天内，生成300万张女性及孩童的性化不雅照，其调查揭露引发全球强烈抗议的AI生成露骨内容的规模。Grok是由马斯克旗下初创公司xAI开发，并整合进社交平台 X。Grok最近推出照片编辑功能，使用者只需输入「让她穿上比基尼」或「脱掉她的衣服」等简单文字指令，就能线上编辑真人照片。打击网络仇恨中心表示：“X平台上的Grok推出照片编辑新功能后，这项AI工具据估已生成大约300万张不雅照，其中2万3000张疑似是描绘孩童。打击网络仇恨中心报告估计，Grok在11天内生成如此大量的写实照片，等于平均每分产出190张不雅照。

—— 法新社

via 风向旗参考快讯 - Telegram Channel

3 小时前

命令行 AI 性能基准 Terminal-Bench 2.0 发布，GPT-5.2 胜率居首

研究人员于 2026 年 1 月 17 日发布 Terminal-Bench 2.0，这是一个评估 AI 智能体在命令行界面执行复杂任务的硬基准。该测试包含 89 个源自真实工作流的任务，涵盖软件工程与网络安全等领域。测试显示，当前顶尖模型胜率均低于 65%。其中，GPT-5.2 配合 Codex CLI 取得 63% 的最高分，Claude Opus 4.5 与 Gemini 3 Pro 紧随其后。研究指出，执行错误是导致失败的主因，且模型性能与 Token 消耗量并无显著正相关。

Arxiv

🍀在花频道 🍵茶馆聊天 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel

3 小时前

💻 Terminal-Bench 2.0 发布：GPT-5.2 在命令行 AI 基准测试中领跑

研究人员于 2026 年 1 月 17 日发布了命令行 AI 性能基准 Terminal-Bench 2.0，旨在评估 AI 智能体在命令行界面执行复杂任务的能力。该基准包含 89 个源自软件工程与网络安全等真实工作流的任务。测试结果显示，当前顶尖模型的胜率均低于 65%。其中，GPT-5.2 配合 Codex CLI 以 63% 的胜率位居榜首，Claude Opus 4.5 与 Gemini 3 Pro 紧随其后。研究指出，执行错误是导致任务失败的主要原因，且模型性能与 Token 消耗量之间并无显著正相关关系。

(科技圈)

via 茶馆 - Telegram Channel

Before

After