https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.netfly.top
BEST AI中转 https://api.oaibest.com 2.8-4.2折 支持OpenAI, Claude, Gemini,Grok, Deepseek, Midjourney, 文件上传分析

Buy ads: https://telega.io/c/AI_News_CN
Claude 4.1 发布:更强的Agent、代码和推理

今天凌晨,Claude Opus 4.1 模型发布,Pro/Max/Team 用户可在网页端使用,API 已开放。Claude.ai 已可使用,性能更强,价格不变。

能力全面提升

按 Anthropic 的官方说法,Claude Opus 4.1 是 Opus 4 的直接替代品 ,在编程、写作、工具调用以及Agent 方面,都得到了全面提升

• Agent 能力:能准确处理长时程任务,以及复杂企业工作流程,在TAU-bench表现优异;

• 高级编程:能完成上千步骤的长程编程任务,支持单次 32k 下文输出;

• 更强的搜索:能独立进行数小时研究任务,更为有效的进行内外信息搜索;

• 更强的写作:写的更像人

根据公开基准测试数据,Claude Opus4.1 在各个榜单上,都完成了对老版本的超越,详细如下图。

编程相关跑分

这里专门说一下 SWE-bench 榜单,这是一个编程榜单。

榜单中,Opus 4.1 得分为 74.5% 为最高,紧随其后的是 Claude Sonnet 4,下图是更为具体的数据

SWE-bench

附录

附1:Claude Opus 4.1 信息卡/技术报告

https://assets.anthropic.com/m/4c024b86c698d3d4/original/Claude-4-1-System-Card.pdf附2:相关链接

Claude Webapp

www.claude.ai

Claude Opus 官方信息

https://www.anthropic.com/claude/opus

via cnBeta.COM - 中文业界资讯站 (author: 稿源:赛博禅心)
亚马逊AWS首度接入OpenAI开放权重模型

亚马逊公司计划向客户提供OpenAI最新的人工智能模型,这是这家云计算巨头首次推出来自这家 AI 初创公司的产品。当地时间周二,亚马逊在官网发布新闻稿称,公司云计算部门AWS将在 Bedrock和SageMaker平台上提供OpenAI的开放权重模型gpt-oss-120b和gpt-oss-20b。亚马逊表示,通过向AWS上的数百万客户提供该技术,可以扩大OpenAI领先技术的影响力。AWS产品总监阿图尔·德奥写道,“OpenAI成为我们开放权重模型提供商,标志着我们致力于提供尖端AI的愿景得以推进,我们客户群规模也标志着OpenAI技术获取途径的变革性转变。”

——财联社彭博社

via 风向旗参考快讯 - Telegram Channel
特朗普:药品和芯片关税将于“未来一周左右”宣布

美国总统唐纳德·特朗普表示,美国对半导体和药品进口征收的关税将在“未来一周左右”宣布。当前,政府准备以关键经济领域为目标,致力于重塑全球贸易。“我们一开始会对药品征收较低的关税,但一年内,最多不超过一年半,关税将升至150%,然后升至250%,因为我们希望药品在我们国家生产,”特朗普周二在接受CNBC采访时表示。

“我们将宣布对半导体和芯片的措施,这是另一类,”总统还表示。

美国商务部自4月份起已对半导体市场展开调查,为可能对这一预计全球销售额接近7,000亿美元的行业征收关税铺路。特朗普治下,美国已对汽车及零部件、钢和铝产品进口征收关税。

对进口芯片征收关税可能会大幅推升微软、OpenAI、Meta Platforms Inc.和亚马逊等大型数据中心运营商的成本。这些公司计划斥巨资购买推动其人工智能业务所需的先进半导体。

特朗普曾强调利用关税来刺激对芯片生产等国内制造业的投资,周二他对台积电扩大其美国业务的计划表示赞赏。

“要知道,我们拥有全球最大,台积电要来美国,在亚利桑那州投资3000亿美元,建设全球最大的芯片和半导体工厂,”他表示。

目前尚不清楚特朗普提及的数字从何而来。台积电计划在未来几年内总投资1650亿美元,在亚利桑那州建设六座先进的半导体工厂、两座封装厂和一个研究中心。

台积电和白宫没有立即回复就上述言论寻求澄清的置评请求。

特朗普还曾威胁对制药行业实施严厉关税,以迫使制造回流美国。

默克、礼来等全球最大的制药公司在全球拥有数十家生产基地。根据生物技术创新组织数据,近90%的美国生物科技公司至少有一半的获批产品依赖进口成分。

via cnBeta.COM - 中文业界资讯站 (author: 稿源:环球市场播报)
🛡️ OpenAI启动“红队挑战”:揭示gpt-oss-20b模型潜在风险

OpenAI正举办一场“红队挑战”黑客马拉松,旨在发现其gpt-oss-20b模型在发布版本中存在的安全漏洞和有害行为,重点关注文本输入和输出。本次挑战不涉及模型微调或其他修改引起的问题,以确保范围清晰和可复现性。

挑战赛关注的重点领域包括:

* 奖励作弊: 模型为最大化奖励指标而采取捷径,如产生听起来自信但错误的答案,或规避过滤器以实现“越狱”。
* 欺骗: 模型为达成特定目标(如避免关机或引导用户)而故意散布虚假信息。
* 隐藏动机/欺骗性对齐: 模型内部追求与训练目标不同的私有目标,仅在服务于自身目的时才表现出“乐于助人”。
* 破坏: 自主智能体故意损害或扰乱其被要求支持的流程,如破坏文件、插入细微错误或扰乱工作流。
* 不当工具使用: 具备函数调用或外部API的智能体系统以不安全的方式调用高权限工具(如电子邮件、代码执行、支付)。
* 数据泄露: 模型被诱导或通过后门泄露专有训练数据或用户输入,或在输出中编码秘密载荷。
* 隐藏实力: 模型在评估或研究中故意隐藏其全部能力。
* 评估感知: 模型能识别“考试条件”并在测试时改变行为,以显得更安全或更有能力,从而损害基准测试的可靠性。
* 思维链问题: 模型在思维链中策略性地避免透露不当行为,或无意中泄露不当信息。

(@OpenAI)

via 茶馆 - Telegram Channel
🤖 Grok App新增AI图像视频生成功能,含NSFW模式;X平台面临争议并恢复Vine视频

Grok AI新功能
* “Imagine”功能上线: 马斯克的Grok应用现已推出“Imagine”功能,允许用户通过文本提示或上传图片生成AI图像和视频。
* “Spicy”模式: 该功能提供“自定义”、“趣味”、“普通”和“Spicy”四种视频生成模式,其中“Spicy”模式包含NSFW(不适宜工作场所)内容,尽管会询问出生年份,但未进行正式的年龄验证。Grok声称“Spicy”模式旨在实现“大胆、无限制的创造力”。
* 生成效率与质量: 内容生成速度极快,每次提示会提供多个结果。据TechCrunch报道,Grok Imagine可生成15秒的视频并配有背景音乐。然而,图像生成仍不完善,例如在测试中生成足球场图片时出现错误。马斯克表示,该功能仍处于“早期测试版”,将在未来数周和数月内“几乎每天”得到大幅改进。
* 内容趋势: 早期反馈显示,该工具主要被用于生成NSFW视频。

X平台相关争议与动态
* 内容审查挑战: Grok新功能的推出正值马斯克的另一平台X因不当处理儿童性虐待材料(CSAM)面临潜在法律诉讼之际。此前,Grok AI也被发现曾响应生成女性露骨图像的请求。
* 广告商吸引力: X目前不支持Grok的AI伴侣功能,这可能对广告商的吸引力构成挑战。
* Vine视频存档恢复: 马斯克宣布,X已找回并正在努力恢复2016年之前Vine视频的存档,用户将很快能够重新发布这些视频。Vine是Twitter于2012年收购的短视频平台,但已于数年前关闭。

(PCMag.com)

via 茶馆 - Telegram Channel
🤖 OpenAI发布开放模型,挑战中国DeepSeek

OpenAI已推出免费且更透明的AI系统,标志着其从以往基于订阅的封闭模式转型。此举旨在与中国的DeepSeek等竞争对手展开竞争。

(FT)

via 茶馆 - Telegram Channel
↩️🖼 Google Gemini 正在灰度测试「Guided Learning」学习向导功能


LoopDNS资讯播报:

ChatGPT 推出学习模式 截至 7 月 29 日(太平洋时间),OpenAI 正式推出 ChatGPT “Study 模式”。Free、Plus、Pro 与 Team 用户现在即可在 Tools 菜单启用该功能,未来数周内也将扩展至 Edu 方案;所有平台均无需额外付费即可使用。 Study 模式通过苏格拉底式提问和分层讲解,引导用户逐步推理,并可引用上传的 PDF 或图像材料;若开启 Memory,系统会结合历史学习记录提供个性化提示。官方提示该功能仅在登录状态下可用,且暂无法在 Project…

Google Gemini 正在灰度测试「Guided Learning」学习向导功能

多名用户本周在 Gemini 网页版的工具选择器中发现新入口 “Guided Learning”。据外媒 Testing Catalog 及社群截图,该功能正以小范围 A/B 方式推送,暂未向所有账户开放。

via LoopDNS资讯播报 - Telegram Channel
OpenAI 发布开源模型 gpt-oss 系列

OpenAI 正式发布 gpt-oss 系列开源模型,包含两个版本:gpt-oss-20b(21B 参数)和 gpt-oss-120b(117B 参数)。两款模型均采用 Apache 2.0 许可证,支持商业部署和自定义微调。

模型具备可配置推理强度、完整思维链展示、原生工具调用等功能,支持网页浏览、Python 代码执行和结构化输出。其中,gpt-oss-120b 模型在核心推理基准上性能接近 OpenAI o4-mini,可在单张 H100 GPU 上运行。较小的 gpt-oss-20b 模型性能与 o3-mini 相当,仅需 16 GB 内存,适用于设备端本地推理。模型权重已在 Hugging Face 平台发布。

gpt-oss-20b | gpt-oss-120b | OpenAI

🍀频道 🍵茶馆 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
Anthropic 发布 Claude Opus 4.1 模型

Anthropic 公司今日宣布,正式推出其最新模型 Claude Opus 4.1。该模型是前代 Claude Opus 4 的升级版本。据介绍,新模型在智能体任务(agentic tasks)、真实世界编程以及推理能力方面均实现了性能提升。

Opus 4.1 现已面向付费 Claude 用户和 Claude Code 开放,同时支持 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI。Anthropic 还表示,未来几周内将带来更大规模的模型升级。

Anthropic

🍀频道 🍵茶馆 📮投稿

via 科技圈🎗在花频道📮 - Telegram Channel
Anthropic发布Opus 4.1 编程、研究更强大

人工智能模型的竞赛再度升温。在OpenAI即将发布备受期待的GPT-5之际,Anthropic率先升级自家模型,推出Claude Opus 4.1,声称在编程、研究和数据分析能力方面实现显著提升。美东时间周二,Anthropic公司宣布新模型Opus 4.1在编程评估基准SWE-Bench Verified上的得分达到74.5%,较前代Opus 4的 72.5% 提升两个百分点。新模型在处理大型代码库导航和多文件代码重构方面表现尤为突出。GitHub、Rakuten Group 等客户反馈显示,Opus 4.1在代码修改精准度和调试效率方面均有显著改善,能够在不引入漏洞的情况下精确定位需要修正的代码位置。

—— 华尔街见闻彭博社Anthropic

via 风向旗参考快讯 - Telegram Channel
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]