https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🔙备用群 https://t.me/gpt345
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
Anthropic 正式推出了 Claude for Microsoft 365,覆盖 Excel、PowerPoint 和 Word 应用程序,同时 Outlook 版 Claude 也进入了公测阶段,面向所有付费用户开放。这一新功能旨在帮助用户在不同的 Office 应用程序之间更高效地切换和协作。
Claude 的设计理念是,许多工作并不是局限于单一应用程序,因此它能够与用户在不同的软件间无缝切换。用户可以在 Outlook 中整理邮件,在 Word 中打开附件并根据团队的模板撰写备忘录,在 Excel 中进行数据分析,再在 PowerPoint 中将这些分析结果转换为演示文稿。整个过程中,用户无需重新解释他们的工作内容。
Claude 还具有邮件管理的智能功能。它能够在用户的 Outlook 收件箱中对邮件进行分类,识别哪些邮件需要用户亲自回复,哪些可以由 Claude 代为草拟,以及哪些邮件是垃圾邮件。Claude 会在 Outlook 撰写窗格中生成回复草稿,自动填充收件人、主题和正文,用户只需在审核后点击发送即可。
目前,Claude for Microsoft 365 已向所有付费计划的 Mac 和 Windows 用户开放。Claude for Outlook 在所有付费计划中也以 Beta 版本提供,管理员可以通过 Microsoft 管理中心从 Microsoft AppSource 部署这些加载项。这一新工具将为用户提供更高效的工作方式,帮助他们更好地利用 Microsoft 365 的功能。
划重点:
📧 Claude for Microsoft 365 现已推出,支持 Excel、PowerPoint 和 Word 应用。
🔄 Claude 能够在不同应用之间无缝切换,提升工作效率。
📝 Outlook 中的邮件管理功能,自动分类并生成回复草稿。
via AI新闻资讯 (author: AI Base)
谷歌即将上线每月9.99美元的AI健康教练
在揭晓新款谷歌 Fitbit Air 健身手环面纱的同时,谷歌周四表示,其还将把Fitbit应用更名为Google Health,并推出一项由AI驱动的健康教练订阅服务。利用谷歌的Gemini AI,全新的Google Health Coach将为用户提供个性化见解,充当健身教练、睡眠专家以及健康与保健顾问的结合体。该公司表示,该服务自去年起已进入公开预览阶段,并基于用户反馈持续进行改进。谷歌表示,作为Google Health Premium订阅的一部分,Health应用将于本月19日全球上线。这项AI健身教练服务将与 Google Health Premium 订阅捆绑提供,后者价格为9.99美元/月或99美元/年。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
在揭晓新款谷歌 Fitbit Air 健身手环面纱的同时,谷歌周四表示,其还将把Fitbit应用更名为Google Health,并推出一项由AI驱动的健康教练订阅服务。利用谷歌的Gemini AI,全新的Google Health Coach将为用户提供个性化见解,充当健身教练、睡眠专家以及健康与保健顾问的结合体。该公司表示,该服务自去年起已进入公开预览阶段,并基于用户反馈持续进行改进。谷歌表示,作为Google Health Premium订阅的一部分,Health应用将于本月19日全球上线。这项AI健身教练服务将与 Google Health Premium 订阅捆绑提供,后者价格为9.99美元/月或99美元/年。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
日前,欧洲议会议员和欧盟成员国就修订《人工智能法案》达成共识,同意禁止AI生成“深度伪造”的色情内容。据了解,这一禁令将被纳入2024年通过的《人工智能法案》修订条款,意味着欧盟将在法律层面对相关AI滥用行为划出明确红线。
欧洲议会议员迈克尔·麦克纳马拉表示,这是欧盟首次通过立法明确禁止“脱衣换脸”类应用程序。
他强调:“欧盟今天划定了‘红线’。人工智能绝不能用于羞辱、剥削或危害他人。”
近年来,AI深度伪造色情内容引发全球关注。
今年1月,马斯克旗下社交媒体平台X的AI聊天机器人Grok,就曾被部分用户滥用于生成色情内容,并被推上舆论风口浪尖。
根据人工智能取证组织报告,2025年12月25日至2026年1月1日,在Grok以深度伪造方式生成的2万张图像中,55%的人物图像穿着暴露,其中81%是女性,另有2%的图像中人物年龄不足18岁。
在持续数周的舆论压力下,X于1月14日宣布对Grok采取限制措施,禁止该功能生成真人裸露图像。
X平台安全团队表示,已实施技术措施,防止Grok账号允许编辑真人穿着比基尼等暴露服装的图像,该限制适用于所有用户,包括付费订阅用户。
此外,该团队还称,正在全天候工作以增设防护措施,移除违规及非法内容,在必要时将永久封禁账户并与当地政府及执法部门开展协作。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:快科技)
OpenAI周四宣布,其最新人工智能模型GPT-5.5的网络安全专用版本GPT-5.5-Cyber,已向经审核的安全团队开放限量预览。一个月前,其竞争对手Anthropic发布了Claude Mythos预览版,曾引发投资者及政府官员的密切关注。
OpenAI在官方博客中表示,推出该预览版并非旨在显著增强模型的网络攻防能力,而是通过定向训练,放宽模型在处理安全任务时的内置限制。此前,OpenAI已于上月底发布通用版GPT-5.5。
该公司指出,借助该网络专用版本,经授权的团队可更高效地执行漏洞识别与分拣、补丁验证及恶意软件分析等工作流。相比之下,通用版GPT-5.5内置的安全防护机制会增加此类任务的执行难度。
“GPT-5.5-Cyber允许少数合作伙伴研究那些特定访问行为至关重要的高级工作流,”OpenAI在博客中强调。
在上个月发布Mythos时,Anthropic决定仅向部分特定企业开放访问权限,这是其名为“玻璃翼”(Project Glasswing)的新网络安全计划的一部分。Anthropic首席执行官达里奥·阿莫代(Dario Amodei)还与特朗普政府高层会面,探讨了该模型及其潜在威力,而就在会面几周前,该公司刚刚被五角大楼列入黑名单。
上个月,美联储主席杰罗姆·鲍威尔(JeromePowell)与财政部长斯科特·贝森特(ScottBessent)会见了美国主要银行的首席执行官,共同讨论了Mythos模型。而在该模型面世前夕,美国副总统JD·万斯(JD Vance)与贝森特也曾与头部科技巨头CEO举行了电话会议。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:网易科技)
英伟达将向数据中心开发商IREN Ltd.投资多达21亿美元,这是两家公司更广泛合作的一部分,旨在加快人工智能(AI)基础设施建设。两家公司周四在声明中表示,IREN已同意向英伟达授予一项为期五年的认购权,允许其以每股70美元的行权价购买多达3000万股股份。双方还将共同部署价值数十亿美元的算力。
作为人工智能处理器领域的主导厂商,英伟达已在AI生态系统内达成多项合作。英伟达已入股OpenAI等开发商以及Marvell Technology等芯片制造商,旨在推动行业整体增长。
作为合作的一部分,IREN宣布与英伟达签署一项价值34亿美元的AI云服务合同,用于获取并部署英伟达Blackwell处理器。双方计划未来逐步增加多达5吉瓦的英伟达基础设施。
此次合作将主要聚焦于开发IREN位于德克萨斯州的2吉瓦Sweetwater园区。1吉瓦电力容量大致可为约75万户家庭供电。
IREN股价周四盘后上涨约10%,至62.50美元;英伟达股价基本持平。
声明称,英伟达与IREN计划共同部署大规模数据中心,利用英伟达的设备以及IREN在获取土地、电力等建设要素方面的专长推进项目建设。
周四,IREN还同意收购西班牙数据中心开发商Ingenostrum,以支持其扩张计划。
IREN由澳大利亚兄弟Daniel和Will Roberts创立,最初专注于比特币挖矿,随后转向AI计算。该公司原名Iris Energy,其股价去年大涨285%,2026年以来已上涨51%。
微软去年与IREN签署了一项约97亿美元的协议,购买其AI算力。
英伟达还投资了IREN的竞争对手,如CoreWeave和Nebius Group NV。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:环球市场播报)
法国巴黎检察院周四通报,法国网络犯罪监管部门已将针对埃隆・马斯克及其旗下社交平台X的调查,升级为刑事立案侦查。法国检方表示,法国相关部门已于4月20日向马斯克及X平台前首席执行官琳达・亚卡里诺发出传票,二人均拒绝出庭接受问询。
今年2月,法国执法部门突袭了X平台巴黎办公室,马斯克随后称这项调查是一场“政治攻击”。
这项调查由法国国会议员埃里克・博托雷尔在2025年初提请发起,核心调查两大方向:一是X平台被指控通过算法操纵影响、干预法国政治的相关投诉;二是马斯克与X平台被指蓄意放任其AI聊天机器人Grok的用户,在X平台上制作、传播否定大屠杀的言论,以及未经当事人同意的色情深度伪造图片。
Grok由马斯克旗下的人工智能公司xAI开发,xAI此前已收购了马斯克全资持有的X平台,并于今年年初与马斯克旗下的可回收火箭公司SpaceX完成合并。Grok的一个版本也已接入马斯克旗下车企特斯拉生产的电动汽车中。
其他多个国家和地区的司法机构也在对X平台与Grok展开调查,美国加州总检察长办公室亦同步开展相关调查。
这些调查普遍聚焦于:马斯克及其旗下企业是否蓄意放任用户,基于未经当事人同意的照片或视频,制作、传播含儿童性虐待材料在内的色情深度伪造图片。
据报道,今年4月,美国司法部已告知法国相关部门,不会协助调查马斯克及X平台,同时指责法国不当干预美国企业经营。
马斯克与SpaceX的发言人暂未回应置评请求,美国司法部与巴黎检察院也暂未就此事作出回应。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:环球市场播报)
Codex 推出 Chrome 扩展,可在浏览器中运行 agent 任务
OpenAI 为 Codex 发布 Chrome 扩展,让 agent 直接在浏览器中操作已登录的网站,处理页面导航和重复数据录入。扩展通过写代码并运行来完成操作,在后台独立标签组工作,不干涉用户当前标签页,支持多任务跨标签页并行。Codex 会根据任务需要自动组合浏览器和插件工具。
使用前需在 Codex app 安装 Chrome 插件,再从 Chrome Web Store 安装扩展。同时,Codex app 内置浏览器功能也得到增强,可操作本地开发服务器和文件页面,用于点击 UI、复现视觉 bug 或验证本地修复。目前除欧盟和英国外全地区可用,这两个地区后续支持。
OpenAI
🌸 在花频道 · 茶馆讨论 · 投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
OpenAI 为 Codex 发布 Chrome 扩展,让 agent 直接在浏览器中操作已登录的网站,处理页面导航和重复数据录入。扩展通过写代码并运行来完成操作,在后台独立标签组工作,不干涉用户当前标签页,支持多任务跨标签页并行。Codex 会根据任务需要自动组合浏览器和插件工具。
使用前需在 Codex app 安装 Chrome 插件,再从 Chrome Web Store 安装扩展。同时,Codex app 内置浏览器功能也得到增强,可操作本地开发服务器和文件页面,用于点击 UI、复现视觉 bug 或验证本地修复。目前除欧盟和英国外全地区可用,这两个地区后续支持。
OpenAI
🌸 在花频道 · 茶馆讨论 · 投稿通道
via 科技圈🎗在花频道📮 - Telegram Channel
上海开启AI安全监管试点
在人工智能迅速发展的背景下,上海市正积极推动 AI 安全监管的落地,进一步提升企业在安全治理方面的能力。日前,上海市互联网协会举行了第五届四次会员大会暨五届六次理事会、监事会会议,正式成立了人工智能工作委员会,并启动了 “人工智能赋能安全监管” 的试点项目。
此次会议上,上海谋乐网络科技有限公司被任命为人工智能工作委员会的副主任委员单位,积极参与试点的启动和相关专题交流。值得注意的是,在试点启动仪式上,谋乐网络展示了名为 “Elliot” 的 AI 红队智能体。这个智能体具备与监管场景需求相匹配的能力,能够有效嵌入监管治理的链条,为相关部门提供强大的技术支持。
会议中,谋乐网络的 CEO 罗清篮以《未来攻击者》为主题,分享了 AI 驱动下的攻防格局变化以及面临的安全治理挑战。他指出,随着 AI 技术的应用普及,攻击手段和防御策略也在不断演化,企业在安全防护方面需提前布局,以应对潜在威胁。
这一试点项目的启动标志着上海在 AI 安全监管领域迈出了重要一步。通过技术的力量,企业可以更好地应对复杂的安全挑战,并提升整体安全管理水平。同时,监管机构也能够借助先进的技术手段,提升监管效率,确保网络安全和数据安全,为整个社会的数字化转型保驾护航。
未来,上海市互联网协会将继续与多方合作,共同推动人工智能在安全监管领域的深入应用,为实现更高效、更安全的互联网环境而努力。
via AI新闻资讯 (author: AI Base)
在人工智能迅速发展的背景下,上海市正积极推动 AI 安全监管的落地,进一步提升企业在安全治理方面的能力。日前,上海市互联网协会举行了第五届四次会员大会暨五届六次理事会、监事会会议,正式成立了人工智能工作委员会,并启动了 “人工智能赋能安全监管” 的试点项目。
此次会议上,上海谋乐网络科技有限公司被任命为人工智能工作委员会的副主任委员单位,积极参与试点的启动和相关专题交流。值得注意的是,在试点启动仪式上,谋乐网络展示了名为 “Elliot” 的 AI 红队智能体。这个智能体具备与监管场景需求相匹配的能力,能够有效嵌入监管治理的链条,为相关部门提供强大的技术支持。
会议中,谋乐网络的 CEO 罗清篮以《未来攻击者》为主题,分享了 AI 驱动下的攻防格局变化以及面临的安全治理挑战。他指出,随着 AI 技术的应用普及,攻击手段和防御策略也在不断演化,企业在安全防护方面需提前布局,以应对潜在威胁。
这一试点项目的启动标志着上海在 AI 安全监管领域迈出了重要一步。通过技术的力量,企业可以更好地应对复杂的安全挑战,并提升整体安全管理水平。同时,监管机构也能够借助先进的技术手段,提升监管效率,确保网络安全和数据安全,为整个社会的数字化转型保驾护航。
未来,上海市互联网协会将继续与多方合作,共同推动人工智能在安全监管领域的深入应用,为实现更高效、更安全的互联网环境而努力。
via AI新闻资讯 (author: AI Base)
OpenAI推出新的“可信联系人”保障措施
周四,OpenAI宣布了一项名为 “可信联系人” 的新功能,旨在如果对话中表达了自残的提及,则提醒可信的第三方。该功能允许成年ChatGPT用户在其账户内将另一个人指定为可信联系人,例如朋友或家庭成员。在对话可能转向自残的情况下,OpenAI公司现在将鼓励用户联系该联系人。系统还会向该联系人发送自动警报,并鼓励他们与用户联系确认。这家AI公司目前使用自动化和人工审查的组合来处理潜在有害事件。如果OpenAI公司的内部团队决定该情况代表严重的安全风险,ChatGPT就会向可信联系人发送警报。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
周四,OpenAI宣布了一项名为 “可信联系人” 的新功能,旨在如果对话中表达了自残的提及,则提醒可信的第三方。该功能允许成年ChatGPT用户在其账户内将另一个人指定为可信联系人,例如朋友或家庭成员。在对话可能转向自残的情况下,OpenAI公司现在将鼓励用户联系该联系人。系统还会向该联系人发送自动警报,并鼓励他们与用户联系确认。这家AI公司目前使用自动化和人工审查的组合来处理潜在有害事件。如果OpenAI公司的内部团队决定该情况代表严重的安全风险,ChatGPT就会向可信联系人发送警报。
—— Techcrunch
via 风向旗参考快讯 - Telegram Channel
工信部等三部门联合发布《人工智能终端智能化分级》国家标准
5月8日,工业和信息化部、国家市场监督管理总局与商务部联合发布《人工智能终端智能化分级》(GB/Z177—2026)系列国家标准,正式构建国内AI终端智能化能力的统一评价体系。
该标准采用“2+N”架构,其中“2”涵盖《参考框架》与《总体要求》,明确智能终端定义、分级逻辑与测试方法,确立L1响应级、L2工具级、L3辅助级至L4协同级的四级能力阶梯,L4级将随技术演进在后续修订中持续完善。“N”则针对细分硬件制定专项规范,首批覆盖手机、微型计算机、电视、智能眼镜、汽车座舱、音箱与耳机七大品类,并规划向更多终端延伸。
据悉,标准由小米、华为、荣耀、OPPO、vivo、联想、科大讯飞等头部厂商联合起草,目前全文暂未在国家标准信息平台公示。
随着端侧大模型加速渗透,该分级体系的落地将有效扭转市场“智能化”概念泛化与评测标准碎片化的现状,推动产业从硬件参数竞赛向算法与场景协同转型,为产品研发、行业规范及消费者决策提供权威基准。
via AI新闻资讯 (author: AI Base)
5月8日,工业和信息化部、国家市场监督管理总局与商务部联合发布《人工智能终端智能化分级》(GB/Z177—2026)系列国家标准,正式构建国内AI终端智能化能力的统一评价体系。
该标准采用“2+N”架构,其中“2”涵盖《参考框架》与《总体要求》,明确智能终端定义、分级逻辑与测试方法,确立L1响应级、L2工具级、L3辅助级至L4协同级的四级能力阶梯,L4级将随技术演进在后续修订中持续完善。“N”则针对细分硬件制定专项规范,首批覆盖手机、微型计算机、电视、智能眼镜、汽车座舱、音箱与耳机七大品类,并规划向更多终端延伸。
据悉,标准由小米、华为、荣耀、OPPO、vivo、联想、科大讯飞等头部厂商联合起草,目前全文暂未在国家标准信息平台公示。
随着端侧大模型加速渗透,该分级体系的落地将有效扭转市场“智能化”概念泛化与评测标准碎片化的现状,推动产业从硬件参数竞赛向算法与场景协同转型,为产品研发、行业规范及消费者决策提供权威基准。
via AI新闻资讯 (author: AI Base)
近日,Mozilla 工程师在博客中分享了利用 Anthropic 的先进 AI 模型 Claude Mythos,成功排查出 Firefox 浏览器 271 个安全漏洞的幕后故事。根据此前的报道,Mozilla 团队在 Firefox 浏览器的 150 版本中,依靠 Mythos Preview AI 模型发现并修复了这些漏洞。
在这 271 个漏洞中,令人关注的是,180 个被评估为 “高危”,意味着用户在正常浏览网页时就可能受到影响;此外,还有 80 个中危漏洞和 11 个低危漏洞。为了回应外界对 AI 找 Bug 的质疑,Mozilla 公开了 12 份完整的 Bugzilla 报告,以证明这不是单纯的 AI 炒作。
Mozilla 工程师提到,为了克服 AI 在代码分析中常出现的 “幻觉” 现象,开发了一套专门的 Agent Harness(智能体套件)。以往,AI 分析代码时会产生大量看似合理但实际上虚构的报告,导致人工审核的成本大大增加。而这次的成功,得益于模型自身能力的提升和这套定制化工具的应用。
该套件可以向模型下达具体指令,例如 “在这个文件中找 Bug”,同时提供读写文件和评估测试用例的工具,并循环执行直到任务完成。具体操作中,套件指向特定的源文件,Mythos 会自主生成测试用例,比如特定的 HTML 代码,随后利用现有的模糊测试工具进行测试。如果触发内存崩溃,就可以确认存在漏洞。为了进一步过滤误报,Mozilla 还引入了第二个大型模型,对第一模型的输出进行打分,只有高分的报告才会提交给开发者。
Mozilla 的杰出工程师 Brian Grinstead 表示,经过双重验证后,最终生成的漏洞报告几乎没有误报,这为工程师提供了明确的确认信号:问题确实存在,修复工作已经完成,且测试用例入库后不会再复现。
划重点:
🌟 271 个安全漏洞中,有 180 个被评为 “高危”,可能影响用户正常使用。
🤖 Mozilla 利用 AI 模型和智能体套件有效发现和修复漏洞。
🔍 通过双重验证,最终报告几乎没有误报,确保漏洞修复的准确性。
via AI新闻资讯 (author: AI Base)
根据微软在 2026 年发布的一份报告,全球 17.8% 的适龄劳动力正在使用生成式人工智能,但发达国家与发展中国家之间的差距正在加大。报告显示,在 2026 年第一季度,发达国家 15 至 64 岁的人群中,27.5% 的人使用了生成式 AI 工具,而发展中国家的这一比例仅为 15.4%。这一差距比 2025 年下半年扩大了 1.5 个百分点。
造成这种分化的原因主要在于互联网接入、基本数字技能和电力的严重不平等。此外,AI 模型在英语上的表现更为强劲,因为大多数主要 AI 公司都位于美国,这也限制了非英语国家的工具传播。然而,处理非欧洲语言的技术进步正在推动一些国家,特别是亚洲国家,赶上 AI 工具的使用。
在 AI 使用率方面,阿联酋以 70.1% 的比例位居首位,紧随其后的是新加坡、挪威、爱尔兰和法国。需要注意的是,这些数据主要是基于运行 Windows 和微软产品(如 Bing 和 Copilot)的计算机测量得出的,苹果设备上的使用情况部分被忽略,且关于俄罗斯、伊朗和中国的数据并不完整。
尽管如此,微软在报告中表示,针对由于自动化带来的失业担忧,AI 编程工具可能会增加开发者岗位的需求。不过,微软也警告说,目前尚难以预测 AI 对劳动力市场的全面影响。在 2026 年 4 月,微软首次向近 9000 名美国员工提供了自愿离职的机会。同时,根据 Layoffs.fyi 的数据,自 2023 年 1 月以来,科技行业已有近 99,000 名员工被裁员,主要集中在美国。
划重点:
📊 全球 17.8% 的适龄劳动力正在使用生成式 AI,富国与穷国差距加大。
🌍 发达国家 AI 使用率为 27.5%,而发展中国家仅为 15.4%。
🚀 阿联酋以 70.1% 的比例领先全球 AI 使用,报告指出不平等的技术接入问题。
via AI新闻资讯 (author: AI Base)
OpenAI 发布三款实时语音模型,GPT-5 级推理能力落地
人工智能巨头 OpenAI 再次刷新了语音交互的技术边界,正式推出了三款全新的实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。这三款模型目前已集成至 Realtime API 供开发者使用,旨在从底层技术上攻克语音交互中长期存在的延迟高、无法自然打断以及多语言支持难等痛点。
作为此次发布的重头戏,GPT-Realtime-2 被定义为目前最智能的 AI 语音模型,也是首个具备 GPT-5 级推理能力的语音工具。与传统的语音助手不同,它在保持对话极度自然流畅的同时,能够实时进行复杂的逻辑推理、灵活调用外部工具,并能精准识别且处理用户的打断或纠正。这一突破意味着未来的语音助手将不再只是简单的指令执行者,而是能处理多步骤复杂任务的实时协作伙伴。
在定价策略上,GPT-Realtime-2 的音频输入费用设定为每百万 Token 32 美元(约合人民币 218 元),输出费用为 64 美元(约合人民币 436 元),而缓存输入的成本显著降低,仅需 0.4 美元。
除了核心推理模型,另外两款功能性模型也各具特色。GPT-Realtime-Translate 展现了强大的翻译性能,支持 70 种输入语言与 13 种输出语言的即时转换,其翻译速度几乎与说话者同步,能够胜任跨国会议等高要求的实时沟通场景。而 GPT-Realtime-Whisper 则专注于追求极致的流式转录,实现了“音随人动”的低延迟体验,极大缩短了会议记录和实时字幕的等待时间。这两款模型的计费方式更为灵活,分别按分钟计费,价格为每分钟 0.034 美元和 0.017 美元。
业内分析认为,OpenAI 这一系列动作标志着 AI 语音交互正从“简单响应”向“深度实时理解”跨越,进一步巩固了其在智能时代的技术领先地位。
via AI新闻资讯 (author: AI Base)
人工智能巨头 OpenAI 再次刷新了语音交互的技术边界,正式推出了三款全新的实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper。这三款模型目前已集成至 Realtime API 供开发者使用,旨在从底层技术上攻克语音交互中长期存在的延迟高、无法自然打断以及多语言支持难等痛点。
作为此次发布的重头戏,GPT-Realtime-2 被定义为目前最智能的 AI 语音模型,也是首个具备 GPT-5 级推理能力的语音工具。与传统的语音助手不同,它在保持对话极度自然流畅的同时,能够实时进行复杂的逻辑推理、灵活调用外部工具,并能精准识别且处理用户的打断或纠正。这一突破意味着未来的语音助手将不再只是简单的指令执行者,而是能处理多步骤复杂任务的实时协作伙伴。
在定价策略上,GPT-Realtime-2 的音频输入费用设定为每百万 Token 32 美元(约合人民币 218 元),输出费用为 64 美元(约合人民币 436 元),而缓存输入的成本显著降低,仅需 0.4 美元。
除了核心推理模型,另外两款功能性模型也各具特色。GPT-Realtime-Translate 展现了强大的翻译性能,支持 70 种输入语言与 13 种输出语言的即时转换,其翻译速度几乎与说话者同步,能够胜任跨国会议等高要求的实时沟通场景。而 GPT-Realtime-Whisper 则专注于追求极致的流式转录,实现了“音随人动”的低延迟体验,极大缩短了会议记录和实时字幕的等待时间。这两款模型的计费方式更为灵活,分别按分钟计费,价格为每分钟 0.034 美元和 0.017 美元。
业内分析认为,OpenAI 这一系列动作标志着 AI 语音交互正从“简单响应”向“深度实时理解”跨越,进一步巩固了其在智能时代的技术领先地位。
via AI新闻资讯 (author: AI Base)