https://t.me/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
📈主流AI服务状态页通知 | 🆕汇集全网ChatGPT/AI新闻 #AI #ChatGPT
🆓免费AI聊天 https://free.oaibest.com
✨BEST AI中转 https://api.oaibest.com 2.8折起 支持OpenAI, Claude code, Gemini,Grok, Deepseek, Midjourney, 文件上传分析
Buy ads: https://telega.io/c/AI_News_CN
豪掷 5 亿美金后又投千万!昆仑万维领跑海外AI短剧, 8000 万月活背后的“掘金术”
在全球AI短剧的热浪中,昆仑万维再次展现了其强大的统治力。 继2024年底投资5亿美金杀入海外短剧赛道后,该公司近期宣布追加千万美金,旨在深耕并强化海外AI短剧的创作生态。
MAU突破8000万,AI短剧“吸金”能力惊人。
昆仑万维旗下的 DramaWave 和 FreeReels 平台已成为海外市场的现象级应用。
流量高地:两大平台合计月活跃用户(MAU)已超过 8000万。
营收稳健:月流水高达 4000万美金,展现了极强的商业变现能力。
模块领先:DramaWave 的 AI 剧模块已上线近千部作品,月活过千万,稳居 AI 剧市场领导地位。
SkyAnime 工具立功,自制剧开启盈利新模式。
依托自研的 SkyAnime AI 工具,昆仑万维成功将生产效率与内容创意深度结合。 其中,自制 AI 短剧《掠夺词条!我转职为亡灵天灾》以极低的制作成本实现了高额收入,为整个行业提供了可复制的 AI 短剧盈利模板。
“百万美金”征集令,推动 AI 短剧工业化。
为了进一步扩充内容库,昆仑万维启动了**「百万美金 剧启 AI」**计划。 该计划面向全球征集优质 AI 短剧,通过提供资金扶持和尖端技术支持,意在打破传统创作瓶颈,加速 AI 短剧的工业化进程。
从5亿美金的基础建设到千万美金的生态扶持,昆仑万维科技股份有限公司正通过 AI 技术重塑海外短剧的商业版图。 在 AI 驱动的“工业化”生产模式下,海外短剧市场或许将迎来真正的爆发。
via AI新闻资讯 (author: AI Base)
在全球AI短剧的热浪中,昆仑万维再次展现了其强大的统治力。 继2024年底投资5亿美金杀入海外短剧赛道后,该公司近期宣布追加千万美金,旨在深耕并强化海外AI短剧的创作生态。
MAU突破8000万,AI短剧“吸金”能力惊人。
昆仑万维旗下的 DramaWave 和 FreeReels 平台已成为海外市场的现象级应用。
流量高地:两大平台合计月活跃用户(MAU)已超过 8000万。
营收稳健:月流水高达 4000万美金,展现了极强的商业变现能力。
模块领先:DramaWave 的 AI 剧模块已上线近千部作品,月活过千万,稳居 AI 剧市场领导地位。
SkyAnime 工具立功,自制剧开启盈利新模式。
依托自研的 SkyAnime AI 工具,昆仑万维成功将生产效率与内容创意深度结合。 其中,自制 AI 短剧《掠夺词条!我转职为亡灵天灾》以极低的制作成本实现了高额收入,为整个行业提供了可复制的 AI 短剧盈利模板。
“百万美金”征集令,推动 AI 短剧工业化。
为了进一步扩充内容库,昆仑万维启动了**「百万美金 剧启 AI」**计划。 该计划面向全球征集优质 AI 短剧,通过提供资金扶持和尖端技术支持,意在打破传统创作瓶颈,加速 AI 短剧的工业化进程。
从5亿美金的基础建设到千万美金的生态扶持,昆仑万维科技股份有限公司正通过 AI 技术重塑海外短剧的商业版图。 在 AI 驱动的“工业化”生产模式下,海外短剧市场或许将迎来真正的爆发。
via AI新闻资讯 (author: AI Base)
五角大楼引入“最强大脑”:OpenAI 与美国国防部达成深度合作
美国国防部(亦称“战争部”)近日宣布了一项重大的技术升级计划。据最新官方声明,国防部将与 AI 巨头 OpenAI 正式展开合作,将ChatGPT深度集成至其通用的企业级人工智能平台 GenAI.mil 中。
此次合作规模空前,OpenAI 的前沿大型语言模型将直接面向美国国防部下属的所有 300 万名人员开放使用。美方官员表示,引入ChatGPT旨在显著提升部队的任务执行效率与整体战备水平,为联合部队提供更具决策优势的人工智能支撑。
值得关注的是,作为承载这一技术的平台,GenAI.mil 在上线短短两个月内,独立用户数量已成功突破一百万大关。该平台此前已由 Google Gemini 提供底层技术支持,其高度的可靠性和稳健的基础设施已在多项军 事应用中得到验证。美国国防部长皮特·赫格塞斯对此高度评价,认为人工智能已正式开启了未来战争的新篇章,而通过集成像ChatGPT这样最先进的模型,美军正以“战时速度”同步科技产业的最新成果。
via AI新闻资讯 (author: AI Base)
美国国防部(亦称“战争部”)近日宣布了一项重大的技术升级计划。据最新官方声明,国防部将与 AI 巨头 OpenAI 正式展开合作,将ChatGPT深度集成至其通用的企业级人工智能平台 GenAI.mil 中。
此次合作规模空前,OpenAI 的前沿大型语言模型将直接面向美国国防部下属的所有 300 万名人员开放使用。美方官员表示,引入ChatGPT旨在显著提升部队的任务执行效率与整体战备水平,为联合部队提供更具决策优势的人工智能支撑。
值得关注的是,作为承载这一技术的平台,GenAI.mil 在上线短短两个月内,独立用户数量已成功突破一百万大关。该平台此前已由 Google Gemini 提供底层技术支持,其高度的可靠性和稳健的基础设施已在多项军 事应用中得到验证。美国国防部长皮特·赫格塞斯对此高度评价,认为人工智能已正式开启了未来战争的新篇章,而通过集成像ChatGPT这样最先进的模型,美军正以“战时速度”同步科技产业的最新成果。
via AI新闻资讯 (author: AI Base)
据报道,美国“战争部”(国防部)将与 OpenAI 合作,将ChatGPT集成到该机构的通用人工智能平台GenAI.mil中。美国战争部在最新声明中写道:“此次合作将使OpenAI先进的大型语言模型能够便捷地供战争部所有300万人员使用。ChatGPT的投入使用将有助于提升任务执行能力和战备水平,为联合部队提供可靠的人工智能能力。”
据声明介绍,自部署以来仅两个月,美国战争部的企业级人工智能平台GenAI.mil的独立用户数量就已突破一百万。GenAI的应用范围涵盖所有军种,已成为战争部安全可靠、随时可投入任务的人工智能通用平台。
“该平台的可靠性已得到验证,自推出以来一直保持100%的正常运行时间,并且拥有强大的基础设施,这使其成为整个部门值得信赖的人工智能平台。”声明补充道。
美国战争部强调,该技术的应用已经“加快了运营节奏,提高了用户的决策优势”。相关官员表示,战争部人员正在接受培训,以便将人工智能功能融入到日常工作流程中。
去年12月,五角大楼宣布推出GenAI.mil,该平台由Google Gemini提供技术支持。
“美国战争的未来已然到来,它的名字就叫人工智能,”美国国防部长皮特·赫格塞斯在接受采访时说道。
他补充说,该平台将“世界上最强大的前沿人工智能模型,从谷歌Gemini开始,直接送到每一位美国战士手中”。
今年1月,美国战争部宣布启动人工智能加速战略,旨在消除遗留的官僚障碍,并将前沿人工智能能力整合到每个任务领域。
“在人工智能时代,速度决定胜负,战争部将与美国人工智能产业的发展速度保持同步,”负责研究和工程的战争部副部长Emil Michael此前表示:“我们正在引进最优秀的人才,最前沿的技术,并将最尖端的人工智能模型融入到劳动力队伍中——所有这一切都以战时的速度进行。”
上述声明则再次强调,“战争部正在构建一个人工智能生态系统,旨在提升速度、安全性和持久的任务影响力。将ChatGPT集成到GenAI.mil中,标志着在将前沿人工智能能力打造为日常作战标准方面又迈出了关键一步。”
via cnBeta.COM - 中文业界资讯站 (author: 稿源: 财联社)
美国国防部宣布与 OpenAI 达成合作,将 ChatGPT 集成至其通用人工智能平台 GenAI.mil。此举将使国防部全部 300 万人员能够使用 OpenAI 的大型语言模型,旨在通过提供可靠的人工智能能力,提升任务执行效率、战备水平及决策优势。
GenAI.mil 平台于去年 12 月推出,最初由 Google Gemini 提供技术支持。该平台在部署后的两个月内,独立用户数量已突破 100 万,并始终保持 100% 的正常运行时间。美国国防部长皮特·赫格塞斯表示,人工智能代表了美国战争的未来,该平台旨在将最强大的前沿模型直接交付给每位士兵。
此次集成是美国国防部人工智能加速战略的关键步骤。负责研究和工程的副部长 Emil Michael 指出,国防部正致力于消除官僚障碍,以“战时速度”将尖端 AI 技术融入所有任务领域。目前,相关人员正在接受培训,以将 AI 功能整合进日常工作流程,构建一个兼顾速度、安全与持久影响力的军事人工智能生态系统。
(IT业界资讯)
via 茶馆 - Telegram Channel
AI 芯片界杀出“黑马”!DEEPX 携手神州数码进军中国:剑指物理 AI,填补 GPU 与 SoC 市场空白
在全球 AI 芯片竞赛趋于白热化的当下,又一家极具实力的半导体玩家正式入场。近日,知名 AI 半导体企业 DEEPX 宣布与神州数码达成战略合作。双方将强强联手,利用 DEEPX 的“高性能、低功耗”芯片技术,全面加速物理 AI 在中国市场的落地应用。
精准填补市场空白:不只是 GPU 的替代者
目前的 AI 芯片市场,高端有 GPU,低端有各类高性价比 SoC,但在“高性能”与“超低功耗”的平衡点上仍存在市场真空。DEEPX 的芯片正是为此而来:
核心优势:主打超高能效比,旨在为边缘 AI 和机器人领域提供“高性能·低功耗”的完美方案。
市场定位:神州数码的 IE 事业部正寻求此类高能效解决方案,以填补 GPU 与低价 SoC 之间的市场缝隙。
实战战绩显著:曾助力百度优化 OCR 方案
DEEPX 并非“纸上谈兵”。此前,该公司已与百度展开深度合作,其 NPU 在边缘 AI OCR 解决方案中表现惊人。相比传统方案,DEEPX 在处理速度、识别准确度以及能效比方面展现出了压倒性优势。
神州数码全渠道赋能,直击工业 AI 痛点
作为中国领先的数字化转型合作伙伴,神州数码集团股份有限公司将全面负责 DEEPX 产品在中国市场的销售、市场营销及技术支持。
战略愿景:DEEPX 高度看好中国在边缘 AI 和机器人赛道的潜力。
技术价值:双方计划利用超高能效技术,针对性解决工业 AI 场景中的能耗与效率难题。
随着神州数码渠道能力的全面开启,DEEPX 这种极具性价比与能效比的 AI 芯片,或许将成为国内工业机器人和边缘设备智能化升级的新宠。
via AI新闻资讯 (author: AI Base)
在全球 AI 芯片竞赛趋于白热化的当下,又一家极具实力的半导体玩家正式入场。近日,知名 AI 半导体企业 DEEPX 宣布与神州数码达成战略合作。双方将强强联手,利用 DEEPX 的“高性能、低功耗”芯片技术,全面加速物理 AI 在中国市场的落地应用。
精准填补市场空白:不只是 GPU 的替代者
目前的 AI 芯片市场,高端有 GPU,低端有各类高性价比 SoC,但在“高性能”与“超低功耗”的平衡点上仍存在市场真空。DEEPX 的芯片正是为此而来:
核心优势:主打超高能效比,旨在为边缘 AI 和机器人领域提供“高性能·低功耗”的完美方案。
市场定位:神州数码的 IE 事业部正寻求此类高能效解决方案,以填补 GPU 与低价 SoC 之间的市场缝隙。
实战战绩显著:曾助力百度优化 OCR 方案
DEEPX 并非“纸上谈兵”。此前,该公司已与百度展开深度合作,其 NPU 在边缘 AI OCR 解决方案中表现惊人。相比传统方案,DEEPX 在处理速度、识别准确度以及能效比方面展现出了压倒性优势。
神州数码全渠道赋能,直击工业 AI 痛点
作为中国领先的数字化转型合作伙伴,神州数码集团股份有限公司将全面负责 DEEPX 产品在中国市场的销售、市场营销及技术支持。
战略愿景:DEEPX 高度看好中国在边缘 AI 和机器人赛道的潜力。
技术价值:双方计划利用超高能效技术,针对性解决工业 AI 场景中的能耗与效率难题。
随着神州数码渠道能力的全面开启,DEEPX 这种极具性价比与能效比的 AI 芯片,或许将成为国内工业机器人和边缘设备智能化升级的新宠。
via AI新闻资讯 (author: AI Base)
耗资 2 万美元!Anthropic 工程师组建 AI “特工队”写出 C 编译器
随着 Anthropic 正式发布 Opus 4.6 模型,一场关于 AI 自主编程能力的硬核实验引发了科技圈的热议。Anthropic 安全团队研究员 Nicholas Carlini 近日透露,他利用 16 个 Claude 智能体(Agents)组建了一个“特工团队”,在几乎没有人工干预的情况下,从零开始编写出了一个基于 Rust 语言的 C 编译器。
这场实验堪称“昂贵”。在为期两周的开发周期内,这些 AI 智能体经历了近 2000 次代码会话,消耗了约 20 亿个输入 Token,最终产生的 API 费用高达 2 万美元(约合 14.4 万人民币)。然而,投入换来了惊人的产出:这支 AI 团队自主生成了超过 10 万行代码,且该编译器成功实现了在 x86、ARM 和 RISC-V 架构上编译 Linux 6.9 内核。
尽管成果斐然,Carlini 却表达了“兴奋与不安并存”的复杂心情。他发现,虽然 AI 可以通过循环指令实现 24 小时无间断工作,自主解决“下一个最显而易见”的问题,但其生成的代码质量仍不及顶尖人类程序员,且在缺乏引导时容易陷入无效测试的死循环。更有观察者在 GitHub 上调侃,这种从海量训练数据中“拼凑”出的代码并非真正意义上的从零创作。这场实验不仅展示了智能体团队协作处理复杂项目的潜力,也让开发者们开始审视软件自动化生产背后的安全与验证风险。
via AI新闻资讯 (author: AI Base)
随着 Anthropic 正式发布 Opus 4.6 模型,一场关于 AI 自主编程能力的硬核实验引发了科技圈的热议。Anthropic 安全团队研究员 Nicholas Carlini 近日透露,他利用 16 个 Claude 智能体(Agents)组建了一个“特工团队”,在几乎没有人工干预的情况下,从零开始编写出了一个基于 Rust 语言的 C 编译器。
这场实验堪称“昂贵”。在为期两周的开发周期内,这些 AI 智能体经历了近 2000 次代码会话,消耗了约 20 亿个输入 Token,最终产生的 API 费用高达 2 万美元(约合 14.4 万人民币)。然而,投入换来了惊人的产出:这支 AI 团队自主生成了超过 10 万行代码,且该编译器成功实现了在 x86、ARM 和 RISC-V 架构上编译 Linux 6.9 内核。
尽管成果斐然,Carlini 却表达了“兴奋与不安并存”的复杂心情。他发现,虽然 AI 可以通过循环指令实现 24 小时无间断工作,自主解决“下一个最显而易见”的问题,但其生成的代码质量仍不及顶尖人类程序员,且在缺乏引导时容易陷入无效测试的死循环。更有观察者在 GitHub 上调侃,这种从海量训练数据中“拼凑”出的代码并非真正意义上的从零创作。这场实验不仅展示了智能体团队协作处理复杂项目的潜力,也让开发者们开始审视软件自动化生产背后的安全与验证风险。
via AI新闻资讯 (author: AI Base)
AI 版“App Store”来了?亚马逊入局内容授权市场:出版商向大模型“收租”时代开启
大模型时代的版权之争,或许终于迎来了由科技巨头主导的“和解方案”。亚马逊正计划推出一个全新的 AI 内容市场,旨在筑起出版商与 AI 大模型开发者之间的价值桥梁。
告别“免费午餐”,内容授权开启正规化。
长期以来,出版商与 AI 公司就训练数据的版权问题纠葛不断。据知情人士在AWS会议上透露,亚马逊的这一新计划将允许出版商直接向科技公司出售内容版权。
计费模式变革:出版商目前正提议基于“使用量”来收取费用,而非一次性买断。
合法交易渠道:该市场将与AWS的 AI 工具及开发者生态深度整合,为内容提供者和开发者提供合法的版权交易路径。
亚马逊的“一石三鸟”之计。
亚马逊此举不仅是为了平息版权争议,更深藏着其在 AI 生态中的战略野心:
扩展 AWS 价值链:通过“内容+AI”市场,让AWS从单纯的算力提供者进化为资源撮合平台。
稳固云计算地位:提升AWS的客户粘性,开辟全新的营收增长曲线。
构建 AI 供应链:配合亚马逊未来在 AI 领域的重金投入,打造全球领先的 AI 供应链体系。
巨头角力:微软也在秘密入场。
亚马逊并非唯一的玩家,据悉微软也在同步开发类似的出版商内容市场。当 AI 模型对高质量数据的渴求达到顶峰,谁能率先搞定出版商,谁就掌握了下一代 AI 进化的话语权。
正如亚马逊(中国)投资有限公司等分支机构所体现的全球化布局,亚马逊正试图通过规则的重塑,将零散的版权资源整合进其庞大的 AI 帝国版图。
via AI新闻资讯 (author: AI Base)
大模型时代的版权之争,或许终于迎来了由科技巨头主导的“和解方案”。亚马逊正计划推出一个全新的 AI 内容市场,旨在筑起出版商与 AI 大模型开发者之间的价值桥梁。
告别“免费午餐”,内容授权开启正规化。
长期以来,出版商与 AI 公司就训练数据的版权问题纠葛不断。据知情人士在AWS会议上透露,亚马逊的这一新计划将允许出版商直接向科技公司出售内容版权。
计费模式变革:出版商目前正提议基于“使用量”来收取费用,而非一次性买断。
合法交易渠道:该市场将与AWS的 AI 工具及开发者生态深度整合,为内容提供者和开发者提供合法的版权交易路径。
亚马逊的“一石三鸟”之计。
亚马逊此举不仅是为了平息版权争议,更深藏着其在 AI 生态中的战略野心:
扩展 AWS 价值链:通过“内容+AI”市场,让AWS从单纯的算力提供者进化为资源撮合平台。
稳固云计算地位:提升AWS的客户粘性,开辟全新的营收增长曲线。
构建 AI 供应链:配合亚马逊未来在 AI 领域的重金投入,打造全球领先的 AI 供应链体系。
巨头角力:微软也在秘密入场。
亚马逊并非唯一的玩家,据悉微软也在同步开发类似的出版商内容市场。当 AI 模型对高质量数据的渴求达到顶峰,谁能率先搞定出版商,谁就掌握了下一代 AI 进化的话语权。
正如亚马逊(中国)投资有限公司等分支机构所体现的全球化布局,亚马逊正试图通过规则的重塑,将零散的版权资源整合进其庞大的 AI 帝国版图。
via AI新闻资讯 (author: AI Base)
算力不够,友商来凑?Kimi 官宣回应“宕机”:正在找算力,急用先去 DeepSeek
大模型时代的“神仙打架”,竟然打出了几分江湖义气。2 月 10 日,针对近期频繁出现的算力告急问题,月之暗面 (Moonshot AI)旗下的 AI 助手 Kimi 给出了一份极具个性的回应。
高峰时段“被挤爆”,Kimi 坦诚算力不足。
近日,不少网友发现 Kimi 出现了“间歇性罢工”。 页面频繁跳出提示:“高峰时段算力不足,已切换至 K2.5 快速,升级会员畅用思考模型。” 显然,即便已经快速迭代,Kimi 依然没能抵挡住用户海量请求带来的服务器压力。
教科书级公关:不仅认错,还给“指路”。
面对网友的反馈,月之暗面 Kimi的官方回复显得既接地气又颇具幽默感:“嗯,正在找算力。要不先用 DeepSeek。” 这一举动迅速引发热议,被网友戏称为“AI 界的互助楷模”。
AI 领域的“新常态”:好产品太多,算力快跟不上了。
Kimi 主动“引流”给对手DeepSeek,侧面印证了两件事:
● 用户量暴涨:国产大模型正在经历前所未有的用户增长期。
● 算力荒:大模型对高性能计算资源的渴求依然是所有玩家面临的共同考题。
在这个芯片比金子贵的节点,Kimi 的坦诚不仅化解了用户的负面情绪,还顺带拉升了一波品牌好感度。 毕竟,在“找算力”的路上,大家都是并肩作战的战友。 至于 Kimi 何时能满血回归,或许正如它所说,得看那批“救命”的算力什么时候能到位了。
via AI新闻资讯 (author: AI Base)
大模型时代的“神仙打架”,竟然打出了几分江湖义气。2 月 10 日,针对近期频繁出现的算力告急问题,月之暗面 (Moonshot AI)旗下的 AI 助手 Kimi 给出了一份极具个性的回应。
高峰时段“被挤爆”,Kimi 坦诚算力不足。
近日,不少网友发现 Kimi 出现了“间歇性罢工”。 页面频繁跳出提示:“高峰时段算力不足,已切换至 K2.5 快速,升级会员畅用思考模型。” 显然,即便已经快速迭代,Kimi 依然没能抵挡住用户海量请求带来的服务器压力。
教科书级公关:不仅认错,还给“指路”。
面对网友的反馈,月之暗面 Kimi的官方回复显得既接地气又颇具幽默感:“嗯,正在找算力。要不先用 DeepSeek。” 这一举动迅速引发热议,被网友戏称为“AI 界的互助楷模”。
AI 领域的“新常态”:好产品太多,算力快跟不上了。
Kimi 主动“引流”给对手DeepSeek,侧面印证了两件事:
● 用户量暴涨:国产大模型正在经历前所未有的用户增长期。
● 算力荒:大模型对高性能计算资源的渴求依然是所有玩家面临的共同考题。
在这个芯片比金子贵的节点,Kimi 的坦诚不仅化解了用户的负面情绪,还顺带拉升了一波品牌好感度。 毕竟,在“找算力”的路上,大家都是并肩作战的战友。 至于 Kimi 何时能满血回归,或许正如它所说,得看那批“救命”的算力什么时候能到位了。
via AI新闻资讯 (author: AI Base)
AI 外呼告别“盲目自嗨”!声网联手美团发布 VoiceAgentEval:首个行业评测基准让 AI 更有“人味”
长久以来,AI 外呼行业一直缺乏一把公认的“度量衡”。就在今天,声网联手美团及 xbench 正式发布了针对 AI 外呼场景的智能体评测基准——VoiceAgentEval,旨在填补行业空白,推动 AI 模型向真实业务场景加速转变。
拒绝实验室数据,用真实业务“练真金”。
VoiceAgentEval 的最大亮点在于其“实战性”:
覆盖面广:涵盖了6大业务领域的30个子场景,力求还原最真实的市场需求。
语料库真实:基于真实外呼业务数据构建,摒弃了传统的死板脚本。
双维度评估:不仅看文本生成的逻辑是否正确,更加入语音维度的评估,全面审视 AI 在对话中的综合表现。
150种对话模拟,AI 演练更丝滑。
为了测试模型的任务遵循度和通用交互能力,评测框架通过用户模拟器构建了150种虚拟对话场景。这就像给 AI 安排了一场场“模拟考”,评估其在面对不同用户反馈时,能否始终稳健地推进业务流程。
谁是目前的 AI 外呼“尖子生”?
据悉,通过该评测标准的初步筛查,目前已确定了在 AI 外呼场景中综合性能排名前三的模型。这一结果不仅为行业树立了技术标杆,也为相关企业(如北京三快科技有限公司等)在后续的 AI 业务部署中提供了权威参考。
VoiceAgentEval 的发布,标志着 AI 外呼行业正式从“拼技术参数”时代迈入“拼业务实效”时代。在评测标准的驱动下,未来的 AI 外呼将更加智能、高效,且更具人性化关怀。
via AI新闻资讯 (author: AI Base)
长久以来,AI 外呼行业一直缺乏一把公认的“度量衡”。就在今天,声网联手美团及 xbench 正式发布了针对 AI 外呼场景的智能体评测基准——VoiceAgentEval,旨在填补行业空白,推动 AI 模型向真实业务场景加速转变。
拒绝实验室数据,用真实业务“练真金”。
VoiceAgentEval 的最大亮点在于其“实战性”:
覆盖面广:涵盖了6大业务领域的30个子场景,力求还原最真实的市场需求。
语料库真实:基于真实外呼业务数据构建,摒弃了传统的死板脚本。
双维度评估:不仅看文本生成的逻辑是否正确,更加入语音维度的评估,全面审视 AI 在对话中的综合表现。
150种对话模拟,AI 演练更丝滑。
为了测试模型的任务遵循度和通用交互能力,评测框架通过用户模拟器构建了150种虚拟对话场景。这就像给 AI 安排了一场场“模拟考”,评估其在面对不同用户反馈时,能否始终稳健地推进业务流程。
谁是目前的 AI 外呼“尖子生”?
据悉,通过该评测标准的初步筛查,目前已确定了在 AI 外呼场景中综合性能排名前三的模型。这一结果不仅为行业树立了技术标杆,也为相关企业(如北京三快科技有限公司等)在后续的 AI 业务部署中提供了权威参考。
VoiceAgentEval 的发布,标志着 AI 外呼行业正式从“拼技术参数”时代迈入“拼业务实效”时代。在评测标准的驱动下,未来的 AI 外呼将更加智能、高效,且更具人性化关怀。
via AI新闻资讯 (author: AI Base)