腾讯发布 HY-Embodied-0.5具身模型,22项评测16项最佳刷新行业纪录

近日,腾讯 Robotics X 实验室联合腾讯混元团队正式推出专为具身智能打造的基础模型 HY-Embodied-0.5。此举旨在解决通用视觉语言模型(VLM)因缺乏精细三维空间感知与物理交互能力,难以落地物理世界的行业痛点,标志着大模型认知链路正实质性延伸至机器人控制领域。

该系列模型并非通用基座的简单微调,而是从架构到训练范式的彻底重构。团队同步推出两款主力模型:MoT-2B(总参4B,激活2B)主打端侧实时响应,MoE-32B(总参407B,激活32B)追求极致推理性能。

技术上,团队首创视觉与语言模态非共享参数的混合 Transformer(MoT)架构,配合原生分辨率视觉编码器 HY-ViT2.0与视觉潜在 Token 机制,有效避免了小模型在多模态训练中的灾难性遗忘。训练层面,依托超1亿条高质量具身专属数据,结合拒绝采样微调、强化学习与在线蒸馏等多阶段后训练策略,驱动模型思维链自主进化。

性能验证显示,MoT-2B 在涵盖感知、推理、规划的22项权威评测中斩获16项最佳,超越 Qwen3-VL-4B 及 RoboBrain2.5等同参数竞品;旗舰版 MoE-A32B 综合成绩亦能与 Gemini3.0Pro 等国际标杆抗衡。

实机测试中,搭载该基座的机器人在打包、堆叠等任务上表现优于主流基线模型。这一进展为具身智能从虚拟仿真走向物理实操提供了高性能的底层基座支撑。

via AI新闻资讯 (author: AI Base)

Invalid media: video
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]