近日,蚂蚁集团旗下的蚂蚁灵波科技正式宣布全面开源其具身智能大模型 ——LingBot-VLA 及相关的后训练代码。这一举措不仅标志着在机器人领域的重大进展,还验证了该模型在不同类型机器人的跨本体迁移能力,进一步推动了智能机器人的发展。
LingBot-VLA 目前已成功与星海图、松灵、乐聚等多家机器人制造商实现适配。通过蚂蚁灵波科技开发的一套后训练工具链,在8卡 GPU 配置下,模型能够以每秒261个样本的速度高效训练。这一训练效率是目前主流框架 StarVLA、OpenPI 等的1.5到2.8倍,有效降低了数据和算力的成本。
在海量真实世界数据的基础上,蚂蚁灵波首次系统研究了 VLA 模型在真实机器人任务中的表现,发现随着预训练数据的增加,模型在下游任务的成功率也持续提升。从3000小时的数据训练到最终的20000,模型的成功率不断上升,显示出数据量和模型性能之间的良性关系。
更令人振奋的是,LingBot-VLA 在上海交通大学开源的具身评测基准 GM-100测试中,在三种不同的真实机器人平台上,跨本体泛化的平均成功率从13.0% 提升至15.7%。而在引入深度信息后,成功率进一步攀升至17.3%。
此外,蚂蚁灵波科技还于1月27日推出了 LingBot-Depth 空间感知模型。该模型专注于真实场景中的深度补全,利用双目3D 相机进行 RGB-Depth 数据的采集与验证。LingBot-Depth 能够将受噪声影响的不完整深度传感器数据转换为高质量的三维测量结果,极大提升了环境的深度感知和三维理解能力。
在多项基准测试中,LingBot-Depth 在深度补全和单目深度估计等任务上均表现出色,显示出其在精度和稳定性方面的行业领先地位。该模型的成功认证也为机器人和自动驾驶汽车等智能终端提供了更精准的三维视觉能力。
via AI新闻资讯 (author: AI Base)