Google发布离线机器人AI模型:具备视觉识别、语言理解能力
据媒体报道,Google DeepMind推出革命性机器人控制模型Gemini Robotics On-Device。该模型的核心突破在于能在机器人本地离线运行,无需依赖云端连接,即可同时处理视觉识别、语言理解与动作执行任务,流畅响应人类指令完成任务。
作为专为双臂机器人设计的VLA(视觉-语言-动作)基础模型,Gemini On-Device 能直接解析自然语言指令并驱动机器人执行相应动作。
其本地运行特性在医疗操作、灾难救援、工厂自动化等对实时性和稳定性要求高的场景中优势显著,有效避免了云端传输的延迟和潜在风险。
该模型还具备较强的平台适应性,通过少量学习即可适配不同机器人硬件,有望加速机器人技术的普及。不过,其在复杂环境下的安全策略和高级逻辑规划方面仍需完善。
目前发布的模型基于Gemini 2.0架构,尚未集成最新的 Gemini 2.5 特性,产业化应用处于测试阶段。Gemini Robotics On-Device的推出是谷歌在通用机器人AI领域的关键布局,将与英伟达GR00T、OpenAI RT-2等竞争对手展开角逐。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:蓝点网)
据媒体报道,Google DeepMind推出革命性机器人控制模型Gemini Robotics On-Device。该模型的核心突破在于能在机器人本地离线运行,无需依赖云端连接,即可同时处理视觉识别、语言理解与动作执行任务,流畅响应人类指令完成任务。
作为专为双臂机器人设计的VLA(视觉-语言-动作)基础模型,Gemini On-Device 能直接解析自然语言指令并驱动机器人执行相应动作。
其本地运行特性在医疗操作、灾难救援、工厂自动化等对实时性和稳定性要求高的场景中优势显著,有效避免了云端传输的延迟和潜在风险。
该模型还具备较强的平台适应性,通过少量学习即可适配不同机器人硬件,有望加速机器人技术的普及。不过,其在复杂环境下的安全策略和高级逻辑规划方面仍需完善。
目前发布的模型基于Gemini 2.0架构,尚未集成最新的 Gemini 2.5 特性,产业化应用处于测试阶段。Gemini Robotics On-Device的推出是谷歌在通用机器人AI领域的关键布局,将与英伟达GR00T、OpenAI RT-2等竞争对手展开角逐。
via cnBeta.COM - 中文业界资讯站 (author: 稿源:蓝点网)