🌐 Google DeepMind 发布 Project Genie:可交互的实时生成式世界模型
Google DeepMind 近日推出实验性研究原型 Project Genie(Genie 3),该系统被定义为一种“世界模型”,能够根据文本提示或图像实时生成连贯、可导航且具有照片级真实感的虚拟环境。用户可以作为智能体在生成的空间中移动并进行交互,系统会根据用户的动作指令(如移动、跳跃)预测并渲染后续状态,确保物理因果关系在短时间内保持一致。
技术实现上,Genie 3 采用扩散变换器(Diffusion Transformer)架构,通过潜在动作和帧序列预测世界状态。与需要显式 3D 表示的 NeRF 或高斯泼溅技术不同,Genie 的环境一致性属于涌现能力,完全基于帧对帧的生成。目前该原型支持 720p 分辨率,控制延迟低于 10FPS,最大上下文滚动长度为 60 秒。
该模型的核心研发目标并非单纯的娱乐产品,而是作为下一代 AI 和机器人系统的“想象力”训练场。通过在模拟世界中运行大量潜在行动方案,智能体可以学习处理复杂任务并预测后果,从而降低现实开发成本。在应用前景方面,该技术被认为将革新游戏开发、电影制作及工业仿真领域,例如通过单张照片快速构建可交互的 3D 场景。
然而,该技术也引发了广泛的专业讨论与质疑。部分技术评论者指出,Genie 本质上是基于视频数据的“幻觉模拟”,而非基于严谨物理定律的引擎,因此在处理复杂流体动力学或长期环境一致性时仍存在局限和漂移现象。此外,高昂的计算成本、能源消耗以及可能带来的数字成瘾和虚假信息风险也是讨论的焦点。在行业竞争层面,Genie 的路线与 Meta 首席科学家 Yann LeCun 倡导的非生成式世界模型(如 JEPA)形成对比,反映了当前 AI 领域对实现通用人工智能(AGI)路径的不同探索。
(HackerNews)
via 茶馆 - Telegram Channel
Google DeepMind 近日推出实验性研究原型 Project Genie(Genie 3),该系统被定义为一种“世界模型”,能够根据文本提示或图像实时生成连贯、可导航且具有照片级真实感的虚拟环境。用户可以作为智能体在生成的空间中移动并进行交互,系统会根据用户的动作指令(如移动、跳跃)预测并渲染后续状态,确保物理因果关系在短时间内保持一致。
技术实现上,Genie 3 采用扩散变换器(Diffusion Transformer)架构,通过潜在动作和帧序列预测世界状态。与需要显式 3D 表示的 NeRF 或高斯泼溅技术不同,Genie 的环境一致性属于涌现能力,完全基于帧对帧的生成。目前该原型支持 720p 分辨率,控制延迟低于 10FPS,最大上下文滚动长度为 60 秒。
该模型的核心研发目标并非单纯的娱乐产品,而是作为下一代 AI 和机器人系统的“想象力”训练场。通过在模拟世界中运行大量潜在行动方案,智能体可以学习处理复杂任务并预测后果,从而降低现实开发成本。在应用前景方面,该技术被认为将革新游戏开发、电影制作及工业仿真领域,例如通过单张照片快速构建可交互的 3D 场景。
然而,该技术也引发了广泛的专业讨论与质疑。部分技术评论者指出,Genie 本质上是基于视频数据的“幻觉模拟”,而非基于严谨物理定律的引擎,因此在处理复杂流体动力学或长期环境一致性时仍存在局限和漂移现象。此外,高昂的计算成本、能源消耗以及可能带来的数字成瘾和虚假信息风险也是讨论的焦点。在行业竞争层面,Genie 的路线与 Meta 首席科学家 Yann LeCun 倡导的非生成式世界模型(如 JEPA)形成对比,反映了当前 AI 领域对实现通用人工智能(AGI)路径的不同探索。
(HackerNews)
via 茶馆 - Telegram Channel