微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。项目特点： ✦ 可以捕...

用户昵称：歸藏
Username：0ae2afa7-9b10-4b3a-ab7e-15fbf847038d

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。

项目特点：

✦ 可以捕捉到大量的情感和表情细微差别以及自然的头部动作，从而增强真实感和生动感。

✦ 支持接受可选信号作为条件，例如主眼注视方向和头部距离，以及情绪偏移。

✦ 能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。

✦ 支持表情和姿势的编辑。

✦ 在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧，在在线流模式下可支持高达每秒 40 帧的速度，之前的延迟时间仅为 170 毫秒。

项目地址：https://www.microsoft.com/en-us/research/project/vasa-1/

via AI探索站 - 即刻圈子 (author: 歸藏)

via ChatGPT 精选 - Telegram Channel (author: aibot)