微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。 从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。 项目特点: ✦ 可以捕...

用户昵称:歸藏
Username:0ae2afa7-9b10-4b3a-ab7e-15fbf847038d

微软这个VASA-1通过照片和声音生成人物说话视频的项目强的有点离谱。

从显示效果来看基本不存在瑕疵了。视频生成的技术瓶颈又一个被突破。

项目特点:

✦ 可以捕捉到大量的情感和表情细微差别以及自然的头部动作,从而增强真实感和生动感。

✦ 支持接受可选信号作为条件,例如主眼注视方向和头部距离,以及情绪偏移。

✦ 能够处理超出训练分布的照片和音频输入。它可以处理艺术照片、歌唱音频和非英语语音。

✦ 支持表情和姿势的编辑。

✦ 在离线批处理模式下以每秒 45 帧的速度生成 512x512 大小的视频帧,在在线流模式下可支持高达每秒 40 帧的速度,之前的延迟时间仅为 170 毫秒。

项目地址:https://www.microsoft.com/en-us/research/project/vasa-1/

via AI探索站 - 即刻圈子 (author: 歸藏)

via ChatGPT 精选 - Telegram Channel (author: aibot)
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]