🚀腾讯混元大模型发布130亿参数视频生成能力,开源领先

腾讯近日宣布其混元大模型新增视频生成能力,并开源了该模型。该模型参数量达130亿,是目前全球最大的开源视频生成模型,支持中英文双语输入,并提供多种视频尺寸和清晰度选择。 用户可在腾讯元宝APP的“AI视频”板块申请试用,企业客户可通过腾讯云接入API。该模型基于类似Sora的DiT架构,但在架构设计上进行了多处升级,例如采用新一代文本编码器提升语义遵循能力,使用统一的全注意力机制提升视频流畅度,并通过先进的图像视频混合VAE提升细节表现,尤其在小人脸和高速镜头等场景下效果显著。

(科技情报)

via 茶馆 - Telegram Channel
 
 
Back to Top
oaibest.com 2023-2025
[email protected]