ChatGPT / AI新闻聚合

Picsart Text2Video Zero模型发布，最低所需VRAM仅12G
项目地址（Github） | 论文《Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators》 | HuggingFace
这是第一个零样本文本到视频合成扩散框架，它可以仅通过预训练的文本到图像扩散模型生成低成本但高质量的视频，而其本身并没有基于视频训练或对视频进行优化(without any training on videos or optimization)。

与阿里t2m相比，由于基于Diffusion模型，因此可以用现成的DreamBooth或Lora对其微调，并且其本身需要ControlNet组件，因此对连贯动作效果要优于其他模型。

在今天的更新中，官方项目组宣布可用于Vram12GB的消费级显卡，为个人使用赋予了更多的可能性。

0视频样本、免于视频训练的Zero模型，仅靠ControlNet控制动作连贯性与Background Smooth，你认为怎么样😜