美团LongCat-Video视频生成模型发布
美团官方今日宣布,美团 LongCat团队正式发布 LongCat-Video 视频生成模型。该模型基于 Diffusion Transformer架构,可支持文生视频、图生视频及视频续写三类核心任务并宣称在开源模型中达到先进水平。模型可生成720p分辨率、30帧率的高清视频,其突出特点在于能够原生生成长达五分钟的连贯视频内容。模型通过视频续写预训练、块稀疏注意力等机制,旨在解决长视频生成中常见的画面断裂、质量下降等问题,保持时序一致性与运动合理性。在效率方面,该模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,据官方表示推理速度提升超过10倍。模型参数量为 136亿,在公开测试中表现出较强的文本对齐与运动连贯性。
—— 凤凰网科技
via 风向旗参考快讯 - Telegram Channel
美团官方今日宣布,美团 LongCat团队正式发布 LongCat-Video 视频生成模型。该模型基于 Diffusion Transformer架构,可支持文生视频、图生视频及视频续写三类核心任务并宣称在开源模型中达到先进水平。模型可生成720p分辨率、30帧率的高清视频,其突出特点在于能够原生生成长达五分钟的连贯视频内容。模型通过视频续写预训练、块稀疏注意力等机制,旨在解决长视频生成中常见的画面断裂、质量下降等问题,保持时序一致性与运动合理性。在效率方面,该模型采用二阶段生成、块稀疏注意力及模型蒸馏等技术,据官方表示推理速度提升超过10倍。模型参数量为 136亿,在公开测试中表现出较强的文本对齐与运动连贯性。
—— 凤凰网科技
via 风向旗参考快讯 - Telegram Channel