美团开源LongCat-Video模型:5分钟长视频生成无损耗,推理速度提升10倍

🤖 由 文心大模型 生成的文章摘要

美团LongCat团队正式发布并开源新一代视频生成模型LongCat-Video。该模型以Diffusion Transformer(DiT)架构为基础,在文生视频、图生视频两大核心任务上达到开源领域最先进水平(SOTA),更凭借突破性技术实现5分钟级别长视频的稳定生成,同时通过三重优化将推理速度提升至10.1倍,为长视频生成技术树立新标杆。

LongCat-Video的核心优势源于三大关键技术创新的深度融合。其采用视频续写任务预训练策略,搭配Block-CausalAttention机制与GRPO后训练方法,从底层架构上保障长时序视频的连贯生成能力。即便处理93帧以上的长序列输入,模型仍能维持跨帧时序一致性与物理运动合理性,彻底解决了行业内普遍存在的“时长增加则质量下降”难题。

为进一步降低长视频推理的计算冗余,模型创新性融合块稀疏注意力(BSA)与条件token缓存技术,在生成5分钟级长视频时,有效规避了色彩漂移、画质降解、动作断裂等常见痛点,实现无质量损失的高清输出。136亿参数的基座模型,通过文本-视频对齐、视觉质量、运动质量、整体质量四大维度的严格验证,在关键指标上展现出显著优势。

针对高分辨率、高帧率视频生成的计算瓶颈,LongCat-Video构建了“二阶段粗到精生成(C2F)+块稀疏注意力(BSA)+模型蒸馏”的三重优化体系,最终将视频推理速度提升至10.1倍,实现效率与质量的最优平衡。这一突破让高质量长视频生成从“耗时费力”走向“高效便捷”,大幅降低了技术落地的门槛。

在具体功能上,模型通过“条件帧数量”实现灵活的任务区分,形成完整任务闭环:文生视频无需条件帧,可生成720p、30fps高清内容,精准解析文本中的物体、场景、风格等细节指令;图生视频仅需1帧参考图,就能严格保留主体属性、背景关系与艺术风格,支持详细指令、简洁描述乃至空指令等多种输入形式;视频续写作为核心差异化能力,可基于多帧前序内容自然续接,为长叙事视频创作提供原生技术支撑。

美团LongCat团队表示,此次开源LongCat-Video是探索“世界模型”的重要起点。作为能够建模物理规律、时空演化与场景逻辑的智能系统,视频生成技术被视作构建“世界模型”的关键路径——通过压缩几何、语义、物理等多维度知识,让人工智能在数字空间中模拟真实世界的运行。

「93913原创内容,转载请注明出处」