🤖 由 文心大模型 生成的文章摘要
阿里通义万相宣布 “首尾帧生视频模型” 开源。该模型参数量达140亿,是业界首个百亿参数规模的开源首尾帧视频模型。用户只需指定开始和结束图片,它就能生成一段能衔接首尾画面的720p高清视频,满足用户更可控、更定制化的视频生成需求。
相较于文生视频、单图生视频,首尾帧生视频的可控性更高,是AI视频创作者最青睐的功能之一。但这类模型的训练难度较大,要同时满足指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性等多项高要求。
基于现有的Wan2.1文生视频基础模型架构,通义万相首尾帧生视频模型引入了额外的条件控制机制,实现流畅且精准的首尾帧变换。在训练阶段,团队构建了专门用于首尾帧模式的训练数据,同时针对文本与视频编码模块、扩散变换模型模块采用并行策略,提升了模型训练和生成效率,保障了高分辨率视频生成效果。在推理阶段,为在有限内存资源下支持高清视频推理,模型分别采用模型切分策略以及序列并行策略,在确保推理效果无损的前提下,显著缩短推理时间。
基于该模型,用户能完成更复杂、更个性化的视频生成任务。例如,上传相同位置不同时间段的两张外景图片,输入一段提示词,就能生成一段四季交替变化或者昼夜变化的延时摄影效果视频;上传两张不同画面的场景,通过旋转、摇镜、推进等运镜控制衔接画面,既能保证视频和预设图片一致性,又能让视频拥有更丰富的镜头。
用户可在通义万相官网直接免费体验该模型,也可在Github、Hugging Face、魔搭社区下载模型进行本地部署和二次开发。此次开源,有望进一步推动AI视频生成技术的发展与应用,为创作者提供更强大的创作工具。
「93913原创内容,转载请注明出处」