阿里通义万相开源业界首个百亿参数首尾帧生视频模型

🤖 由文心大模型生成的文章摘要

阿里通义万相宣布 “首尾帧生视频模型” 开源。该模型参数量达140亿，是业界首个百亿参数规模的开源首尾帧视频模型。用户只需指定开始和结束图片，它就能生成一段能衔接首尾画面的720p高清视频，满足用户更可控、更定制化的视频生成需求。

相较于文生视频、单图生视频，首尾帧生视频的可控性更高，是AI视频创作者最青睐的功能之一。但这类模型的训练难度较大，要同时满足指令遵循、视频内容与首尾帧一致性、视频过渡自然流畅性等多项高要求。

基于现有的Wan2.1文生视频基础模型架构，通义万相首尾帧生视频模型引入了额外的条件控制机制，实现流畅且精准的首尾帧变换。在训练阶段，团队构建了专门用于首尾帧模式的训练数据，同时针对文本与视频编码模块、扩散变换模型模块采用并行策略，提升了模型训练和生成效率，保障了高分辨率视频生成效果。在推理阶段，为在有限内存资源下支持高清视频推理，模型分别采用模型切分策略以及序列并行策略，在确保推理效果无损的前提下，显著缩短推理时间。

基于该模型，用户能完成更复杂、更个性化的视频生成任务。例如，上传相同位置不同时间段的两张外景图片，输入一段提示词，就能生成一段四季交替变化或者昼夜变化的延时摄影效果视频；上传两张不同画面的场景，通过旋转、摇镜、推进等运镜控制衔接画面，既能保证视频和预设图片一致性，又能让视频拥有更丰富的镜头。

用户可在通义万相官网直接免费体验该模型，也可在Github、Hugging Face、魔搭社区下载模型进行本地部署和二次开发。此次开源，有望进一步推动AI视频生成技术的发展与应用，为创作者提供更强大的创作工具。

「93913原创内容，转载请注明出处」

阿里通义万相开源业界首个百亿参数首尾帧生视频模型

相关文章

AMD签署49亿美元协议，挑战英伟达AI基础设施领域领先地位

Meta发布可检查其他AI模型工作的AI模型

DeepSeek发布V3模型更新

力压群雄：谷歌Gemini 2.5 Pro成首款完全理解PDF布局的AI模型

Frame AI智能眼镜改进，优化多模态生成式人工智能系统、引入图像和矢量引擎

智谱AI推出清影文本转视频模型，与OpenAI Sora竞争

推荐

智能眼镜市场爆发：销量飙升，中国引领全球增长

国内首个宋代主题VR全感大空间项目《大宋风华录・满江红》亮相上海旅游产业博览会

罗技WWDC 2025发布重磅新品：重塑空间交互与平板体验

AI+VR深度融合！《恐龙密码》开启沉浸式娱乐新纪元

AI应用推荐

热门

智能眼镜市场爆发：销量飙升，中国引领全球增长

国内首个宋代主题VR全感大空间项目《大宋风华录・满江红》亮相上海旅游产业博览会

友情链接

推荐

智能眼镜市场爆发：销量飙升，中国引领全球增长

国内首个宋代主题VR全感大空间项目《大宋风华录・满江红》亮相上海旅游产业博览会

罗技WWDC 2025发布重磅新品：重塑空间交互与平板体验

AI+VR深度融合！《恐龙密码》开启沉浸式娱乐新纪元