阿里开源电影级视频生成模型通义万相Wan2.2

🤖 由 文心大模型 生成的文章摘要

阿里巴巴正式宣布开源其电影级视频生成模型通义万相Wan2.2。这一举措在AI视频生成领域掀起了波澜,为广大开发者、创作者以及相关企业带来了全新的机遇与可能。​

通义万相Wan2.2具备独特且强大的功能,它开创性地将光影、色彩、镜头语言这三大电影美学核心元素融入模型之中。通过对超过60个直观可控参数的自由组合,创作者能够轻松驾驭电影级画面的制作,极大地提升了创作效率。目前,该模型单次可生成5秒的高清视频,用户可借助多轮提示词,逐步完成短剧制作。并且,阿里团队表示,未来通义万相还会持续升级,进一步增加单次视频生成的时长,为视频创作提供更高效的支持。​

此次开源,通义万相Wan2.2共推出三款模型,分别是文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-IT2V-5B)。其中,文生视频模型和图生视频模型在业界首次采用了MoE(混合专家模型)架构,总参数量达27B,激活参数14B。这两款模型由高噪声专家模型和低噪专家模型协同运作,高噪声专家模型主要负责构建视频的整体布局框架,而低噪专家模型则专注于完善视频的细节部分。二者紧密配合,在相同参数规模下,可节省约50%的计算资源消耗,有效解决了视频生成过程中因处理Token过长而导致的计算资源耗费巨大的难题。不仅如此,在复杂运动生成、人物交互、美学表达以及复杂运动等多个维度上,通义万相Wan2.2也取得了显著的提升。​

Wan2.2还创新性地推出了“电影美学控制系统”,在光影、色彩、构图以及人物微表情等细节处理方面,其能力可与专业电影制作水平相媲美。例如,当用户输入“黄昏”“柔光”“边缘光”“暖色调”“中心构图”等关键词时,模型能够自动生成一幅充满金色落日余晖的浪漫画面;而当使用“冷色调”“硬光”“平衡图”“低角度”这样的组合提示词时,模型则可以生成与科幻片相近的画面效果。​

通义万相开源的5B小尺寸统一视频生成模型也十分引人注目,这一模型具备强大的通用性,单一模型即可同时支持文生视频和图生视频,并且可在消费级显卡上进行部署。它采用了高压缩率3DVAE架构,时间与空间压缩比高达4×16×16,信息压缩率提升至64,均达到了开源模型中的最高水平。仅需22G显存(单张消费级显卡),该模型就能在数分钟内生成5秒高清视频,是目前24帧每秒、720P像素级视频生成速度最快的基础模型之一。​

即日起,开发者可在GitHub、HuggingFace、魔搭社区便捷地下载模型和代码,企业能够在阿里云百炼调用模型API,而广大用户则可在通义万相官网和通义App上直接体验这款强大模型带来的全新创作感受。自今年2月以来,通义万相已陆续开源文生视频、图生视频、首尾帧生视频和全能编辑等多款模型,在开源社区的下载量已超过500万,成为开源社区中最受欢迎的视频生成模型之一。此次通义万相Wan2.2的开源,无疑将为视频生成领域注入新的活力,推动整个行业迈向新的发展阶段。

「93913原创内容,转载请注明出处」