阿里开源电影级视频生成模型通义万相Wan2.2

🤖 由文心大模型生成的文章摘要

阿里巴巴正式宣布开源其电影级视频生成模型通义万相Wan2.2。这一举措在AI视频生成领域掀起了波澜，为广大开发者、创作者以及相关企业带来了全新的机遇与可能。

通义万相Wan2.2具备独特且强大的功能，它开创性地将光影、色彩、镜头语言这三大电影美学核心元素融入模型之中。通过对超过60个直观可控参数的自由组合，创作者能够轻松驾驭电影级画面的制作，极大地提升了创作效率。目前，该模型单次可生成5秒的高清视频，用户可借助多轮提示词，逐步完成短剧制作。并且，阿里团队表示，未来通义万相还会持续升级，进一步增加单次视频生成的时长，为视频创作提供更高效的支持。

此次开源，通义万相Wan2.2共推出三款模型，分别是文生视频（Wan2.2-T2V-A14B）、图生视频（Wan2.2-I2V-A14B）和统一视频生成（Wan2.2-IT2V-5B）。其中，文生视频模型和图生视频模型在业界首次采用了MoE（混合专家模型）架构，总参数量达27B，激活参数14B。这两款模型由高噪声专家模型和低噪专家模型协同运作，高噪声专家模型主要负责构建视频的整体布局框架，而低噪专家模型则专注于完善视频的细节部分。二者紧密配合，在相同参数规模下，可节省约50%的计算资源消耗，有效解决了视频生成过程中因处理Token过长而导致的计算资源耗费巨大的难题。不仅如此，在复杂运动生成、人物交互、美学表达以及复杂运动等多个维度上，通义万相Wan2.2也取得了显著的提升。

Wan2.2还创新性地推出了“电影美学控制系统”，在光影、色彩、构图以及人物微表情等细节处理方面，其能力可与专业电影制作水平相媲美。例如，当用户输入“黄昏”“柔光”“边缘光”“暖色调”“中心构图”等关键词时，模型能够自动生成一幅充满金色落日余晖的浪漫画面；而当使用“冷色调”“硬光”“平衡图”“低角度”这样的组合提示词时，模型则可以生成与科幻片相近的画面效果。

通义万相开源的5B小尺寸统一视频生成模型也十分引人注目，这一模型具备强大的通用性，单一模型即可同时支持文生视频和图生视频，并且可在消费级显卡上进行部署。它采用了高压缩率3DVAE架构，时间与空间压缩比高达4×16×16，信息压缩率提升至64，均达到了开源模型中的最高水平。仅需22G显存（单张消费级显卡），该模型就能在数分钟内生成5秒高清视频，是目前24帧每秒、720P像素级视频生成速度最快的基础模型之一。

即日起，开发者可在GitHub、HuggingFace、魔搭社区便捷地下载模型和代码，企业能够在阿里云百炼调用模型API，而广大用户则可在通义万相官网和通义App上直接体验这款强大模型带来的全新创作感受。自今年2月以来，通义万相已陆续开源文生视频、图生视频、首尾帧生视频和全能编辑等多款模型，在开源社区的下载量已超过500万，成为开源社区中最受欢迎的视频生成模型之一。此次通义万相Wan2.2的开源，无疑将为视频生成领域注入新的活力，推动整个行业迈向新的发展阶段。

「93913原创内容，转载请注明出处」

相关文章

OpenAI发布最新人工智能模型GPT-5

虚拟现实+人工智能+传统行业，一个新的时代正在

AI编程新巨头崛起：Cognition获4亿美金融资，估值超百亿成赛道领头羊

Mete Quest 3：计划推出上半身追踪和人工智能驱动腿部功能

Sora iOS应用上线两天下载破16.4万，邀测制下登顶美加App Store前三

NVIDIA宣布收购GPU编排软件供应商Run:ai

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban

AI应用推荐

热门

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

友情链接

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban