英伟达发布世界模型SANA-WM:单张图生成1分钟720p视频

🤖 由 文心大模型 生成的文章摘要

英伟达研究团队公开新一代世界模型SANA-WM,可仅凭一张静态图片与设定的相机路径,生成60秒、720p分辨率的连贯视频,相机运动支持6自由度控制,可模拟真实空间拍摄效果。

SANA-WM面向世界建模与具身AI研究,采用26亿基础模型搭配170亿参数精炼器的双阶段生成架构,可生成雪山、水下遗迹、沙漠科幻废墟等多场景视频。性能上,其处理吞吐量较现有开源模型提升36倍,画质对标闭源顶级产品;训练阶段使用64块H100耗时15天完成,单卡H100即可实现标准推理,经NVFP4量化的蒸馏版在RTX 5090上34秒可完成1分钟视频生成。

该模型采用Apache 2.0开源协议,支持商用,相关论文已发布于arXiv,代码与模型将于近期在GitHub NVlabs/Sana仓库公开。

「93913原创内容,转载请注明出处」