李飞飞团队RTFM模型震撼发布：单块H100 GPU实现实时3D世界渲染，AI建模迎来新范式

🤖 由文心大模型生成的文章摘要

李飞飞领衔的WorldLabs正式发布实时生成式世界模型RTFM（Real-Time Frame Model），这款基于自回归扩散Transformer架构的AI系统，以颠覆性技术打破了世界模型对海量算力的依赖——仅需一块H100GPU，便能以交互式帧率生成持久且3D一致的虚拟世界。与谷歌Genie3、腾讯混元3D等同类产品相比，RTFM彻底摒弃了显式3D表征构建，通过端到端学习大规模视频数据，直接从2D图像输入生成任意视点的新画面，被业内称为”学会渲染的AI”。

传统3D渲染需精确计算光线追踪、材质反射等物理过程，生成4K/60帧画面的算力消耗相当于每秒处理一本《哈利波特》的数据量。而RTFM通过模型蒸馏与推理堆栈优化，将实时渲染所需硬件压缩至单块H100GPU。前谷歌高级工程师评价称，这一突破真正解决了世界模型可扩展性的核心瓶颈。

不同于依赖三角网格、高斯溅射的传统管线，RTFM通过观看海量视频，自主学习三维几何、光影反射等物理规律。其核心机制是将输入帧转化为KV缓存激活值，形成隐式世界表征，再通过注意力机制提取空间信息生成新视角——这种”学习型渲染器”模式，使模型既能基于稀疏照片重建真实场景，也能渲染想象中的虚拟空间。

针对自回归模型”探索越远记忆越重”的痛点，RTFM创新引入”带位姿帧空间记忆”与”上下文调度”技术：每帧画面均标记3D坐标，生成新视角时仅调用附近相关帧作为上下文，而非全量记忆。这使得用户可无限探索虚拟空间，即使移开视线再返回，场景仍保持连贯一致。网友戏称：”我们的世界或许真的在单块H100上运行”。

在大语言模型同质化加剧的2025年，世界模型已成为大厂竞争新焦点。RTFM的问世，与谷歌Genie3（侧重智能体训练）、腾讯混元3D（主打工具化导出）形成差异化路线：
技术路线：摒弃显式3D，以纯数据驱动实现几何建模

落地门槛：单卡运行能力远超需多GPU集群的同类产品

生态策略：开放试玩入口，降低开发者参与成本

李飞飞团队在技术白皮书强调，当前版本仅是起点——未来将增强动态场景模拟与物体交互能力，更大规模模型有望实现电影级画质渲染。

「93913原创内容，转载请注明出处」

李飞飞团队RTFM模型震撼发布：单块H100 GPU实现实时3D世界渲染，AI建模迎来新范式

相关文章

何小鹏：大算力和大模型会共同定义AI汽车的上限

北京中数睿智完成2亿元A+轮融资，推动AI Agent产业升级

苹果开发者学院为所有学生和校友推出AI培训

不止OpenAI！iOS 26强化企业AI能力：支持多服务商对接，设备管理工具同步升级

亚马逊向学术生成人工智能研究投入1.1亿美元

中国信通院启动可信互联网智能体测试评估构建AI安全合规新标尺

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban

AI应用推荐

热门

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

友情链接

推荐

复古VR硬件意外曝光！意外关联苹果新任CEO

Valve次世代手柄Steam Controller 5月4日发售，售价100美元，因无RAM推迟上市

智能眼镜迎爆发式增长从尝鲜到常用仍需破局

三星Galaxy Glasses渲染图曝光：无屏版今年上，对标Meta Ray-Ban