李飞飞团队RTFM模型震撼发布:单块H100 GPU实现实时3D世界渲染,AI建模迎来新范式

🤖 由 文心大模型 生成的文章摘要

李飞飞领衔的WorldLabs正式发布实时生成式世界模型RTFM(Real-Time Frame Model),这款基于自回归扩散Transformer架构的AI系统,以颠覆性技术打破了世界模型对海量算力的依赖——仅需一块H100GPU,便能以交互式帧率生成持久且3D一致的虚拟世界。与谷歌Genie3、腾讯混元3D等同类产品相比,RTFM彻底摒弃了显式3D表征构建,通过端到端学习大规模视频数据,直接从2D图像输入生成任意视点的新画面,被业内称为”学会渲染的AI”。​

传统3D渲染需精确计算光线追踪、材质反射等物理过程,生成4K/60帧画面的算力消耗相当于每秒处理一本《哈利波特》的数据量。而RTFM通过模型蒸馏与推理堆栈优化,将实时渲染所需硬件压缩至单块H100GPU。前谷歌高级工程师评价称,这一突破真正解决了世界模型可扩展性的核心瓶颈。​

不同于依赖三角网格、高斯溅射的传统管线,RTFM通过观看海量视频,自主学习三维几何、光影反射等物理规律。其核心机制是将输入帧转化为KV缓存激活值,形成隐式世界表征,再通过注意力机制提取空间信息生成新视角——这种”学习型渲染器”模式,使模型既能基于稀疏照片重建真实场景,也能渲染想象中的虚拟空间。​

针对自回归模型”探索越远记忆越重”的痛点,RTFM创新引入”带位姿帧空间记忆”与”上下文调度”技术:每帧画面均标记3D坐标,生成新视角时仅调用附近相关帧作为上下文,而非全量记忆。这使得用户可无限探索虚拟空间,即使移开视线再返回,场景仍保持连贯一致。网友戏称:”我们的世界或许真的在单块H100上运行”。​

在大语言模型同质化加剧的2025年,世界模型已成为大厂竞争新焦点。RTFM的问世,与谷歌Genie3(侧重智能体训练)、腾讯混元3D(主打工具化导出)形成差异化路线:​
技术路线:摒弃显式3D,以纯数据驱动实现几何建模​

落地门槛:单卡运行能力远超需多GPU集群的同类产品​

生态策略:开放试玩入口,降低开发者参与成本​

李飞飞团队在技术白皮书强调,当前版本仅是起点——未来将增强动态场景模拟与物体交互能力,更大规模模型有望实现电影级画质渲染。

「93913原创内容,转载请注明出处」