
北京智源研究院在“悟界・Emu系列技术交流会”上正式发布新一代多模态世界大模型悟界・Emu3.5,以创新性的“Next-StatePrediction(NSP,下一状态预测)”技术突破,开启了人工智能从“理解世界”向“操作世界”跨越的全新阶段。智源研究院院长王仲远、多模态大模型负责人王鑫龙共同揭晓了这一重磅成果,标志着中国在具身智能与通用人工智能领域的探索取得关键进展。
作为全球首个原生多模态世界模型Emu3的升级版本,Emu3.5的核心突破在于对自回归架构的深度革新。不同于传统多模态模型聚焦“Next-Token Prediction(下一个token预测)”的局限,该模型模拟人类自然学习方式,将文本、图像、视频、动作指令等多模态信息转化为连续的状态序列,通过NSP技术实现对“下一状态”的精准预测,从而内化了物理世界的运行规律、时空连续性与因果关系。这种端到端的原生多模态建模方式,让模型首次具备了可泛化的世界建模能力——它不再依赖硬编码的规则库,而是从海量数据中自发学习“世界如何运作”,为跨场景交互与复杂任务规划奠定了认知基础。
支撑这一突破的是规模空前的训练投入与技术创新。Emu3.5在超过10万亿token的多模态数据上完成训练,其中视频数据训练时长从Emu3的15年跃升至790年,参数量也从80亿提升至340亿,成功验证了原生多模态Scaling的核心范式。更值得关注的是其创新提出的“离散扩散自适应(DiDA)”技术,在不牺牲性能的前提下将单图推理速度提升近20倍,首次让自回归模型的生成效率媲美顶尖闭源扩散模型,解决了长期困扰该架构的效率瓶颈。
在核心能力层面,Emu3.5展现出三大显著优势:其一,意图到规划的精准转化,能够理解“制作咖啡拉花”“搭建宇宙飞船模型”等高层级人类意图,并自主拆解为连贯的多步骤行动路径,输出清晰的图文指导流程;其二,动态世界模拟能力,可在统一框架内融合理解、规划与模拟,精准预测物理动态、时空演化及长时程因果关系,例如预判物体移动后的受力变化、场景时序演进逻辑;其三,泛化交互基础能力,其涌现的因果推理能力为AI与物理环境、人类的泛化交互提供了关键支撑,尤其在具身操作领域表现突出——只需一句“叠衣服”的简单指令,模型便能规划并生成机器人完成整套折叠动作的精准流程,且能在真实与虚拟动态环境中保持长距离交互一致性。








