6月6日,在2025北京智源大会上,北京智源人工智能研究院正式发布了“悟界”大模型,同时宣布了围绕物理AGI(通用人工智能)所取得的最新科研成果与布局,一系列成果共同构成了“悟界”系列大模型。这一发布不仅代表着智源研究院在人工智能领域的重大进展,也为物理AGI的发展注入了新的活力。
“悟界”这一命名寓意深刻,其中的“界”字象征着对虚实世界边界的大胆突破,以及对物理世界进行深度赋能,体现了向物理AGI方向坚实迈进的决心。目前,“悟界”系列大模型涵盖了四个极具创新性的模型,分别为原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
原生多模态世界模型Emu3早在2024年10月便已发布,其创新性基于下一个token预测范式,成功实现了多模态学习的统一。在技术实现上,Emu3通过研发新型视觉tokenizer,能够将图像与视频巧妙编码为与文本同构的离散符号序列,进而构建起模态无关的统一表征空间。这一特性使得Emu3在处理文本、图像、视频时,能够实现任意组合的理解与生成。Emu3支持多模态输入与多模态输出的端到端映射,有力验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了极为强大的技术支撑。举例来说,在图像生成任务中,基于人类偏好评测,Emu3优于SD-1.5与SDXL模型;在视觉语言理解任务中,对于12项基准测试的平均得分,Emu3也优于LlaVA-1.6;在视频生成任务中,对于VBench基准测试得分,Emu3同样优于OpenSora1.2。
见微Brainμ则是基于Emu3底层架构精心打造的。它将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一进行token化处理,充分利用预训练模型多模态对齐的显著优势,达成了多模态脑信号与文本、图像等模态的多向映射,实现了跨任务、跨模态、跨个体的统一通用建模,能够以单一模型完成多种神经科学的下游任务。Brainμ整合了神经科学领域多个大型公开数据集,以及多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练。目前,智源研究院正与北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO等国内前沿机构紧密合作,积极拓展Brainμ在科学与工业领域的应用。
具身大脑RoboBrain 2.0致力于模仿人类大脑的结构与功能,通过具身智能的方式,有效提升机器人在复杂环境中的适应能力,助力机器人更好地理解和应对周围环境,完成各类复杂任务。全原子微观生命模型OpenComplex2则将微观生命的研究与人工智能有机结合,深入探索生命的基本构成和运行机制,为生物医学和材料科学等领域提供全新的研究思路和方法。