5月7日,北京星动纪元科技有限公司宣布开源首个AIGC(生成式人工智能)机器人大模型。这一突破性成果有望加速人形机器人的商业化落地,为全球机器人领域带来新的发展动力。
此次开源的VPP(Video Prediction Policy)模型,由清华大学交叉信息院ISRLab和星动纪元联合研发,其技术论文已入选国际机器学习大会ICML2025 Spotlight。该会议是机器学习领域的顶级学术会议,今年的 Spotlight 论文中稿率不到2.6%,VPP能够入选,足以证明其在技术上的创新性和领先性。
VPP模型将视频扩散模型的泛化能力引入通用机器人操作策略,有效解决了 diffusion 推理速度的难题,实现了机器人对未来场景的实时预测与动作执行,大幅提升了策略泛化性。传统的机器人模型往往依赖大量高质量的真机数据进行训练,数据获取成本高且效率低。而VPP模型另辟蹊径,通过利用海量互联网视频数据进行训练,直接学习人类动作,大大降低了对真机数据的依赖程度。这意味着机器人能够以更低的成本、更快的速度学习到丰富多样的操作技能,并且可以在不同人形机器人本体之间灵活切换,为机器人的广泛应用提供了可能。
在技术创新方面,VPP模型采用了两阶段学习框架。第一阶段,利用视频扩散模型学习预测性视觉表征,让机器人能够“看懂”未来的场景,提前做好行动规划;第二阶段,通过 Video Former和DiT扩散策略进行动作学习,将视觉信息转化为具体的动作指令。这种创新的架构设计使得VPP模型能够提前预知未来场景,让机器人仿佛 “看着答案” 行动,显著增强了其在复杂环境中的泛化能力。经过测试,VPP模型的视频预测结果与机器人实际物理执行结果几乎一致,展现出极高的准确性和可靠性。
同时,星动纪元研究团队还通过优化模型,实现了高频预测和执行。研究发现,通过有效提取视频模型中间层的表征,单步去噪预测就能蕴含大量未来信息,这使得模型预测时间小于 150ms,预测频率约6 – 10hz,控制频率超过50Hz。相比只能学习不同维度低维度action信息的VLA模型,VPP模型可以直接学习各种形态机器人的视频数据,不存在维度适配问题,并且能够直接学习人类操作数据,进一步降低了数据获取成本,提高了模型泛化能力。