7月22日,字节跳动Seed团队在机器人技术领域迈出了重要一步,发布了通用机器人模型GR-3,同时推出了配套的通用双臂移动机器人ByteMini。这一创新组合有望显著提升机器人在复杂环境中执行任务的能力,并为机器人技术的未来发展指明了新方向。
GR-3是一种全新的Vision-Language-Action(VLA)模型,其设计旨在理解和执行人类指令,同时适应新的物体和环境。与传统的VLA模型不同,GR-3通过少量的人类数据即可实现高效微调,从而快速且低成本地迁移至新任务,以及认识新物体。这种方法不仅提高了模型的适应性,还大大降低了训练所需的时间和资源成本。
此外,GR-3在处理长程任务和高灵巧度操作方面表现出色,包括双手协同操作、柔性物体操作,以及融合底盘移动的全身操作等。这些能力通过一种多样的模型训练方法实现,团队融合了遥操作机器人收集的真机数据、基于VR设备的人类轨迹数据,以及公开可用的大规模视觉语言数据,这种多源数据的结合是GR-3区别于现有VLA模型的关键特征之一。
为了将GR-3的潜力转化为实际应用,字节跳动Seed团队开发了通用双臂移动机器人ByteMini。这款机器人专为与GR-3模型协同工作而设计,具备22个全身自由度以及独特的手腕球角设计,使其能够在狭小空间中完成各种精细操作。ByteMini搭载GR-3模型后,能够在真实环境中高效处理复杂任务,为智能家居、物流、医疗等多个领域的应用提供了可能。
在一系列测试中,GR-3展现出了卓越的性能。在超长序列(子任务数≥10)的餐桌整理任务中,GR-3能够高鲁棒性、高成功率地完成任务,并严格跟随人类发出的分步指令。在复杂灵巧的挂衣服任务中,GR-3能够控制双臂协同操作可形变的柔性物体,识别并整理不同摆放方式的衣物。此外,GR-3在抓取放置任务中表现出良好的泛化能力,能够处理未见过的物体,并理解包含复杂抽象概念的指令。
经过上千次系统性实验测试,GR-3的表现超过了业界此前可测试具体性能的VLA头部模型π0。在应对未见过的物体时,通过VR设备采集少量(10条)轨迹数据,GR-3操作这些物体的成功率可从不到60%提升到超过80%。在跟随分步指令的能力测试中,GR-3也显著领先于基准模型,能够准确判断并执行复杂指令,或在指令无效时保持不动。
展望未来,Seed团队计划进一步扩大GR-3的模型规模和训练数据量,并引入强化学习训练,以持续提升模型的性能和适应性。随着技术的不断进步,GR-3和ByteMini有望成为推动通用机器人发展的重要力量,为更多领域带来创新解决方案。