近日,加州大学伯克利分校、卡内基梅隆大学等机构的联合科研团队在人形机器人研究领域取得重大进展,推出全新的LeVERB框架。这一创新成果标志着人形机器人在理解复杂环境与执行语言指令方面迈出关键一步,有望重塑未来机器人应用格局。
长期以来,实现人形机器人在复杂现实环境中的自主灵活操作一直是机器人领域的“圣杯”。传统的视觉-语言-动作(Vision-Language-Action,VLA)模型虽在语义理解上表现出色,但大多依赖精心设计的低级控制器与特定动作“词汇表”,这限制了机器人应对动态、复杂任务的能力,尤其在需要全身协调的场景中捉襟见肘。
为填补这一空白,LeVERB框架应运而生。它首次构建了从模拟到现实的闭环视觉-语言基准测试,涵盖10大类超过150项任务,为评估人形机器人的全身控制能力提供了全面且严格的标准。在架构设计上,LeVERB采用分层式指令跟踪策略:高层通过视觉-语言策略从合成的运动学演示中学习潜在动作词汇,底层则利用强化学习训练全身控制策略,将这些潜在指令转化为实际的动力学控制命令。
这种创新设计赋予人形机器人前所未有的零样本部署能力。在实验中,LeVERB框架助力机器人在简单视觉导航任务上实现了高达80%的成功率,整体任务成功率达到58.5%,相较于传统的分层式全身VLA实现,性能提升了7.8倍。这意味着机器人在面对全新环境与任务时,无需大量现场训练,仅通过对环境的视觉感知与语言指令的理解,就能迅速规划并执行全身动作,首次成功打通了视觉语义理解与物理运动控制之间的断层。
从实际应用来看,LeVERB框架的突破为多领域带来变革可能。在家庭服务场景中,机器人能够依据主人的自然语言描述,如“去卧室帮我拿本书”,精准定位房间、规划路径并完成取物动作,极大提升生活便利性;工业制造领域,机器人可快速理解复杂装配指令,灵活调整全身姿态完成精细操作,提高生产效率与质量;灾难救援场景下,能在危险未知环境中根据救援人员指令搜索幸存者、搬运重物等,降低救援人员风险。
科研团队表示,尽管LeVERB框架已取得显著进展,但这只是迈向通用人形机器人的重要一步。未来,团队将聚焦于进一步提升机器人在复杂动态环境中的适应性与可靠性,优化模型在真实场景下的泛化能力,推动人形机器人从实验室走向广泛的现实应用,为人类社会发展注入强大动力。