6月1日,银河通用正式发布全球首个产品级端到端具身FSD大模型——TrackVLA。这一创新性的大模型具备纯视觉环境感知、语言指令驱动、可自主推理以及零样本泛化能力,为机器人领域带来了革命性的突破,赋予机器人“听→看→懂→走”的闭环运动能力。目前,TrackVLA已成功搭载于宇树机器狗,化身“二宝保镖”应用于儿童看护场景,并在未经专门训练的真实场景中完成了严格的长程验证。
TrackVLA是银河通用推出的一款产品级导航大模型,基于“视觉-语言-动作”(Vision-Language-Action,VLA)大模型架构,通过仿真合成动作数据进行深度训练。其独特之处在于,它将传统机器人中“指令理解→环境感知→目标识别→路径规划”等多个独立处理的子任务,整合在一个统一的端到端模型中完成。这使得机器人无需提前对工作环境进行地图构建,也不依赖远程操控,仅凭借接收到的语言指令和视觉感知,就能直接推理并规划出行动路径。
TrackVLA拥有强大的自然语言理解能力,用户只需下达简单指令,如“跟着妈妈”,模型便能迅速理解指令含义,并精准识别出对应的目标人物。不仅如此,当用户发出新指令,例如“换成跟孩子”,它也能立即做出响应,快速切换跟随目标,整个过程流畅且准确。
在人流如织的购物中心等复杂场景中,环境复杂多变,人群中可能存在多个穿着相似的人。但TrackVLA凭借卓越的空间理解和视觉记忆机制,能够准确无误地识别出原始目标,并实现长时间自主跟随,有效避免了因目标外观相似或环境干扰而导致的跟丢现象。
一旦目标暂时走出机器人的视野范围,TrackVLA不会陷入停滞。它会利用实时空间智能和大模型强大的推理能力,对目标之前的运动轨迹进行分析,从而预测出目标可能出现的大致位置,并重新规划行动轨迹,快速找回目标。
与传统依赖建图的机器人导航方式不同,TrackVLA仅依靠纯视觉输入来理解周围环境。这一特性使其具备强大的环境适应性,无需在新环境中进行额外的数据采集与训练,便能直接部署在诸如陌生商场、电梯、儿童游乐区等各种复杂环境中,实现长时间稳定的自主跟随任务。
在儿童游乐区、狭窄通道等复杂场景中,TrackVLA能够实时识别出各类障碍物,包括玩耍的儿童、随意摆放的玩具、地面上的水渍等。同时,它会对可通行区域进行精准分析,并结合自身的本体能力,自主推理出最为合理的行动路线,灵活巧妙地避开障碍物,确保行动的安全与高效。
目前,TrackVLA已成功搭载于宇树机器狗,化身“二宝保镖”,在儿童看护场景中发挥着重要作用。在实际的长程验证中,机器狗展现出了一系列令人瞩目的功能。
在超市场景中,机器狗能够自如地穿梭于密集的人流和货架之间,紧紧跟随带着孩子的母亲。它不仅能够准确识别“妈妈”和“孩子”两个目标,还能根据语音指令灵活切换跟随对象。当孩子在玩耍过程中出现乱跑等行为时,机器狗会及时发出提醒,确保孩子的安全。