
近日,蚂蚁集团旗下灵波科技正式发布具身智能基座模型LingBot-VLA,该模型依托2万小时大规模真实机器人操作数据训练而成,实现了单一模型对多种机器人的通用操控能力,同时同步开源全套工具包,涵盖模型权重、代码库及评估基准,大幅降低机器人智能化开发门槛,为具身智能技术的产业化落地注入强劲动力。
作为面向真实机器人操作场景的“智能基座”,LingBot-VLA的核心突破的在于摆脱了传统机器人模型对仿真数据的依赖,以海量真实世界数据构建起强大的泛化能力。据蚂蚁集团技术团队介绍,该模型的训练数据规模达到约20000小时,是目前公开论文中最大规模的真实机器人训练数据之一,覆盖Agibot G1、AgileX、Galaxea R1Pro等9种不同品牌和构型的双臂机器人,全部来自真实实验室环境下的遥操作任务,涵盖抓取、放置、组装、清洁、收纳等各类高频操作场景,数据的异构性和丰富性为模型的通用操控能力奠定了坚实基础。
为将海量真实数据转化为模型可高效学习的“养料”,蚂蚁团队设计了一套半自动高精度标注流程:先由人工将多视角视频按原子动作拆分为片段,再利用Qwen3-VL-235B超大视觉语言模型为每一段动作生成精确的自然语言指令,最后通过人类 refinement 优化标注精度,确保指令与动作的精准对应,让模型能够清晰理解“做什么”与“怎么做”的关联,实现视觉、语言与动作的深度协同。
在技术架构上,LingBot-VLA采用MoT(Mixture-of-Transformers)专家混合架构,构建了“大脑+小脑”的协同工作模式,巧妙融合Qwen2.5-VL视觉语言模型与Action Expert动作生成模块,并通过共享自注意力机制实现二者的深度耦合,让信息在模型每一层高效交互。其中,Qwen2.5-VL作为“大脑”,负责解析多视角图像信息、理解自然语言任务指令,规划整体任务逻辑;Action Expert作为“小脑”,专门生成连续、平滑的机器人控制信号,确保动作的精准执行。同时,模型创新引入Flow Matching生成连续动作,摒弃传统离散预测模式,让机器人动作更接近人类操作的自然度,适配长序列精细操控任务;结合LingBot-Depth深度估计模型,通过可学习查询对齐技术将深度信息蒸馏注入模型,增强机器人的空间感知能力,使其能够精准应对透明物体抓取、狭小空间装配等对距离感知要求极高的场景。








