蚂蚁集团发布LingBot-VLA模型 2万小时真实数据赋能多机器人通用操控开源生态加速技术落地

🤖 由文心大模型生成的文章摘要

近日，蚂蚁集团旗下灵波科技正式发布具身智能基座模型LingBot-VLA，该模型依托2万小时大规模真实机器人操作数据训练而成，实现了单一模型对多种机器人的通用操控能力，同时同步开源全套工具包，涵盖模型权重、代码库及评估基准，大幅降低机器人智能化开发门槛，为具身智能技术的产业化落地注入强劲动力。

作为面向真实机器人操作场景的“智能基座”，LingBot-VLA的核心突破的在于摆脱了传统机器人模型对仿真数据的依赖，以海量真实世界数据构建起强大的泛化能力。据蚂蚁集团技术团队介绍，该模型的训练数据规模达到约20000小时，是目前公开论文中最大规模的真实机器人训练数据之一，覆盖Agibot G1、AgileX、Galaxea R1Pro等9种不同品牌和构型的双臂机器人，全部来自真实实验室环境下的遥操作任务，涵盖抓取、放置、组装、清洁、收纳等各类高频操作场景，数据的异构性和丰富性为模型的通用操控能力奠定了坚实基础。

为将海量真实数据转化为模型可高效学习的“养料”，蚂蚁团队设计了一套半自动高精度标注流程：先由人工将多视角视频按原子动作拆分为片段，再利用Qwen3-VL-235B超大视觉语言模型为每一段动作生成精确的自然语言指令，最后通过人类 refinement 优化标注精度，确保指令与动作的精准对应，让模型能够清晰理解“做什么”与“怎么做”的关联，实现视觉、语言与动作的深度协同。

在技术架构上，LingBot-VLA采用MoT（Mixture-of-Transformers）专家混合架构，构建了“大脑+小脑”的协同工作模式，巧妙融合Qwen2.5-VL视觉语言模型与Action Expert动作生成模块，并通过共享自注意力机制实现二者的深度耦合，让信息在模型每一层高效交互。其中，Qwen2.5-VL作为“大脑”，负责解析多视角图像信息、理解自然语言任务指令，规划整体任务逻辑；Action Expert作为“小脑”，专门生成连续、平滑的机器人控制信号，确保动作的精准执行。同时，模型创新引入Flow Matching生成连续动作，摒弃传统离散预测模式，让机器人动作更接近人类操作的自然度，适配长序列精细操控任务；结合LingBot-Depth深度估计模型，通过可学习查询对齐技术将深度信息蒸馏注入模型，增强机器人的空间感知能力，使其能够精准应对透明物体抓取、狭小空间装配等对距离感知要求极高的场景。

「93913原创内容，转载请注明出处」

蚂蚁集团发布LingBot-VLA模型 2万小时真实数据赋能多机器人通用操控开源生态加速技术落地

相关文章

苹果发布开源人工智能模型

Meta V-JEPA2：打破物理常识壁垒，重塑AI与现实世界交互

谷歌LearnLM的表现优于其他AI模型

OpenAI ChatGPT搜索功能周处理量破10亿，商业化前景待解

谷歌希望今年年底前拥有5亿Gemini AI用户

酷开超级智能体V1.2荣获国内首张AI硬件智能体应用成熟度证书

推荐

全国首个仰韶文化AI国风XR项目《仰韶·华夏启元之异兽山海》正式上线

暑期亲子新地标！沉浸式VR《心之森・时光密语》落地广州正佳广场寓教于乐解锁奇幻森林闯关

十年抢先体验落幕！硬核VR射击《H3VR》推出1.0正式版，续作撤离射击新作同步开发

澳企研发高精度VR防务仿真系统虚拟传感器实测误差不足1%

AI应用推荐

热门

全国首个仰韶文化AI国风XR项目《仰韶·华夏启元之异兽山海》正式上线

暑期亲子新地标！沉浸式VR《心之森・时光密语》落地广州正佳广场寓教于乐解锁奇幻森林闯关

友情链接

推荐

全国首个仰韶文化AI国风XR项目《仰韶·华夏启元之异兽山海》正式上线

暑期亲子新地标！沉浸式VR《心之森・时光密语》落地广州正佳广场寓教于乐解锁奇幻森林闯关

十年抢先体验落幕！硬核VR射击《H3VR》推出1.0正式版，续作撤离射击新作同步开发

澳企研发高精度VR防务仿真系统虚拟传感器实测误差不足1%