
阿里巴巴正式发布千问Qwen-Robot系列具身智能大模型,这也是千问大模型家族推出的首个完整具身智能模型体系。该系列由Qwen-RobotManip、Qwen-RobotNav、Qwen-RobotWorld三款模型组成,分别对应机器人操作、导航、环境认知三大核心能力,如同为机器人打造出手、脚与思考大脑,三款模型支持独立部署或协同工作,为各类机器人商业化落地提供通用技术底座。
具身智能能够把大模型的数字交互能力延伸至现实物理世界,也是当前人工智能产业的重要发展方向。目前全球具身智能正处在从实验室走向商用场景的关键阶段,机器人能否听懂自然语言、适应陌生环境、稳定完成任务,是行业突破的核心难点。阿里 Qwen-Robot 系列通过针对性架构设计与训练优化,让机器人具备三维环境感知、物理规律理解能力,可自主执行复杂动作、灵活移动,甚至完成从未接触过的全新任务。
Qwen-RobotManip:通用操作模型,打造机器人灵巧之手
Qwen-RobotManip是视觉 – 语言 – 动作(VLA)模型,作为具身智能的核心基础,它融合视觉、语言与动作决策能力,解决了传统 VLA 模型跨设备、跨场景适配性差的行业痛点。该模型采用 80 维统一动作表征,为不同硬件设备建立通用动作逻辑,摆脱生硬的动作模仿模式;同时摒弃复杂的绝对坐标运算,依托画面相对位置完成操作,环境适应能力大幅提升。即便搭载在不同机器人硬件上,它仅需数次反馈即可完成适配,上手效率极高。
训练层面,该模型累计完成超38000小时语料预训练,全程依托开源数据打造,未使用私有采集数据,却实现顶尖性能。在全球权威真机多任务评测RoboChallenge Table30 v1中,其“Lira”与“Atlas”两个版本包揽榜单前两名,可稳定完成拧水龙头、插网线、双臂倒薯条等30项真实场景任务,官方评价其“基础任务表现稳定,高难度任务具备突破能力”。
Qwen-RobotNav:视觉导航模型,赋予机器人行走与寻路能力
Qwen-RobotNav属于视觉-语言 – 导航(VLN模型),基于Qwen-VL搭建,将语言导航、目标搜寻、自动驾驶等五大任务整合至统一框架,无需人工切换模型即可应对复杂导航需求。针对传统导航模型“记忆僵化、易迷路”的问题,该模型创新搭载任务自适应观察机制,可根据场景动态调整记忆策略,实现边走、边看、边规划路线。
该模型还具备出色的通用性,是业内少数原生兼容多种智能体框架的VLN模型,可被上层模型灵活调用。实际应用中,搭载该模型的宇树Go2四足机器人,能够接收语音指令自主巡逻、视觉推理并完成寻物等任务,充分验证了导航能力的实用性。多项评测数据显示,其在路径规划、跨场景迁移等维度均刷新行业水准。
Qwen-RobotWorld:世界模型,构建机器人的思考大脑
Qwen-RobotWorld是整套体系的“认知核心”世界模型,核心作用是帮助机器人理解现实物理规律,提前推演动作轨迹与运行状态。在执行任务前,它可以模拟后续动作,让机器人操作更加精准;同时还能生成海量视频训练数据,有效缓解行业普遍存在的训练数据短缺难题,降低模型迭代成本。
三大模型协同运作,让机器人形成完整的感知、决策、执行闭环。整套Qwen-Robot系列延续千问大模型强大的语言理解能力,在统一自然语言指令下,无论单独使用还是组合部署,均能保持稳定高性能,助力机器人在复杂现实环境中实现自主作业、长周期执行等能力。






