具身智能里程碑!英伟达CaP-X框架开源,机器人实现“看-想-写-做”自主闭环

🤖 由 文心大模型 生成的文章摘要

英伟达(NVIDIA)正式宣布其全新研发的CaP-X(Code-as-Policy Extensions)机器人操控框架全面开源,瞬间引爆具身智能领域。该框架突破性赋予机器人“看-想-写-做”的完整自主能力,通过摄像头实时理解环境、自主生成Python代码控制自身完成任务,并自动沉淀可复用技能库,被业内誉为具身智能领域的“游戏规则改变者”。

传统机器人高度依赖工程师预设程序,仅能在固定场景完成重复动作,面对复杂真实环境灵活性极差。而CaP-X框架彻底重构机器人控制逻辑,将大语言模型的代码生成能力与视觉感知、运动控制深度融合,构建起“自主决策-代码生成-物理执行”的全新闭环,让机器人从被动执行者升级为具备“数字大脑”的自主智能体。

其核心工作流程清晰可分为五大环节:一是“看”,通过摄像头捕捉环境图像,借助SAM3、Molmo 2等视觉模型将画面转化为结构化语义信息,精准识别物体、位置等关键要素;二是“想”,解析人类自然语言指令,通过专用大模型拆解任务逻辑、规划执行步骤;三是“写”,实时生成可阅读、可修改、可调试的Python控制代码,而非模糊动作指令;四是“做”,运行代码控制机器人完成动作,并通过视觉反馈验证任务成败;五是“技能沉淀”,将成功执行的代码封装存入技能库,后续同类任务可直接调用,实现能力持续升级。

CaP-X并非单一模型,而是一套全栈式机器人驾驭框架,由四大核心组件构成全链路闭环:CaP-Gym作为统一交互环境,兼容仿真与真实场景,为大模型提供编程沙盒,自动处理避障等底层问题;CaP-Bench构建层级化基准测试体系,覆盖187项核心任务,为技术迭代提供量化标准;CaP-Agent0免训练智能体框架,集成视觉差异比对、自动技能库合成等能力,无需额外微调即可实现高性能;CaP-RL强化学习算法,基于环境反馈优化编程模型,助力机器人持续提升任务成功率。

官方测试显示,基于CaP-X打造的CaP-Agent0智能体表现惊艳,在CaP-Bench的7项核心任务中,有4项成功率追平甚至超越人类专家手写程序。同时,框架实现跨硬件形态通用,无论是机械臂、人形机器人、移动机器人还是四足机器人,仅需提供标准化描述文件即可无缝适配,彻底打破硬件壁垒。更具优势的是,代码作为控制接口,让机器人行为可解释、可审计、可修改,解决了传统模型“黑箱”难题,提升了多场景部署安全性,而技能库的积累的也形成“技能-经验-更强技能”的正向循环。

「93913原创内容,转载请注明出处」