具身智能里程碑！英伟达CaP-X框架开源，机器人实现“看-想-写-做”自主闭环

🤖 由文心大模型生成的文章摘要

英伟达（NVIDIA）正式宣布其全新研发的CaP-X（Code-as-Policy Extensions）机器人操控框架全面开源，瞬间引爆具身智能领域。该框架突破性赋予机器人“看-想-写-做”的完整自主能力，通过摄像头实时理解环境、自主生成Python代码控制自身完成任务，并自动沉淀可复用技能库，被业内誉为具身智能领域的“游戏规则改变者”。

传统机器人高度依赖工程师预设程序，仅能在固定场景完成重复动作，面对复杂真实环境灵活性极差。而CaP-X框架彻底重构机器人控制逻辑，将大语言模型的代码生成能力与视觉感知、运动控制深度融合，构建起“自主决策-代码生成-物理执行”的全新闭环，让机器人从被动执行者升级为具备“数字大脑”的自主智能体。

其核心工作流程清晰可分为五大环节：一是“看”，通过摄像头捕捉环境图像，借助SAM3、Molmo 2等视觉模型将画面转化为结构化语义信息，精准识别物体、位置等关键要素；二是“想”，解析人类自然语言指令，通过专用大模型拆解任务逻辑、规划执行步骤；三是“写”，实时生成可阅读、可修改、可调试的Python控制代码，而非模糊动作指令；四是“做”，运行代码控制机器人完成动作，并通过视觉反馈验证任务成败；五是“技能沉淀”，将成功执行的代码封装存入技能库，后续同类任务可直接调用，实现能力持续升级。

CaP-X并非单一模型，而是一套全栈式机器人驾驭框架，由四大核心组件构成全链路闭环：CaP-Gym作为统一交互环境，兼容仿真与真实场景，为大模型提供编程沙盒，自动处理避障等底层问题；CaP-Bench构建层级化基准测试体系，覆盖187项核心任务，为技术迭代提供量化标准；CaP-Agent0免训练智能体框架，集成视觉差异比对、自动技能库合成等能力，无需额外微调即可实现高性能；CaP-RL强化学习算法，基于环境反馈优化编程模型，助力机器人持续提升任务成功率。

官方测试显示，基于CaP-X打造的CaP-Agent0智能体表现惊艳，在CaP-Bench的7项核心任务中，有4项成功率追平甚至超越人类专家手写程序。同时，框架实现跨硬件形态通用，无论是机械臂、人形机器人、移动机器人还是四足机器人，仅需提供标准化描述文件即可无缝适配，彻底打破硬件壁垒。更具优势的是，代码作为控制接口，让机器人行为可解释、可审计、可修改，解决了传统模型“黑箱”难题，提升了多场景部署安全性，而技能库的积累的也形成“技能-经验-更强技能”的正向循环。

「93913原创内容，转载请注明出处」

具身智能里程碑！英伟达CaP-X框架开源，机器人实现“看-想-写-做”自主闭环

相关文章

杭州深度求索公司推出适配国产芯片的DeepSeek V3.1模型

Meta推出新模型V-JEPA 2，助力AI智能体理解物理世界

OpenAI领投网络摄像头初创公司Opal 6000万美元融资

Meta发布可检查其他AI模型工作的AI模型

The Information：苹果在将百度AI模型应用于中国市场时面临障碍

Meta召集工程师们组建“作战室”，以研究DeepSeek人工智能

推荐

鸿石智能发布全球最小Micro LED彩色光机，像素密度破万PPI

浙江卫视携手中国移动内测“AI+综艺XR文娱大空间” 《奔跑吧》解锁虚实交互新玩法

苹果沉浸式视频《Elevated》纽约篇上线外媒评测：画面震撼但难触城市灵魂

2026世界VR/AR/XR/MR产业与智能眼镜展5月10日广州启幕打造全球XR产业顶级平台

AI应用推荐

热门

鸿石智能发布全球最小Micro LED彩色光机，像素密度破万PPI

浙江卫视携手中国移动内测“AI+综艺XR文娱大空间” 《奔跑吧》解锁虚实交互新玩法

友情链接

推荐

鸿石智能发布全球最小Micro LED彩色光机，像素密度破万PPI

浙江卫视携手中国移动内测“AI+综艺XR文娱大空间” 《奔跑吧》解锁虚实交互新玩法

苹果沉浸式视频《Elevated》纽约篇上线外媒评测：画面震撼但难触城市灵魂

2026世界VR/AR/XR/MR产业与智能眼镜展5月10日广州启幕打造全球XR产业顶级平台