🤖 由 文心大模型 生成的文章摘要

英伟达正式推出全球首款全开源、全模态物理AI基础大模型Cosmos 3,面向机器人、自动驾驶、视觉智能体等物理世界交互场景,全面开放技术生态。
Cosmos 3基于混合Transformer架构,集成视觉推理、世界生成、动作预测三大核心能力,可原生理解并生成文本、图像、视频、环境音效及动作轨迹,物理仿真精度行业领先。英伟达称,该模型能将物理AI的训练与评估周期从数月缩短至数日,大幅降低研发门槛与成本。
模型依托数十亿级多模态物理数据集训练,覆盖文本、图像、视频、音效、动作轨迹等多元样本,解决物理AI泛化难、数据成本高的痛点。开发者可将其作为多模态图文模型、世界模型、动作模型主干,快速搭建物理AI系统,适配机器人、自动驾驶、工业视觉等场景。
性能方面,Cosmos 3在多项权威评测中领跑:世界生成精度、动作策略能力、视觉理解能力均位居开源模型榜首,覆盖Artificial Analysis、RoboLab、VANTAGE-Bench等主流基准。
产品矩阵包含三大版本:
Cosmos 3 Super:主打极致物理精度,适配机器人、自动驾驶二次训练;
Cosmos 3 Nano:轻量高效,数秒完成视频解析与动作推理;
Cosmos 3 Edge:即将上线,面向边缘端实时推理场景。
同步发起英伟达宇宙联盟(NVIDIA Cosmos Coalition),联合Agile Robots、Runway、Skild AI 等全球顶尖团队,共建世界模型技术生态。英伟达创始人黄仁勋表示,Cosmos 3开源将加速物理AI变革,助力打造能在现实世界感知、推理、执行的智能系统。
「93913原创内容,转载请注明出处」






