英伟达发布全球首款全开源全模态物理AI大模型Cosmos 3

🤖 由文心大模型生成的文章摘要

英伟达正式推出全球首款全开源、全模态物理AI基础大模型Cosmos 3，面向机器人、自动驾驶、视觉智能体等物理世界交互场景，全面开放技术生态。

Cosmos 3基于混合Transformer架构，集成视觉推理、世界生成、动作预测三大核心能力，可原生理解并生成文本、图像、视频、环境音效及动作轨迹，物理仿真精度行业领先。英伟达称，该模型能将物理AI的训练与评估周期从数月缩短至数日，大幅降低研发门槛与成本。

模型依托数十亿级多模态物理数据集训练，覆盖文本、图像、视频、音效、动作轨迹等多元样本，解决物理AI泛化难、数据成本高的痛点。开发者可将其作为多模态图文模型、世界模型、动作模型主干，快速搭建物理AI系统，适配机器人、自动驾驶、工业视觉等场景。

性能方面，Cosmos 3在多项权威评测中领跑：世界生成精度、动作策略能力、视觉理解能力均位居开源模型榜首，覆盖Artificial Analysis、RoboLab、VANTAGE-Bench等主流基准。
产品矩阵包含三大版本：

Cosmos 3 Super：主打极致物理精度，适配机器人、自动驾驶二次训练；

Cosmos 3 Nano：轻量高效，数秒完成视频解析与动作推理；

Cosmos 3 Edge：即将上线，面向边缘端实时推理场景。

同步发起英伟达宇宙联盟（NVIDIA Cosmos Coalition），联合Agile Robots、Runway、Skild AI 等全球顶尖团队，共建世界模型技术生态。英伟达创始人黄仁勋表示，Cosmos 3开源将加速物理AI变革，助力打造能在现实世界感知、推理、执行的智能系统。

「93913原创内容，转载请注明出处」

相关文章