IA al Día
高效了解 AI 的方式
返回归档
模型 2026年6月2日 分析 3 分钟阅读

NVIDIA Cosmos 3:首个理解物理世界的开放模型

2026年5月31日,在COMPUTEX台北国际电脑展上的GTC Taipei活动中,NVIDIA发布了Cosmos 3,一个有望改变机器人和自动驾驶车辆理解世界方式的模型。这并非Cosmos家族的又一次迭代:这是一次完整的架构跃迁,并且它带着一个没有其他人能够声称的标签——首个完全开放的物理AI"全能模型"(omnimodel)。

NVIDIA Cosmos 3:首个理解物理世界的开放模型
作者 IA al Día

2026年5月31日,在COMPUTEX台北国际电脑展上的GTC Taipei活动中,NVIDIA发布了Cosmos 3,一个有望改变机器人和自动驾驶车辆理解世界方式的模型。这并非Cosmos家族的又一次迭代:这是一次完整的架构跃迁,并且它带着一个没有其他人能够声称的标签——首个完全开放的物理AI”全能模型”(omnimodel)。

上一版本的Cosmos是一个专用模型的生态系统——Cosmos Predict、Transfer、Reason、Policy——每个模型各司其职。Cosmos 3将所有功能统一到一个单一模型中,能够处理和生成文本、图像、视频、环境声音以及数值动作(关节角度、夹爪位置、轨迹)。五种模态在一个系统中,其开放权重任何人都可以下载。

其架构本身与其理念同样引人入胜。Cosmos 3使用了Mixture-of-Transformers(MoT),在每一层配对两个transformer:一个”推理器”(reasoner)负责自回归理解(下一个token预测),一个”生成器”(generator)负责扩散生成(迭代去噪)。两者通过每层内的联合注意力机制相互作用,使模型能够对场景进行推理然后生成——反之亦然——以集成的方式进行。这不是一个VLM拼接一个视频生成器;这是一个单一模型,通过专业化的参数但持续的通信同时完成这两项任务。

NVIDIA发布了两种输入变体:Cosmos 3 Super,拥有640亿参数(推理器32B + 生成器32B),专为大规模合成数据生成和在Hopper或Blackwell GPU上运行而设计。以及Cosmos 3 Nano,拥有16B参数(8B + 8B),针对搭载RTX PRO 6000的工作站进行了优化。第三种变体Cosmos 3 Edge已宣布”即将推出”,用于边缘设备的实时推理。

初步基准测试显示,Cosmos 3在开放模型中排名第一,涵盖了Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench(世界生成精度)、RoboLab和RoboArena(动作策略)以及VANTAGE-Bench(视觉理解)。现在判断它将如何与Gemini等闭源模型竞争还为时过早,但仅在这个领域存在一个开放替代方案这一事实本身就意义重大。

其许可证为OpenMDW 1.1,这是由Linux Foundation专门为世界模型创建的一份许可证。它允许对权重、架构、文档和代码进行使用、修改、重新分发和商业部署。它并非最宽泛的许可协议——它有模型许可证特有的一些限制——但与主导机器人领域的闭源模型相比,这是一个巨大的进步。

NVIDIA还宣布了Cosmos Coalition(Cosmos联盟),这是一个由Agile Robots、Black Forest Labs、Runway、Skild AI等公司组成的团体,致力于协作开发开放世界模型。信息很明确:NVIDIA不仅想成为物理AI的GPU供应商;它希望成为构建物理AI所依赖的开放模型栈的所有者。

为什么这很重要?因为机器人和自动驾驶车辆一直陷在一个经典问题中:训练机器人理解真实世界需要海量的真实世界数据,而这些数据昂贵、缓慢且难以扩展。像Cosmos 3这样的世界模型可以在几天内生成合成环境、模拟轨迹和评估策略,而非数月。如果这一承诺得以实现——而黄仁勋说过”物理AI的大爆炸就在眼前”——那么它对制造业、物流、建筑和运输等行业的影响将是深远的。

话虽如此,我们需要把事物放在语境中看待。“fully open”(完全开放)这个说法,部分是NVIDIA的营销。训练数据并未完全披露,虽然发布了合成数据集,但处理pipeline并非完全透明。也没有经过同行评议的技术论文——最深入的文档是Hugging Face博客,而非学术文章。而将训练周期”从数月缩短到数天”的说法是方向性的,并非经过测量的结果。

但即使有这些保留意见,Cosmos 3代表着向这样一种AI迈出的切实一步:它不仅处理语言和文本,还理解物理世界是如何运作的。而且任何人都可以下载、修改并使用它来构建机器人,这改变了游戏规则。


主要来源:How Cosmos 3 Helps Physical AI Think Before It Acts — NVIDIA Blog

同分类更多文章