NVIDIA Cosmos 3: El primer modelo abierto que entiende el mundo físico

NVIDIA acaba de hacer por la robótica lo que hizo por los LLMs con Llama: abrir un modelo de frontera que hasta ahora solo existía en laboratorios cerrados. Cosmos 3 es el primer “omnimodel” completamente abierto para IA física — capaz de procesar texto, imágenes, video, sonido y acciones numéricas en un solo sistema, con pesos que cualquiera puede descargar.

La versión anterior de Cosmos era un ecosistema de modelos especializados —Cosmos Predict, Transfer, Reason, Policy— cada uno haciendo una cosa distinta. Cosmos 3 unifica todo en un solo modelo capaz de procesar y generar texto, imágenes, video, sonido ambiental y acciones numéricas (ángulos de articulaciones, posiciones de grippers, trayectorias). Cinco modalidades en un solo sistema, con un peso abierto que cualquiera puede descargar.

La arquitectura es tan interesante como la propuesta. Cosmos 3 usa Mixture-of-Transformers (MoT), que empareja dos transformers en cada capa: un “reasoner” que maneja la comprensión autoregresiva (predicción del siguiente token) y un “generator” que maneja la generación por difusión (denoising iterativo). Los dos interactúan mediante atención conjunta dentro de cada capa, permitiendo que el modelo razone sobre una escena y luego la genere —o viceversa— de forma integrada. No es un VLM pegado a un generador de video; es un solo modelo que hace ambas cosas con parámetros especializados pero comunicación constante.

NVIDIA lanzó dos variantes de entrada: Cosmos 3 Super, con 64 mil millones de parámetros (32B del reasoner + 32B del generator), diseñado para generación masiva de datos sintéticos y ejecución en GPUs Hopper o Blackwell. Y Cosmos 3 Nano, con 16B (8B + 8B), optimizado para estaciones de trabajo con RTX PRO 6000. Una tercera variante, Cosmos 3 Edge, está anunciada como “próximamente” para inferencia en tiempo real en dispositivos de borde.

Los benchmarks preliminares muestran a Cosmos 3 en el primer puesto entre modelos abiertos en Artificial Analysis, Physics-IQ, PAI-Bench, R-Bench (precisión de generación de mundos), RoboLab y RoboArena (políticas de acción), y VANTAGE-Bench (comprensión visual). Es temprano para saber cómo se comparará con modelos cerrados como Gemini, pero el simple hecho de que exista una alternativa abierta en este espacio es significativo.

La licencia es OpenMDW 1.1, una licencia creada por la Linux Foundation específicamente para modelos de mundo. Permite uso, modificación, redistribución y despliegue comercial de pesos, arquitectura, documentación y código. No es la licencia permisiva más amplia que existe —tiene restricciones propias de una licencia de modelos— pero es un avance enorme frente a los modelos cerrados que dominan la robótica.

NVIDIA también anunció la Cosmos Coalition, un grupo de empresas —Agile Robots, Black Forest Labs, Runway, Skild AI, entre otras— que se comprometen a desarrollar colaborativamente modelos de mundo abiertos. El mensaje es claro: NVIDIA no quiere ser solo el proveedor de GPUs para la IA física; quiere ser dueño del stack de modelos abiertos sobre el que se construye.

¿Por qué importa? Porque la robótica y los vehículos autónomos han estado atrapados en un problema clásico: entrenar un robot para que entienda el mundo real requiere cantidades masivas de datos del mundo real, que son caros, lentos y difíciles de escalar. Un modelo de mundo como Cosmos 3 puede generar entornos sintéticos, simular trayectorias y evaluar políticas en cuestión de días en lugar de meses. Si la promesa se cumple —y Jensen Huang dijo que “el big bang de la IA física está a la vuelta de la esquina”— el impacto en industrias como manufactura, logística, construcción y transporte será profundo.

Dicho esto, hay que poner las cosas en contexto. El término “fully open” es, en parte, marketing de NVIDIA. Los datos de entrenamiento no se divulgan completamente, y aunque se liberan datasets sintéticos, el pipeline de procesamiento no es totalmente transparente. Tampoco hay un paper técnico revisado por pares —la documentación más profunda es el blog de Hugging Face, no un artículo académico. Y la afirmación de reducir ciclos de entrenamiento “de meses a días” es direccional, no un resultado medido.

Pero incluso con esas salvedades, Cosmos 3 representa un paso concreto hacia una IA que no solo procesa lenguaje y texto, sino que entiende cómo funciona el mundo físico. Y que cualquiera pueda descargarlo, modificarlo y usarlo para construir robots cambia las reglas del juego.

Fuente principal: How Cosmos 3 Helps Physical AI Think Before It Acts — NVIDIA Blog