NVIDIA Cosmos 3: O primeiro modelo aberto que entende o mundo físico

Em 31 de maio de 2026, durante o GTC Taipei na COMPUTEX, a NVIDIA apresentou o Cosmos 3, um modelo que promete mudar a forma como robôs e veículos autônomos entendem o mundo.

Em 31 de maio de 2026, durante o GTC Taipei na COMPUTEX, a NVIDIA apresentou o Cosmos 3, um modelo que promete mudar a forma como robôs e veículos autônomos entendem o mundo. Não é uma iteração qualquer da família Cosmos: é um salto arquitetônico completo, e vem com um rótulo que ninguém mais pode reivindicar: o primeiro “omnimodel” completamente aberto para IA física.

A versão anterior do Cosmos era um ecossistema de modelos especializados — Cosmos Predict, Transfer, Reason, Policy — cada um fazendo uma coisa distinta. O Cosmos 3 unifica tudo em um único modelo capaz de processar e gerar texto, imagens, vídeo, som ambiente e ações numéricas (ângulos de articulações, posições de grippers, trajetórias). Cinco modalidades em um único sistema, com um peso aberto que qualquer um pode baixar.

A arquitetura é tão interessante quanto a proposta. O Cosmos 3 usa Mixture-of-Transformers (MoT), que combina dois transformers em cada camada: um “reasoner” que lida com a compreensão autorregressiva (predição do próximo token) e um “generator” que lida com a geração por difusão (denoising iterativo). Os dois interagem mediante atenção conjunta dentro de cada camada, permitindo que o modelo raciocine sobre uma cena e depois a gere — ou vice-versa — de forma integrada. Não é um VLM colado a um gerador de vídeo; é um único modelo que faz ambas as coisas com parâmetros especializados mas comunicação constante.

A NVIDIA lançou duas variantes de entrada: Cosmos 3 Super, com 64 bilhões de parâmetros (32B do reasoner + 32B do generator), projetado para geração massiva de dados sintéticos e execução em GPUs Hopper ou Blackwell. E Cosmos 3 Nano, com 16B (8B + 8B), otimizado para estações de trabalho com RTX PRO 6000. Uma terceira variante, Cosmos 3 Edge, está anunciada como “em breve” para inferência em tempo real em dispositivos de borda.

Os benchmarks preliminares mostram o Cosmos 3 em primeiro lugar entre modelos abertos em Artificial Analysis, Physics-IQ, PAI-Bench, R-Bench (precisão de geração de mundos), RoboLab e RoboArena (políticas de ação), e VANTAGE-Bench (compreensão visual). É cedo para saber como se comparará com modelos fechados como Gemini, mas o simples fato de existir uma alternativa aberta neste espaço é significativo.

A licença é OpenMDW 1.1, uma licença criada pela Linux Foundation especificamente para modelos de mundo. Permite uso, modificação, redistribuição e implantação comercial de pesos, arquitetura, documentação e código. Não é a licença permissiva mais ampla que existe — tem restrições próprias de uma licença de modelos — mas é um avanço enorme frente aos modelos fechados que dominam a robótica.

A NVIDIA também anunciou a Cosmos Coalition, um grupo de empresas — Agile Robots, Black Forest Labs, Runway, Skild AI, entre outras — que se comprometem a desenvolver colaborativamente modelos de mundo abertos. A mensagem é clara: a NVIDIA não quer ser apenas a fornecedora de GPUs para a IA física; quer ser dona do stack de modelos abertos sobre o qual ela se constrói.

Por que isso importa? Porque a robótica e os veículos autônomos estavam presos em um problema clássico: treinar um robô para entender o mundo real requer quantidades massivas de dados do mundo real, que são caros, lentos e difíceis de escalar. Um modelo de mundo como o Cosmos 3 pode gerar ambientes sintéticos, simular trajetórias e avaliar políticas em questão de dias em vez de meses. Se a promessa se cumprir — e Jensen Huang disse que “o big bang da IA física está logo ali” — o impacto em indústrias como manufatura, logística, construção e transporte será profundo.

Dito isso, é preciso colocar as coisas em contexto. O termo “fully open” é, em parte, marketing da NVIDIA. Os dados de treinamento não são divulgados completamente, e embora datasets sintéticos sejam liberados, o pipeline de processamento não é totalmente transparente. Também não há um paper técnico revisado por pares — a documentação mais profunda é o blog do Hugging Face, não um artigo acadêmico. E a afirmação de reduzir ciclos de treinamento “de meses a dias” é direcional, não um resultado medido.

Mas mesmo com essas ressalvas, o Cosmos 3 representa um passo concreto em direção a uma IA que não apenas processa linguagem e texto, mas entende como o mundo físico funciona. E que qualquer um possa baixá-lo, modificá-lo e usá-lo para construir robôs muda as regras do jogo.

Fonte principal: How Cosmos 3 Helps Physical AI Think Before It Acts — NVIDIA Blog

NVIDIA Cosmos 3: O primeiro modelo aberto que entende o mundo físico

Mais nesta categoria