IA al Día
a maneira eficiente de se informar
Voltar ao arquivo
Modelos 8 de junho de 2026 notícia 4 min de leitura

Gemma 4 12B Unified: o primeiro modelo multimodal encoder-free do Google que roda no seu laptop

Google DeepMind lançou o Gemma 4 12B Unified, um modelo de 12B parâmetros com arquitetura encoder-free que processa texto, imagem, áudio e vídeo sem codificadores separados. Roda em hardware de consumo, usa Apache 2.0 e marca um antes e depois na IA local.

Gemma 4 12B Unified: o primeiro modelo multimodal encoder-free do Google que roda no seu laptop
Por IA al Día

O Google DeepMind lançou o Gemma 4 12B Unified, a variante mais interessante da sua nova família de modelos abertos. Não é apenas mais um modelo local — é o primeiro modelo multimodal do Google que elimina completamente os codificadores dedicados para visão e áudio, projetando pixels e ondas sonoras diretamente no espaço de embeddings do transformer.

Uma família completa sob Apache 2.0

A família Gemma 4, lançada originalmente em março de 2026, inclui cinco tamanhos:

  • E2B (2,3B parâmetros efetivos): otimizado para dispositivos móveis e edge
  • E4B (4,5B): same, com mais capacidade
  • 12B Unified (11,95B total): encoder-free, multimodal, para GPUs de consumo
  • 26B A4B MoE (25,2B total, 3,8B ativos): inferência rápida com MoE
  • 31B Dense (30,7B): para estações de trabalho

Todos sob licença Apache 2.0, sem restrições de uso.

O que significa “encoder-free”?

Os modelos multimodais tradicionais (LLaVA, BLIP, Gemma 4 anterior) usam codificadores separados — um vision encoder (como SigLIP) e um audio encoder — que convertem imagens e áudio em tokens que depois alimentam o LLM. O Gemma 4 12B Unified elimina esses codificadores por completo: as imagens e o áudio são projetados diretamente no espaço de embeddings do transformer por meio de camadas lineares leves.

Isso tem três vantagens práticas:

  1. Menor uso de memória: ao não precisar carregar codificadores separados, o modelo ocupa menos VRAM
  2. Menor latência multimodal: não há etapa de encoding prévia, tudo flui por um único decoder
  3. Fine-tuning unificado: todo o modelo pode ser ajustado em uma única etapa, sem congelar codificadores

Janela de 256K tokens e atenção híbrida

O modelo usa um mecanismo de atenção híbrida que intercala janelas de atenção local (sliding window) com atenção global completa. Isso otimiza o uso de memória para contextos longos, que podem chegar até 256K tokens. As camadas globais usam Keys e Values unificados com Proportional RoPE (p-RoPE), uma melhoria sobre o RoPE tradicional para sequências muito longas.

Resultados em benchmarks

O Gemma 4 12B Unified mostra números competitivos para seu tamanho:

BenchmarkGemma 4 12BGemma 3 27B (sem thinking)
MMLU Pro77,2%~65%
AIME 202677,5%
LiveCodeBench v672,0%
GPQA Diamond78,8%
MMMU Pro69,1%~55%

A melhoria é substancial: supera o Gemma 3 27B em praticamente todos os benchmarks, apesar de ter menos da metade dos parâmetros totais.

Roda realmente em hardware de consumo?

A pergunta de um milhão de dólares. Com 11,95B parâmetros em FP16, o modelo precisa de ~24 GB de VRAM — fora do alcance de GPUs de consumo como uma RTX 3060 (12GB) ou RX 570 (8GB). No entanto, com quantização para 4 bits (~6GB) ou 8 bits (~12GB), o modelo cabe perfeitamente em hardware de consumo.

O anúncio oficial do Google diz textualmente que o modelo visa “GPUs e estações de trabalho de consumo” e que os modelos pequenos são projetados para “execução local eficiente em laptops e dispositivos móveis”. Na prática, a experiência real dependerá do formato de quantização (GGUF, GPTQ, AWQ) e do backend (llama.cpp, transformers, MLX).

Há relatos não verificados de que o modelo roda em uma AMD RX 570 com 8GB para tarefas de visão — tecnicamente plausível com 4-bit, mas o Google não confirma oficialmente.

Por que isso importa

O Gemma 4 12B Unified representa uma mudança na estratégia do Google: passar de modelos abertos focados em pesquisadores para modelos práticos que qualquer desenvolvedor possa rodar em sua própria máquina. A combinação de arquitetura encoder-free, licença Apache 2.0 e capacidade multimodal em um único modelo de 12B parâmetros o torna uma opção séria para quem quer IA local sem depender da nuvem.

O modelo está disponível no HuggingFace (google/gemma-4-12B) e já acumula mais de 435 mil downloads.

Mais nesta categoria