O Google DeepMind lançou o Gemma 4 12B Unified, a variante mais interessante da sua nova família de modelos abertos. Não é apenas mais um modelo local — é o primeiro modelo multimodal do Google que elimina completamente os codificadores dedicados para visão e áudio, projetando pixels e ondas sonoras diretamente no espaço de embeddings do transformer.
Uma família completa sob Apache 2.0
A família Gemma 4, lançada originalmente em março de 2026, inclui cinco tamanhos:
- E2B (2,3B parâmetros efetivos): otimizado para dispositivos móveis e edge
- E4B (4,5B): same, com mais capacidade
- 12B Unified (11,95B total): encoder-free, multimodal, para GPUs de consumo
- 26B A4B MoE (25,2B total, 3,8B ativos): inferência rápida com MoE
- 31B Dense (30,7B): para estações de trabalho
Todos sob licença Apache 2.0, sem restrições de uso.
O que significa “encoder-free”?
Os modelos multimodais tradicionais (LLaVA, BLIP, Gemma 4 anterior) usam codificadores separados — um vision encoder (como SigLIP) e um audio encoder — que convertem imagens e áudio em tokens que depois alimentam o LLM. O Gemma 4 12B Unified elimina esses codificadores por completo: as imagens e o áudio são projetados diretamente no espaço de embeddings do transformer por meio de camadas lineares leves.
Isso tem três vantagens práticas:
- Menor uso de memória: ao não precisar carregar codificadores separados, o modelo ocupa menos VRAM
- Menor latência multimodal: não há etapa de encoding prévia, tudo flui por um único decoder
- Fine-tuning unificado: todo o modelo pode ser ajustado em uma única etapa, sem congelar codificadores
Janela de 256K tokens e atenção híbrida
O modelo usa um mecanismo de atenção híbrida que intercala janelas de atenção local (sliding window) com atenção global completa. Isso otimiza o uso de memória para contextos longos, que podem chegar até 256K tokens. As camadas globais usam Keys e Values unificados com Proportional RoPE (p-RoPE), uma melhoria sobre o RoPE tradicional para sequências muito longas.
Resultados em benchmarks
O Gemma 4 12B Unified mostra números competitivos para seu tamanho:
| Benchmark | Gemma 4 12B | Gemma 3 27B (sem thinking) |
|---|---|---|
| MMLU Pro | 77,2% | ~65% |
| AIME 2026 | 77,5% | — |
| LiveCodeBench v6 | 72,0% | — |
| GPQA Diamond | 78,8% | — |
| MMMU Pro | 69,1% | ~55% |
A melhoria é substancial: supera o Gemma 3 27B em praticamente todos os benchmarks, apesar de ter menos da metade dos parâmetros totais.
Roda realmente em hardware de consumo?
A pergunta de um milhão de dólares. Com 11,95B parâmetros em FP16, o modelo precisa de ~24 GB de VRAM — fora do alcance de GPUs de consumo como uma RTX 3060 (12GB) ou RX 570 (8GB). No entanto, com quantização para 4 bits (~6GB) ou 8 bits (~12GB), o modelo cabe perfeitamente em hardware de consumo.
O anúncio oficial do Google diz textualmente que o modelo visa “GPUs e estações de trabalho de consumo” e que os modelos pequenos são projetados para “execução local eficiente em laptops e dispositivos móveis”. Na prática, a experiência real dependerá do formato de quantização (GGUF, GPTQ, AWQ) e do backend (llama.cpp, transformers, MLX).
Há relatos não verificados de que o modelo roda em uma AMD RX 570 com 8GB para tarefas de visão — tecnicamente plausível com 4-bit, mas o Google não confirma oficialmente.
Por que isso importa
O Gemma 4 12B Unified representa uma mudança na estratégia do Google: passar de modelos abertos focados em pesquisadores para modelos práticos que qualquer desenvolvedor possa rodar em sua própria máquina. A combinação de arquitetura encoder-free, licença Apache 2.0 e capacidade multimodal em um único modelo de 12B parâmetros o torna uma opção séria para quem quer IA local sem depender da nuvem.
O modelo está disponível no HuggingFace (google/gemma-4-12B) e já acumula mais de 435 mil downloads.