Google DeepMind ha liberado Gemma 4 12B Unified, la variante más interesante de su nueva familia de modelos abiertos. No es solo otro modelo local — es el primer modelo multimodal de Google que elimina por completo los codificadores dedicados para visión y audio, proyectando píxeles y ondas sonoras directamente en el espacio de embeddings del transformer.
Una familia completa bajo Apache 2.0
La familia Gemma 4, lanzada originalmente en marzo de 2026, incluye cinco tamaños:
- E2B (2.3B parámetros efectivos): optimizado para móviles y edge
- E4B (4.5B): same, con más capacidad
- 12B Unified (11.95B total): encoder-free, multimodal, para GPUs de consumo
- 26B A4B MoE (25.2B total, 3.8B activos): inferencia rápida con MoE
- 31B Dense (30.7B): para estaciones de trabajo
Todos bajo licencia Apache 2.0, sin restricciones de uso.
¿Qué significa “encoder-free”?
Los modelos multimodales tradicionales (LLaVA, BLIP, Gemma 4 anterior) usan codificadores separados — un vision encoder (como SigLIP) y un audio encoder — que convierten imágenes y audio en tokens que luego alimentan al LLM. Gemma 4 12B Unified elimina esos codificadores por completo: las imágenes y el audio se proyectan directamente al espacio de embeddings del transformer mediante capas lineales ligeras.
Esto tiene tres ventajas prácticas:
- Menor uso de memoria: al no tener que cargar codificadores separados, el modelo ocupa menos VRAM
- Menor latencia multimodal: no hay etapa de encoding previa, todo fluye por un solo decoder
- Fine-tuning unificado: todo el modelo se puede ajustar en un solo paso, sin congelar codificadores
Ventana de 256K tokens y atención híbrida
El modelo usa un mecanismo de atención híbrida que intercala ventanas de atención local (sliding window) con atención global completa. Esto optimiza el uso de memoria para contextos largos, que pueden llegar hasta 256K tokens. Las capas globales usan Keys y Values unificados con Proportional RoPE (p-RoPE), una mejora sobre RoPE tradicional para secuencias muy largas.
Resultados en benchmarks
Gemma 4 12B Unified muestra números competitivos para su tamaño:
| Benchmark | Gemma 4 12B | Gemma 3 27B (sin thinking) |
|---|---|---|
| MMLU Pro | 77.2% | ~65% |
| AIME 2026 | 77.5% | — |
| LiveCodeBench v6 | 72.0% | — |
| GPQA Diamond | 78.8% | — |
| MMMU Pro | 69.1% | ~55% |
La mejora es sustancial: supera a Gemma 3 27B en prácticamente todos los benchmarks, a pesar de tener menos de la mitad de parámetros totales.
¿Corre realmente en hardware de consumo?
La pregunta del millón. Con 11.95B parámetros en FP16, el modelo necesita ~24 GB de VRAM — fuera del alcance de GPUs de consumo como una RTX 3060 (12GB) o RX 570 (8GB). Sin embargo, con cuantización a 4 bits (~6GB) o 8 bits (~12GB), el modelo cabe perfectamente en hardware de consumo.
El anuncio oficial de Google dice textualmente que el modelo apunta a “consumer GPUs and workstations” y que los modelos pequeños están diseñados para “ejecución local eficiente en laptops y dispositivos móviles”. En la práctica, la experiencia real dependerá del formato de cuantización (GGUF, GPTQ, AWQ) y del backend (llama.cpp, transformers, MLX).
Hay reportes no verificados de que el modelo corre en una AMD RX 570 con 8GB para tareas de visión — técnicamente plausible con 4-bit, pero Google no lo confirma oficialmente.
Por qué importa
Gemma 4 12B Unified representa un cambio en la estrategia de Google: pasar de modelos abiertos enfocados en investigadores a modelos prácticos que cualquier desarrollador pueda correr en su propia máquina. La combinación de arquitectura encoder-free, licencia Apache 2.0, y capacidad multimodal en un solo modelo de 12B parámetros lo convierte en una opción seria para cualquiera que quiera IA local sin depender de la nube.
El modelo está disponible en HuggingFace (google/gemma-4-12B) y ya acumula más de 435 mil descargas.