Gemma 4 12B Unified: el primer modelo multimodal encoder-free de Google que corre en tu laptop

Google DeepMind lanzó Gemma 4 12B Unified, un modelo de 12B parámetros con arquitectura encoder-free que procesa texto, imagen, audio y video sin codificadores separados. Corre en hardware de consumo, usa Apache 2.0 y marca un antes y después en IA local.

Google DeepMind ha liberado Gemma 4 12B Unified, la variante más interesante de su nueva familia de modelos abiertos. No es solo otro modelo local — es el primer modelo multimodal de Google que elimina por completo los codificadores dedicados para visión y audio, proyectando píxeles y ondas sonoras directamente en el espacio de embeddings del transformer.

Una familia completa bajo Apache 2.0

La familia Gemma 4, lanzada originalmente en marzo de 2026, incluye cinco tamaños:

E2B (2.3B parámetros efectivos): optimizado para móviles y edge
E4B (4.5B): same, con más capacidad
12B Unified (11.95B total): encoder-free, multimodal, para GPUs de consumo
26B A4B MoE (25.2B total, 3.8B activos): inferencia rápida con MoE
31B Dense (30.7B): para estaciones de trabajo

Todos bajo licencia Apache 2.0, sin restricciones de uso.

¿Qué significa “encoder-free”?

Los modelos multimodales tradicionales (LLaVA, BLIP, Gemma 4 anterior) usan codificadores separados — un vision encoder (como SigLIP) y un audio encoder — que convierten imágenes y audio en tokens que luego alimentan al LLM. Gemma 4 12B Unified elimina esos codificadores por completo: las imágenes y el audio se proyectan directamente al espacio de embeddings del transformer mediante capas lineales ligeras.

Esto tiene tres ventajas prácticas:

Menor uso de memoria: al no tener que cargar codificadores separados, el modelo ocupa menos VRAM
Menor latencia multimodal: no hay etapa de encoding previa, todo fluye por un solo decoder
Fine-tuning unificado: todo el modelo se puede ajustar en un solo paso, sin congelar codificadores

Ventana de 256K tokens y atención híbrida

El modelo usa un mecanismo de atención híbrida que intercala ventanas de atención local (sliding window) con atención global completa. Esto optimiza el uso de memoria para contextos largos, que pueden llegar hasta 256K tokens. Las capas globales usan Keys y Values unificados con Proportional RoPE (p-RoPE), una mejora sobre RoPE tradicional para secuencias muy largas.

Resultados en benchmarks

Gemma 4 12B Unified muestra números competitivos para su tamaño:

Benchmark	Gemma 4 12B	Gemma 3 27B (sin thinking)
MMLU Pro	77.2%	~65%
AIME 2026	77.5%	—
LiveCodeBench v6	72.0%	—
GPQA Diamond	78.8%	—
MMMU Pro	69.1%	~55%

La mejora es sustancial: supera a Gemma 3 27B en prácticamente todos los benchmarks, a pesar de tener menos de la mitad de parámetros totales.

¿Corre realmente en hardware de consumo?

La pregunta del millón. Con 11.95B parámetros en FP16, el modelo necesita ~24 GB de VRAM — fuera del alcance de GPUs de consumo como una RTX 3060 (12GB) o RX 570 (8GB). Sin embargo, con cuantización a 4 bits (~6GB) o 8 bits (~12GB), el modelo cabe perfectamente en hardware de consumo.

El anuncio oficial de Google dice textualmente que el modelo apunta a “consumer GPUs and workstations” y que los modelos pequeños están diseñados para “ejecución local eficiente en laptops y dispositivos móviles”. En la práctica, la experiencia real dependerá del formato de cuantización (GGUF, GPTQ, AWQ) y del backend (llama.cpp, transformers, MLX).

Hay reportes no verificados de que el modelo corre en una AMD RX 570 con 8GB para tareas de visión — técnicamente plausible con 4-bit, pero Google no lo confirma oficialmente.

Por qué importa

Gemma 4 12B Unified representa un cambio en la estrategia de Google: pasar de modelos abiertos enfocados en investigadores a modelos prácticos que cualquier desarrollador pueda correr en su propia máquina. La combinación de arquitectura encoder-free, licencia Apache 2.0, y capacidad multimodal en un solo modelo de 12B parámetros lo convierte en una opción seria para cualquiera que quiera IA local sin depender de la nube.

El modelo está disponible en HuggingFace (google/gemma-4-12B) y ya acumula más de 435 mil descargas.