IA al Día
la manera eficiente de informarte
Volver al archivo
Modelos 8 de junio de 2026 noticia 4 min de lectura

Gemma 4 12B Unified: el primer modelo multimodal encoder-free de Google que corre en tu laptop

Google DeepMind lanzó Gemma 4 12B Unified, un modelo de 12B parámetros con arquitectura encoder-free que procesa texto, imagen, audio y video sin codificadores separados. Corre en hardware de consumo, usa Apache 2.0 y marca un antes y después en IA local.

Gemma 4 12B Unified: el primer modelo multimodal encoder-free de Google que corre en tu laptop
Por IA al Día

Google DeepMind ha liberado Gemma 4 12B Unified, la variante más interesante de su nueva familia de modelos abiertos. No es solo otro modelo local — es el primer modelo multimodal de Google que elimina por completo los codificadores dedicados para visión y audio, proyectando píxeles y ondas sonoras directamente en el espacio de embeddings del transformer.

Una familia completa bajo Apache 2.0

La familia Gemma 4, lanzada originalmente en marzo de 2026, incluye cinco tamaños:

  • E2B (2.3B parámetros efectivos): optimizado para móviles y edge
  • E4B (4.5B): same, con más capacidad
  • 12B Unified (11.95B total): encoder-free, multimodal, para GPUs de consumo
  • 26B A4B MoE (25.2B total, 3.8B activos): inferencia rápida con MoE
  • 31B Dense (30.7B): para estaciones de trabajo

Todos bajo licencia Apache 2.0, sin restricciones de uso.

¿Qué significa “encoder-free”?

Los modelos multimodales tradicionales (LLaVA, BLIP, Gemma 4 anterior) usan codificadores separados — un vision encoder (como SigLIP) y un audio encoder — que convierten imágenes y audio en tokens que luego alimentan al LLM. Gemma 4 12B Unified elimina esos codificadores por completo: las imágenes y el audio se proyectan directamente al espacio de embeddings del transformer mediante capas lineales ligeras.

Esto tiene tres ventajas prácticas:

  1. Menor uso de memoria: al no tener que cargar codificadores separados, el modelo ocupa menos VRAM
  2. Menor latencia multimodal: no hay etapa de encoding previa, todo fluye por un solo decoder
  3. Fine-tuning unificado: todo el modelo se puede ajustar en un solo paso, sin congelar codificadores

Ventana de 256K tokens y atención híbrida

El modelo usa un mecanismo de atención híbrida que intercala ventanas de atención local (sliding window) con atención global completa. Esto optimiza el uso de memoria para contextos largos, que pueden llegar hasta 256K tokens. Las capas globales usan Keys y Values unificados con Proportional RoPE (p-RoPE), una mejora sobre RoPE tradicional para secuencias muy largas.

Resultados en benchmarks

Gemma 4 12B Unified muestra números competitivos para su tamaño:

BenchmarkGemma 4 12BGemma 3 27B (sin thinking)
MMLU Pro77.2%~65%
AIME 202677.5%
LiveCodeBench v672.0%
GPQA Diamond78.8%
MMMU Pro69.1%~55%

La mejora es sustancial: supera a Gemma 3 27B en prácticamente todos los benchmarks, a pesar de tener menos de la mitad de parámetros totales.

¿Corre realmente en hardware de consumo?

La pregunta del millón. Con 11.95B parámetros en FP16, el modelo necesita ~24 GB de VRAM — fuera del alcance de GPUs de consumo como una RTX 3060 (12GB) o RX 570 (8GB). Sin embargo, con cuantización a 4 bits (~6GB) o 8 bits (~12GB), el modelo cabe perfectamente en hardware de consumo.

El anuncio oficial de Google dice textualmente que el modelo apunta a “consumer GPUs and workstations” y que los modelos pequeños están diseñados para “ejecución local eficiente en laptops y dispositivos móviles”. En la práctica, la experiencia real dependerá del formato de cuantización (GGUF, GPTQ, AWQ) y del backend (llama.cpp, transformers, MLX).

Hay reportes no verificados de que el modelo corre en una AMD RX 570 con 8GB para tareas de visión — técnicamente plausible con 4-bit, pero Google no lo confirma oficialmente.

Por qué importa

Gemma 4 12B Unified representa un cambio en la estrategia de Google: pasar de modelos abiertos enfocados en investigadores a modelos prácticos que cualquier desarrollador pueda correr en su propia máquina. La combinación de arquitectura encoder-free, licencia Apache 2.0, y capacidad multimodal en un solo modelo de 12B parámetros lo convierte en una opción seria para cualquiera que quiera IA local sin depender de la nube.

El modelo está disponible en HuggingFace (google/gemma-4-12B) y ya acumula más de 435 mil descargas.

Más en esta categoría