Entre abril y junio de 2026, China lanzó una oleada de modelos de lenguaje diseñados para una misma misión: el coding agéntico. GLM-5.1, Qwen3.7-Max, Kimi K2.6, MiniMax M3, MiMo-V2.5-Pro, DeepSeek V4 Pro y V4 Flash compiten directamente con Claude Opus 4.8 en los benchmarks que más importan para el desarrollo de software autónomo. Esta comparativa los analiza uno por uno, con datos actualizados a junio de 2026.
El contexto: una concentración histórica de lanzamientos
En apenas tres meses, siete modelos chinos han llegado al mercado con un denominador común: todos se posicionan explícitamente para agentic coding —la capacidad de un modelo de escribir, depurar y optimizar código de forma autónoma durante sesiones largas, usando herramientas, iterando sobre resultados y manteniendo coherencia a lo largo de cientos o miles de llamadas.
La referencia occidental es Claude Opus 4.8, lanzado por Anthropic el 28 de mayo de 2026, que elevó el estándar en SWE-Bench Pro a 69.2 %. Pero los modelos chinos están cerrando la brecha a un ritmo acelerado —y a precios que los hacen difíciles de ignorar.
¿Qué mide exactamente SWE-Bench Pro?
Antes de entrar en números, una aclaración necesaria. SWE-Bench Pro evalúa la capacidad de un modelo para resolver bugs reales en repositorios de código abierto: el modelo recibe una descripción del problema, explora el código base, identifica la causa raíz y propone un parche. Es la métrica más cercana a lo que un desarrollador humano hace a diario. Sin embargo, cada modelo se evalúa con scaffolds distintos (el sistema de agente que orquesta las herramientas), por lo que las comparativas directas entre laboratorios son direccionales, no absolutas.
Los contendientes, en orden de rendimiento
Claude Opus 4.8 — el estándar a superar
Anthropic lanzó Opus 4.8 como una mejora “modesta pero tangible” sobre Opus 4.7, y los números lo confirman: 69.2 % en SWE-Bench Pro, frente al 64.3 % de su predecesor. Es una mejora de casi 5 puntos porcentuales en apenas un mes. Pero el dato más interesante no está en los benchmarks: Anthropic afirma que Opus 4.8 es cuatro veces menos probable que deje pasar bugs en su propio código sin reportarlos. Para equipos que confían en agentes autónomos para codebases legacy, esto es tan importante como cualquier métrica de rendimiento.
El precio se mantiene en $5 por millón de tokens de entrada y $25 por millón de tokens de salida —el mismo que Opus 4.7. Es el modelo más caro de la comparativa por un margen amplio.
Qwen3.7-Max — el líder chino en coding
El modelo insignia de Alibaba llegó el 19 de mayo con un rendimiento que sorprendió incluso a los analistas más atentos. En SWE-Bench Pro alcanza 60.6 %, superando a todos los modelos chinos y a Opus 4.6 (57.3 %). Pero donde realmente brilla es en Terminal-Bench 2.0, donde su puntuación de 69.7 supera a todos los competidores, incluido Opus 4.6 (65.4 %) y DeepSeek V4 Pro (67.9 %). Terminal-Bench mide tareas reales de terminal: instalación de paquetes, depuración de procesos, configuración de redes. Es el benchmark más cercano al trabajo cotidiano de un desarrollador.
La demostración más impresionante de Qwen3.7-Max fue una optimización de kernel autónoma de 35 horas con más de 1,000 llamadas a herramientas, completada sin intervención humana. Alibaba también demostró que el modelo generaliza a través de distintos scaffolds (Claude Code, OpenClaw, Qwen Code) con resultados consistentes.
Su precio actual es de $1.25 por millón de tokens de entrada y $3.75 por millón de salida, gracias a una promoción del 50 % vigente hasta el 22 de junio. El precio normal es el doble.
Kimi K2.6 — el open-weight más cercano a la frontera
Moonshot AI lanzó Kimi K2.6 el 20 de abril como un modelo de pesos abiertos con aproximadamente 1 billón de parámetros. Su puntuación de 59.5 % en SWE-Bench Pro lo sitúa ligeramente por detrás de Qwen3.7-Max, pero por delante de Opus 4.6 (57.3 %). En SWE-Bench Verified alcanza 80.2 %, prácticamente empatado con Opus 4.6 (80.8 %).
Kimi K2.6 está diseñado explícitamente para agentes proactivos que operan 24/7 sin supervisión humana. Moonshot AI reporta una tasa de invocación de herramientas del 96.6 % y una mejora del 50 % en generación de aplicaciones web con Next.js respecto a su predecesor K2.5. Integradores como CodeBuddy y Augment Code confirman que el modelo es especialmente hábil para pivotar inteligentemente cuando una aproximación inicial falla.
Su precio es de $0.75 por millón de tokens de entrada y $3.50 por millón de salida. Está disponible con pesos abiertos bajo licencia Modified MIT.
DeepSeek V4 Pro — el rey de la relación calidad-precio
DeepSeek V4 Pro, lanzado el 24 de abril, es un modelo de 1.6 billones de parámetros (49 mil millones activos) con 1 millón de tokens de contexto y licencia MIT. Su puntuación de 80.6 % en SWE-Bench Verified está a solo 0.2 puntos de Opus 4.6 (80.8 %), y su 93.5 en LiveCodeBench es la más alta de cualquier modelo hasta la fecha.
Pero el dato que más ha sacudido el mercado es su precio. DeepSeek aplicó un descuento del 75 % que luego volvió permanente: el costo de salida es de $0.87 por millón de tokens, frente a los $25 de Opus 4.8. Es 29 veces más barato por un rendimiento comparable en coding. Su arquitectura híbrida CSA+HCA reduce los FLOPs al 27 % y el caché KV al 10 % de lo que requería la generación anterior.
MiniMax M3 — el recién llegado que promete revolucionar
El lanzamiento más reciente de esta comparativa —1 de junio de 2026— es también uno de los más ambiciosos. MiniMax M3 es el primer modelo de pesos abiertos que combina coding de frontera, 1 millón de tokens de contexto y capacidad multimodal (texto, imagen y video) en un solo sistema.
Sus cifras: 59.0 % en SWE-Bench Pro, 83.5 en BrowseComp (superando a Opus 4.7, que obtuvo 79.3) y 66.0 % en Terminal-Bench 2.1. MiniMax afirma que supera a GPT-5.5 y Gemini 3.1 Pro en coding, aunque la validación independiente aún está en proceso por lo reciente del lanzamiento.
El verdadero diferenciador de M3 es su arquitectura MSA (MiniMax Sparse Attention), que reemplaza la atención completa por selección de bloques KV. Esto hace que el contexto de 1 millón de tokens sea práctico: el prefill es 9 veces más rápido, el decoding 15 veces más rápido, y el cómputo por token se reduce a una décima parte respecto a la generación anterior.
En precio promocional, MiniMax M3 cuesta $0.30 por millón de tokens de entrada y $1.20 por millón de salida. Es 21 veces más barato que Opus 4.8, y al ser de pesos abiertos, permite auto-hospedaje.
GLM-5.1 — el especialista en optimización multi-iteración
El modelo de Z.ai (antes Zhipu AI), lanzado el 7 de abril, fue entrenado íntegramente en chips Huawei Ascend, lo que lo convierte en un símbolo de la soberanía tecnológica china. Su puntuación de 58.4 % en SWE-Bench Pro está por detrás de los líderes, pero tiene una cualidad única: está diseñado para no estancarse.
La demostración más elocuente de GLM-5.1 es una tarea de optimización de base de datos vectorial en Rust. En una sesión normal de 50 turnos, alcanzó unas 3,500 consultas por segundo —comparable a Opus 4.6. Pero en un bucle de optimización de 600 iteraciones con más de 6,000 llamadas a herramientas, alcanzó 21,500 consultas por segundo: seis veces más. Mientras otros modelos se estancan tras las primeras iteraciones, GLM-5.1 sigue encontrando mejoras estructurales.
Su precio es de aproximadamente $0.98 por millón de tokens de entrada y $3.08 por millón de salida en OpenRouter. El contexto está limitado a 203,000 tokens, significativamente menos que los 1 millón de la competencia.
MiMo-V2.5-Pro — el constructor de compiladores
Xiaomi entró al mercado de modelos de lenguaje con MiMo-V2.5-Pro, un modelo de 1.02 billones de parámetros (42 mil millones activos) con licencia MIT y 1 millón de tokens de contexto. Sus puntuaciones en benchmarks son modestas (57.2 % en SWE-Bench Pro, 78.9 % en Verified), pero su fortaleza está en otra parte.
Xiaomi demostró que MiMo-V2.5-Pro construyó un compilador completo de SysY en Rust —un proyecto que toma semanas a un estudiante de ciencias de la computación— en 4.3 horas con 672 llamadas a herramientas, obteniendo una puntuación perfecta de 233/233 en el conjunto de pruebas. Es el modelo ideal para tareas de infraestructura que requieren sesiones largas y autónomas.
Su precio es de $0.435 por millón de tokens de entrada y $0.87 por millón de salida, empatado con DeepSeek V4 Pro como el segundo más barato. Su velocidad de generación es baja (42 tokens por segundo) y tiende a ser verboso, pero para tareas que priorizan la corrección sobre la velocidad, es una opción sólida.
DeepSeek V4 Flash — el ultra-económico
Si DeepSeek V4 Pro revolucionó la relación calidad-precio, V4 Flash la redefinió por completo. Con 284 mil millones de parámetros totales (13 mil millones activos) y un precio de salida de $0.28 por millón de tokens, ofrece un 79.0 % en SWE-Bench Verified. Esto es solo 1.6 puntos porcentuales menos que V4 Pro, por aproximadamente un tercio del precio.
Para ponerlo en perspectiva: V4 Flash cuesta aproximadamente 90 veces menos que Claude Opus 4.8 en tokens de salida, con una diferencia de rendimiento en coding que muchos equipos considerarían aceptable. Para startups, equipos pequeños o tareas que requieren procesar millones de tokens sin preocuparse por el costo, V4 Flash es posiblemente el modelo con mejor relación precio-rendimiento jamás lanzado.
Al igual que V4 Pro, tiene licencia MIT, pesos abiertos y 1 millón de tokens de contexto.
Tabla comparativa de benchmarks
| Modelo | SWE-Bench Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Precio output/1M |
|---|---|---|---|---|
| Claude Opus 4.8 | 69.2 % 🏆 | 80.8 % (Opus 4.6) | 65.4 % (Opus 4.6) | $25.00 |
| Qwen3.7-Max | 60.6 % | 80.4 % | 69.7 % 🏆 | $3.75 (promo) |
| Kimi K2.6 | 59.5 % | 80.2 % | 66.7 % | $3.50 |
| MiniMax M3 | 59.0 % | — | 66.0 % | $1.20 (promo) |
| DeepSeek V4 Pro | 59.0 % | 80.6 % | 67.9 % | $0.87 💸 |
| GLM-5.1 | 58.4 % | — | 63.5 % | $4.40 |
| MiMo-V2.5-Pro | 57.2 % | 78.9 % | 68.4 % | $0.87 |
| DeepSeek V4 Flash | — | 79.0 % | — | $0.28 💸 |
Nota: las cifras provienen de los informes oficiales de cada laboratorio y pueden usar metodologías distintas. † = datos de Opus 4.6, no 4.8. 💸 = precio permanente reducido.
¿Qué modelo elegir según el caso de uso?
Para coding diario (PRs, fixes, features): DeepSeek V4 Pro ofrece el mejor balance entre rendimiento (80.6 % Verified) y precio ($0.87/1M output). Si el presupuesto es mínimo, V4 Flash a $0.28 es una opción increíblemente potente.
Para tareas de infraestructura y larga duración: MiMo-V2.5-Pro demostró que puede completar proyectos complejos como un compilador en horas de forma autónoma. GLM-5.1 es la alternativa si la tarea requiere optimización iterativa sostenida.
Para agentes autónomos 24/7: Kimi K2.6 está diseñado explícitamente para este caso de uso, con una tasa de invocación de herramientas del 96.6 % y capacidad de orquestación de agentes heterogéneos.
Para navegación web autónoma: MiniMax M3 lidera con 83.5 en BrowseComp, superando a Opus 4.7. Su contexto de 1M a precio mínimo lo hace ideal para tareas que requieren leer y procesar grandes volúmenes de información web.
Para trabajo de alta confianza en codebases legacy: Claude Opus 4.8 sigue siendo la opción más segura. Su honestidad —cuatro veces menos probable que ignore bugs en su propio código— y su ecosistema maduro (Claude Code, MCP, tool use refinado) justifican el precio premium cuando el costo del error supera al costo del API.
La guerra de precios china se intensifica
Más allá de los benchmarks, hay una tendencia que merece atención: los modelos chinos no solo compiten en rendimiento, sino en una estrategia agresiva de precios bajos. DeepSeek volvió permanente su descuento del 75 % en V4 Pro en mayo. Xiaomi entró al mercado de APIs con precios que subcotizan a todos. Alibaba ofrece 50 % de descuento en Qwen3.7-Max. MiniMax M3 lanza con precios promocionales que son una fracción de los líderes occidentales.
El resultado es un mercado donde es posible acceder a modelos con rendimiento de frontera por menos de $1 por millón de tokens de salida. Hace un año, eso parecía imposible.
Lo que Claude Opus 4.8 aún hace mejor
A pesar de la brecha reducida, Claude Opus 4.8 mantiene ventajas cualitativas que los benchmarks no capturan completamente. La honestidad en coding —reportar bugs en lugar de ignorarlos— es una mejora significativa para el desarrollo autónomo. Las dynamic workflows de Claude Code permiten ejecutar agentes paralelos para trabajos a escala de codebase. Y el ecosistema de Anthropic, con MCP y tool use refinado, sigue siendo más maduro que las alternativas chinas.
Para empresas donde el costo de un error de producción supera con creces al costo del API, Opus 4.8 sigue siendo la opción correcta. Para el resto, los modelos chinos ofrecen una alternativa cada vez más difícil de ignorar.
Fuente principal: GLM-5.1 — Z.ai | Qwen3.7 — Alibaba | Kimi K2.6 — Moonshot AI | MiniMax M3 — MiniMax | MiMo-V2.5-Pro — Xiaomi | DeepSeek V4 — DeepSeek | Claude Opus 4.8 — Anthropic