IA al Día
la manera eficiente de informarte
Volver al archivo
Modelos 3 de junio de 2026 análisis 6 min de lectura

Qwen 3.7 Plus frente a 3.6 Plus, 3.7 Max, DeepSeek V4 Pro y Opus 4.8: la comparativa definitiva para coding y agentes

El 1 de junio de 2026 Alibaba lanzó Qwen 3.7 Plus, y de golpe la conversación sobre qué modelo usar para coding agentivo se reordenó por completo.

Qwen 3.7 Plus frente a 3.6 Plus, 3.7 Max, DeepSeek V4 Pro y Opus 4.8: la comparativa definitiva para coding y agentes
Por IA al Día

El 1 de junio de 2026 Alibaba lanzó Qwen 3.7 Plus, y de golpe la conversación sobre qué modelo usar para coding agentivo se reordenó por completo. No porque sea el mejor en todos los benchmarks — no lo es — sino porque combina tres cosas que hasta ahora no convivían en un solo modelo: precio bajo, visión multimodal, y un techo de autonomía de 35 horas. Once días antes había llegado Qwen 3.7 Max, el buque insignia text-only. Dos meses antes, DeepSeek V4 Pro había sacudido el mercado con pesos abiertos y precios imbatibles. Y apenas una semana antes, Anthropic había lanzado Claude Opus 4.8, el nuevo rey de SWE-Bench Pro. Todos compiten por el mismo espacio. Todos ganan en algo distinto.

Esta es la comparativa que junta a los cinco contendientes en las dimensiones que importan para equipos de desarrollo: benchmarks de código, capacidades agentivas, precio, y para qué carga de trabajo conviene cada uno.

Especificaciones técnicas

Característica Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Claude Opus 4.8
Lanzamiento Jun 2026 Abr 2026 May 2026 Abr 2026 May 2026
Modalidad Texto + Imagen + Video Texto + Imagen Solo texto Solo texto Solo texto
Contexto 1M tokens 1M tokens 1M tokens 1M tokens 200K tokens
Output máximo 65,536 tok 384,000 tok
Parámetros API-only (propietario) API-only (propietario) API-only (propietario) 1.6T / 49B activos (MIT) API-only (cerrado)
Autonomía 35h / 1000+ tools ~35h 35h / 1158 tools No especificada No especificada
Self-hosting ✅ (MIT)

Precios por millón de tokens

Modelo Input Output Cached input Ratio vs +barato
DeepSeek V4 Pro (OpenRouter) $0.435 $0.87 ~$0.014 (cache hit)
Qwen 3.6 Plus (OpenRouter) $0.325 $1.95 2.24×
Qwen 3.7 Plus (OpenRouter) $0.40 $1.60 $0.08 1.84×
Qwen 3.7 Max (OpenRouter) $1.25 $3.75 $0.25 4.31×
Claude Opus 4.8 (directo) $5.00 $25.00 $0.50 28.7×

El dato más fuerte de la tabla: DeepSeek V4 Pro cuesta 29 veces menos que Opus 4.8 en output, y entrega rendimiento competitivo en coding. Qwen 3.7 Plus queda en un punto medio interesante: más barato que su antecesor (3.6 Plus) en output ($1.60 vs $1.95), y drásticamente más barato que su hermano mayor Max ($1.60 vs $7.50).

Benchmarks de coding

Benchmark Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.8
SWE-Bench Pro ~60% 56.6% 60.6% 59.0% 69.2% 🏆
SWE-Bench Verified ~79%* 78.8% 80.4% 80.6%
Terminal-Bench 2.0 61.6% 69.7% 🏆 67.9%
LiveCodeBench 93.5% 🏆

*Estimado. Qwen 3.7 Plus comparte backbone con 3.7 Max en texto puro.

Qué dice cada benchmark:

  • SWE-Bench Pro: El más duro. Bugs reales multi-archivo en repos abiertos. Opus 4.8 domina con 69.2%, pero cuesta 15× más que Qwen 3.7 Plus y 29× más que DeepSeek.
  • SWE-Bench Verified: Tareas más accesibles. DeepSeek V4 Pro (80.6%) y Qwen 3.7 Max (80.4%) están esencialmente empatados. Qwen 3.6 Plus queda ~2 puntos detrás.
  • Terminal-Bench 2.0: Ejecución agentiva en shell. Qwen 3.7 Max (69.7) lidera, seguido de DeepSeek (67.9). Qwen 3.6 Plus (61.6) queda rezagado.
  • LiveCodeBench: Coding competitivo. DeepSeek V4 Pro (93.5%) aplasta a Opus 4.7 (84.7%) y GPT-5.5 (85.3%).

Benchmarks agentivos (tool calling)

Benchmark Qwen 3.7 Plus* Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.6 Max†
BFCL-V4 (tool calling) ~74 68.9 75.0 70.6 76.7 🏆
MCP-Mark (MCP tools) 48.2 60.8 57.1 56.7
MCP-Atlas (MCP ecosistema) 76.4 74.1 76.4 73.6 75.8

*Estimado. Qwen 3.7 Plus hereda el backbone agentivo de 3.7 Max. †Dato de Opus 4.6, no 4.8 (el dato de 4.8 no está disponible para BFCL/MCP).

Qwen 3.7 Max lidera en tool calling entre los modelos chinos. DeepSeek V4 Pro está unos puntos detrás. Qwen 3.7 Plus, al compartir el mismo stack agentivo, debería estar cerca de Max. En MCP-Atlas, Plus y Max obtienen exactamente el mismo score (76.4), lo que sugiere que el backbone agentivo es idéntico.

Capacidades multimodales

Capacidad Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.8
Visión (imagen) ❌*
Video
Computer use ✅ (navegación GUIs) ✅ (beta)
Vision Arena rank #16 🏆 N/A N/A N/A

*Opus 4.8 tiene computer use para ver pantallas, pero no es visión multimodal nativa.

Qwen 3.7 Plus es el único modelo en la comparativa con visión nativa (imagen + video) a precio de texto. Esto cambia el cálculo para equipos que trabajan con referencias visuales: mockups de UI, screenshots de bugs, wireframes. DeepSeek V4 Pro y Qwen 3.7 Max no pueden hacer esto. Opus 4.8 puede ver pantallas mediante computer use, pero es una capa adicional, no procesamiento multimodal nativo.

Matriz de decisión

Escenario Modelo recomendado Por qué
Daily driver para coding (default) Qwen 3.7 Plus Balance precio-rendimiento-visión. 6× más barato que Max, ve imágenes, mismo techo de autonomía.
Máximo rendimiento en coding Opus 4.8 SWE-Bench Pro 69.2%. Para debugging profundo donde el costo no importa.
Presupuesto ajustado, alto volumen DeepSeek V4 Pro Output a $0.87/M, open-weight, LiveCodeBench 93.5%. Lo mejor calidad-precio para coding.
Autonomía extrema (pipelines 24h+) Qwen 3.7 Plus / Max 35h con >1000 tool calls verificado. Ningún otro modelo tiene esto documentado.
Self-hosting / privacidad DeepSeek V4 Pro (MIT) o Qwen 35B-A3B Pesos abiertos. Qwen 3.7 Plus y Max son API-only.
Coding con referencias visuales Qwen 3.7 Plus Único con visión nativa a precio competitivo.
Tool calling intensivo Qwen 3.7 Max / Plus BFCL-V4 75.0, MCP-Atlas 76.4. Lideran en tool calling entre modelos no-Anthropic.

Veredicto

No hay un ganador absoluto, pero hay una tendencia clara. Qwen 3.7 Plus es el modelo más equilibrado del mercado hoy para equipos de desarrollo que hacen coding agentivo. No lidera ningún benchmark individual — Opus 4.8 gana en SWE-Bench Pro, DeepSeek V4 Pro gana en precio y LiveCodeBench, Qwen 3.7 Max gana en Terminal-Bench y tool calling. Pero Plus es el único que cubre simultáneamente buen rendimiento en código, precio bajo, visión multimodal, y autonomía extrema.

La era del “mejor modelo” terminó. Ahora se trata de elegir la combinación correcta de atributos para cada carga de trabajo.


Fuente principal: Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai

Más en esta categoría