El 1 de junio de 2026 Alibaba lanzó Qwen 3.7 Plus, y de golpe la conversación sobre qué modelo usar para coding agentivo se reordenó por completo. No porque sea el mejor en todos los benchmarks — no lo es — sino porque combina tres cosas que hasta ahora no convivían en un solo modelo: precio bajo, visión multimodal, y un techo de autonomía de 35 horas. Once días antes había llegado Qwen 3.7 Max, el buque insignia text-only. Dos meses antes, DeepSeek V4 Pro había sacudido el mercado con pesos abiertos y precios imbatibles. Y apenas una semana antes, Anthropic había lanzado Claude Opus 4.8, el nuevo rey de SWE-Bench Pro. Todos compiten por el mismo espacio. Todos ganan en algo distinto.
Esta es la comparativa que junta a los cinco contendientes en las dimensiones que importan para equipos de desarrollo: benchmarks de código, capacidades agentivas, precio, y para qué carga de trabajo conviene cada uno.
Especificaciones técnicas
| Característica | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Claude Opus 4.8 |
|---|---|---|---|---|---|
| Lanzamiento | Jun 2026 | Abr 2026 | May 2026 | Abr 2026 | May 2026 |
| Modalidad | Texto + Imagen + Video | Texto + Imagen | Solo texto | Solo texto | Solo texto |
| Contexto | 1M tokens | 1M tokens | 1M tokens | 1M tokens | 200K tokens |
| Output máximo | — | — | 65,536 tok | 384,000 tok | — |
| Parámetros | API-only (propietario) | API-only (propietario) | API-only (propietario) | 1.6T / 49B activos (MIT) | API-only (cerrado) |
| Autonomía | 35h / 1000+ tools | ~35h | 35h / 1158 tools | No especificada | No especificada |
| Self-hosting | ❌ | ❌ | ❌ | ✅ (MIT) | ❌ |
Precios por millón de tokens
| Modelo | Input | Output | Cached input | Ratio vs +barato |
|---|---|---|---|---|
| DeepSeek V4 Pro (OpenRouter) | $0.435 | $0.87 | ~$0.014 (cache hit) | 1× |
| Qwen 3.6 Plus (OpenRouter) | $0.325 | $1.95 | — | 2.24× |
| Qwen 3.7 Plus (OpenRouter) | $0.40 | $1.60 | $0.08 | 1.84× |
| Qwen 3.7 Max (OpenRouter) | $1.25 | $3.75 | $0.25 | 4.31× |
| Claude Opus 4.8 (directo) | $5.00 | $25.00 | $0.50 | 28.7× |
El dato más fuerte de la tabla: DeepSeek V4 Pro cuesta 29 veces menos que Opus 4.8 en output, y entrega rendimiento competitivo en coding. Qwen 3.7 Plus queda en un punto medio interesante: más barato que su antecesor (3.6 Plus) en output ($1.60 vs $1.95), y drásticamente más barato que su hermano mayor Max ($1.60 vs $7.50).
Benchmarks de coding
| Benchmark | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.8 |
|---|---|---|---|---|---|
| SWE-Bench Pro | ~60% | 56.6% | 60.6% | 59.0% | 69.2% 🏆 |
| SWE-Bench Verified | ~79%* | 78.8% | 80.4% | 80.6% | — |
| Terminal-Bench 2.0 | — | 61.6% | 69.7% 🏆 | 67.9% | — |
| LiveCodeBench | — | — | — | 93.5% 🏆 | — |
*Estimado. Qwen 3.7 Plus comparte backbone con 3.7 Max en texto puro.
Qué dice cada benchmark:
- SWE-Bench Pro: El más duro. Bugs reales multi-archivo en repos abiertos. Opus 4.8 domina con 69.2%, pero cuesta 15× más que Qwen 3.7 Plus y 29× más que DeepSeek.
- SWE-Bench Verified: Tareas más accesibles. DeepSeek V4 Pro (80.6%) y Qwen 3.7 Max (80.4%) están esencialmente empatados. Qwen 3.6 Plus queda ~2 puntos detrás.
- Terminal-Bench 2.0: Ejecución agentiva en shell. Qwen 3.7 Max (69.7) lidera, seguido de DeepSeek (67.9). Qwen 3.6 Plus (61.6) queda rezagado.
- LiveCodeBench: Coding competitivo. DeepSeek V4 Pro (93.5%) aplasta a Opus 4.7 (84.7%) y GPT-5.5 (85.3%).
Benchmarks agentivos (tool calling)
| Benchmark | Qwen 3.7 Plus* | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.6 Max† |
|---|---|---|---|---|---|
| BFCL-V4 (tool calling) | ~74 | 68.9 | 75.0 | 70.6 | 76.7 🏆 |
| MCP-Mark (MCP tools) | — | 48.2 | 60.8 | 57.1 | 56.7 |
| MCP-Atlas (MCP ecosistema) | 76.4 | 74.1 | 76.4 | 73.6 | 75.8 |
*Estimado. Qwen 3.7 Plus hereda el backbone agentivo de 3.7 Max. †Dato de Opus 4.6, no 4.8 (el dato de 4.8 no está disponible para BFCL/MCP).
Qwen 3.7 Max lidera en tool calling entre los modelos chinos. DeepSeek V4 Pro está unos puntos detrás. Qwen 3.7 Plus, al compartir el mismo stack agentivo, debería estar cerca de Max. En MCP-Atlas, Plus y Max obtienen exactamente el mismo score (76.4), lo que sugiere que el backbone agentivo es idéntico.
Capacidades multimodales
| Capacidad | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.8 |
|---|---|---|---|---|---|
| Visión (imagen) | ✅ | ✅ | ❌ | ❌ | ❌* |
| Video | ✅ | ❌ | ❌ | ❌ | ❌ |
| Computer use | ✅ (navegación GUIs) | — | ❌ | ❌ | ✅ (beta) |
| Vision Arena rank | #16 🏆 | — | N/A | N/A | N/A |
*Opus 4.8 tiene computer use para ver pantallas, pero no es visión multimodal nativa.
Qwen 3.7 Plus es el único modelo en la comparativa con visión nativa (imagen + video) a precio de texto. Esto cambia el cálculo para equipos que trabajan con referencias visuales: mockups de UI, screenshots de bugs, wireframes. DeepSeek V4 Pro y Qwen 3.7 Max no pueden hacer esto. Opus 4.8 puede ver pantallas mediante computer use, pero es una capa adicional, no procesamiento multimodal nativo.
Matriz de decisión
| Escenario | Modelo recomendado | Por qué |
|---|---|---|
| Daily driver para coding (default) | Qwen 3.7 Plus | Balance precio-rendimiento-visión. 6× más barato que Max, ve imágenes, mismo techo de autonomía. |
| Máximo rendimiento en coding | Opus 4.8 | SWE-Bench Pro 69.2%. Para debugging profundo donde el costo no importa. |
| Presupuesto ajustado, alto volumen | DeepSeek V4 Pro | Output a $0.87/M, open-weight, LiveCodeBench 93.5%. Lo mejor calidad-precio para coding. |
| Autonomía extrema (pipelines 24h+) | Qwen 3.7 Plus / Max | 35h con >1000 tool calls verificado. Ningún otro modelo tiene esto documentado. |
| Self-hosting / privacidad | DeepSeek V4 Pro (MIT) o Qwen 35B-A3B | Pesos abiertos. Qwen 3.7 Plus y Max son API-only. |
| Coding con referencias visuales | Qwen 3.7 Plus | Único con visión nativa a precio competitivo. |
| Tool calling intensivo | Qwen 3.7 Max / Plus | BFCL-V4 75.0, MCP-Atlas 76.4. Lideran en tool calling entre modelos no-Anthropic. |
Veredicto
No hay un ganador absoluto, pero hay una tendencia clara. Qwen 3.7 Plus es el modelo más equilibrado del mercado hoy para equipos de desarrollo que hacen coding agentivo. No lidera ningún benchmark individual — Opus 4.8 gana en SWE-Bench Pro, DeepSeek V4 Pro gana en precio y LiveCodeBench, Qwen 3.7 Max gana en Terminal-Bench y tool calling. Pero Plus es el único que cubre simultáneamente buen rendimiento en código, precio bajo, visión multimodal, y autonomía extrema.
La era del “mejor modelo” terminó. Ahora se trata de elegir la combinación correcta de atributos para cada carga de trabajo.
Fuente principal: Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai