Qwen 3.7 Plus frente a 3.6 Plus, 3.7 Max, DeepSeek V4 Pro y Opus 4.8: la comparativa definitiva para coding y agentes

Qwen 3.7 Plus reordenó la conversación sobre qué modelo usar para coding agentivo. No porque sea el mejor en todos los benchmarks — no lo es — sino porque combina tres cosas que hasta ahora no convivían en un solo modelo: precio bajo, visión multimodal, y un techo de autonomía de 35 horas. Lanzado el 1 de junio de 2026 por Alibaba, se suma a una oleada de modelos que compiten por el mismo espacio, cada uno ganando en algo distinto. Once días antes había llegado Qwen 3.7 Max, el buque insignia text-only. Dos meses antes, DeepSeek V4 Pro había sacudido el mercado con pesos abiertos y precios imbatibles. Y apenas una semana antes, Anthropic había lanzado Claude Opus 4.8, el nuevo rey de SWE-Bench Pro. Todos compiten por el mismo espacio. Todos ganan en algo distinto.

Esta es la comparativa que junta a los cinco contendientes en las dimensiones que importan para equipos de desarrollo: benchmarks de código, capacidades agentivas, precio, y para qué carga de trabajo conviene cada uno.

Especificaciones técnicas

Característica	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Claude Opus 4.8
Lanzamiento	Jun 2026	Abr 2026	May 2026	Abr 2026	May 2026
Modalidad	Texto + Imagen + Video	Texto + Imagen	Solo texto	Solo texto	Solo texto
Contexto	1M tokens	1M tokens	1M tokens	1M tokens	200K tokens
Output máximo	—	—	65,536 tok	384,000 tok	—
Parámetros	API-only (propietario)	API-only (propietario)	API-only (propietario)	1.6T / 49B activos (MIT)	API-only (cerrado)
Autonomía	35h / 1000+ tools	~35h	35h / 1158 tools	No especificada	No especificada
Self-hosting	❌	❌	❌	✅ (MIT)	❌

Precios por millón de tokens

Modelo	Input	Output	Cached input	Ratio vs +barato
DeepSeek V4 Pro (OpenRouter)	$0.435	$0.87	~$0.014 (cache hit)	1×
Qwen 3.6 Plus (OpenRouter)	$0.325	$1.95	—	2.24×
Qwen 3.7 Plus (OpenRouter)	$0.40	$1.60	$0.08	1.84×
Qwen 3.7 Max (OpenRouter)	$1.25	$3.75	$0.25	4.31×
Claude Opus 4.8 (directo)	$5.00	$25.00	$0.50	28.7×

El dato más fuerte de la tabla: DeepSeek V4 Pro cuesta 29 veces menos que Opus 4.8 en output, y entrega rendimiento competitivo en coding. Qwen 3.7 Plus queda en un punto medio interesante: más barato que su antecesor (3.6 Plus) en output ($1.60 vs $1.95), y drásticamente más barato que su hermano mayor Max ($1.60 vs $7.50).

Benchmarks de coding

Benchmark	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.8
SWE-Bench Pro	~60%	56.6%	60.6%	59.0%	69.2% 🏆
SWE-Bench Verified	~79%*	78.8%	80.4%	80.6%	—
Terminal-Bench 2.0	—	61.6%	69.7% 🏆	67.9%	—
LiveCodeBench	—	—	—	93.5% 🏆	—

*Estimado. Qwen 3.7 Plus comparte backbone con 3.7 Max en texto puro.

Qué dice cada benchmark:

SWE-Bench Pro: El más duro. Bugs reales multi-archivo en repos abiertos. Opus 4.8 domina con 69.2%, pero cuesta 15× más que Qwen 3.7 Plus y 29× más que DeepSeek.
SWE-Bench Verified: Tareas más accesibles. DeepSeek V4 Pro (80.6%) y Qwen 3.7 Max (80.4%) están esencialmente empatados. Qwen 3.6 Plus queda ~2 puntos detrás.
Terminal-Bench 2.0: Ejecución agentiva en shell. Qwen 3.7 Max (69.7) lidera, seguido de DeepSeek (67.9). Qwen 3.6 Plus (61.6) queda rezagado.
LiveCodeBench: Coding competitivo. DeepSeek V4 Pro (93.5%) aplasta a Opus 4.7 (84.7%) y GPT-5.5 (85.3%).

Benchmarks agentivos (tool calling)

Benchmark	Qwen 3.7 Plus*	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.6 Max†
BFCL-V4 (tool calling)	~74	68.9	75.0	70.6	76.7 🏆
MCP-Mark (MCP tools)	—	48.2	60.8	57.1	56.7
MCP-Atlas (MCP ecosistema)	76.4	74.1	76.4	73.6	75.8

*Estimado. Qwen 3.7 Plus hereda el backbone agentivo de 3.7 Max. †Dato de Opus 4.6, no 4.8 (el dato de 4.8 no está disponible para BFCL/MCP).

Qwen 3.7 Max lidera en tool calling entre los modelos chinos. DeepSeek V4 Pro está unos puntos detrás. Qwen 3.7 Plus, al compartir el mismo stack agentivo, debería estar cerca de Max. En MCP-Atlas, Plus y Max obtienen exactamente el mismo score (76.4), lo que sugiere que el backbone agentivo es idéntico.

Capacidades multimodales

Capacidad	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.8
Visión (imagen)	✅	✅	❌	❌	❌*
Video	✅	❌	❌	❌	❌
Computer use	✅ (navegación GUIs)	—	❌	❌	✅ (beta)
Vision Arena rank	#16 🏆	—	N/A	N/A	N/A

*Opus 4.8 tiene computer use para ver pantallas, pero no es visión multimodal nativa.

Qwen 3.7 Plus es el único modelo en la comparativa con visión nativa (imagen + video) a precio de texto. Esto cambia el cálculo para equipos que trabajan con referencias visuales: mockups de UI, screenshots de bugs, wireframes. DeepSeek V4 Pro y Qwen 3.7 Max no pueden hacer esto. Opus 4.8 puede ver pantallas mediante computer use, pero es una capa adicional, no procesamiento multimodal nativo.

Matriz de decisión

Escenario	Modelo recomendado	Por qué
Daily driver para coding (default)	Qwen 3.7 Plus	Balance precio-rendimiento-visión. 6× más barato que Max, ve imágenes, mismo techo de autonomía.
Máximo rendimiento en coding	Opus 4.8	SWE-Bench Pro 69.2%. Para debugging profundo donde el costo no importa.
Presupuesto ajustado, alto volumen	DeepSeek V4 Pro	Output a $0.87/M, open-weight, LiveCodeBench 93.5%. Lo mejor calidad-precio para coding.
Autonomía extrema (pipelines 24h+)	Qwen 3.7 Plus / Max	35h con >1000 tool calls verificado. Ningún otro modelo tiene esto documentado.
Self-hosting / privacidad	DeepSeek V4 Pro (MIT) o Qwen 35B-A3B	Pesos abiertos. Qwen 3.7 Plus y Max son API-only.
Coding con referencias visuales	Qwen 3.7 Plus	Único con visión nativa a precio competitivo.
Tool calling intensivo	Qwen 3.7 Max / Plus	BFCL-V4 75.0, MCP-Atlas 76.4. Lideran en tool calling entre modelos no-Anthropic.

Veredicto

No hay un ganador absoluto, pero hay una tendencia clara. Qwen 3.7 Plus es el modelo más equilibrado del mercado hoy para equipos de desarrollo que hacen coding agentivo. No lidera ningún benchmark individual — Opus 4.8 gana en SWE-Bench Pro, DeepSeek V4 Pro gana en precio y LiveCodeBench, Qwen 3.7 Max gana en Terminal-Bench y tool calling. Pero Plus es el único que cubre simultáneamente buen rendimiento en código, precio bajo, visión multimodal, y autonomía extrema.

La era del “mejor modelo” terminó. Ahora se trata de elegir la combinación correcta de atributos para cada carga de trabajo.

Fuente principal: Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai