Qwen 3.7 Plus frente a 3.6 Plus, 3.7 Max, DeepSeek V4 Pro e Opus 4.8: a comparação definitiva para coding e agentes

Em 1º de junho de 2026, a Alibaba lançou o Qwen 3.7 Plus, e de repente a conversa sobre qual modelo usar para coding agentivo foi completamente reordenada.

Em 1º de junho de 2026, a Alibaba lançou o Qwen 3.7 Plus, e de repente a conversa sobre qual modelo usar para coding agentivo foi completamente reordenada. Não porque seja o melhor em todos os benchmarks — não é — mas porque combina três coisas que até agora não conviviam em um único modelo: preço baixo, visão multimodal e um teto de autonomia de 35 horas. Onze dias antes, havia chegado o Qwen 3.7 Max, o buque-insígnia text-only. Dois meses antes, o DeepSeek V4 Pro havia sacudido o mercado com pesos abertos e preços imbatíveis. E apenas uma semana antes, a Anthropic havia lançado o Claude Opus 4.8, o novo rei do SWE-Bench Pro. Todos competem pelo mesmo espaço. Todos ganham em algo diferente.

Esta é a comparação que reúne os cinco contendentes nas dimensões que importam para equipes de desenvolvimento: benchmarks de código, capacidades agentivas, preço e para qual carga de trabalho cada um é mais adequado.

Especificações técnicas

Característica	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Claude Opus 4.8
Lançamento	Jun 2026	Abr 2026	Mai 2026	Abr 2026	Mai 2026
Modalidade	Texto + Imagem + Vídeo	Texto + Imagem	Somente texto	Somente texto	Somente texto
Contexto	1M tokens	1M tokens	1M tokens	1M tokens	200K tokens
Output máximo	—	—	65.536 tok	384.000 tok	—
Parâmetros	API-only (proprietário)	API-only (proprietário)	API-only (proprietário)	1.6T / 49B ativos (MIT)	API-only (fechado)
Autonomia	35h / 1000+ tools	~35h	35h / 1158 tools	Não especificada	Não especificada
Self-hosting	❌	❌	❌	✅ (MIT)	❌

Preços por milhão de tokens

Modelo	Input	Output	Cached input	Ratio vs +barato
DeepSeek V4 Pro (OpenRouter)	$0.435	$0.87	~$0.014 (cache hit)	1×
Qwen 3.6 Plus (OpenRouter)	$0.325	$1.95	—	2.24×
Qwen 3.7 Plus (OpenRouter)	$0.40	$1.60	$0.08	1.84×
Qwen 3.7 Max (OpenRouter)	$1.25	$3.75	$0.25	4.31×
Claude Opus 4.8 (direto)	$5.00	$25.00	$0.50	28.7×

O dado mais forte da tabela: o DeepSeek V4 Pro custa 29 vezes menos que o Opus 4.8 em output e entrega desempenho competitivo em coding. O Qwen 3.7 Plus fica em um ponto médio interessante: mais barato que seu antecessor (3.6 Plus) em output ($1.60 vs $1.95) e drasticamente mais barato que seu irmão maior Max ($1.60 vs $7.50).

Benchmarks de coding

Benchmark	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.8
SWE-Bench Pro	~60%	56.6%	60.6%	59.0%	69.2% 🏆
SWE-Bench Verified	~79%*	78.8%	80.4%	80.6%	—
Terminal-Bench 2.0	—	61.6%	69.7% 🏆	67.9%	—
LiveCodeBench	—	—	—	93.5% 🏆	—

*Estimado. Qwen 3.7 Plus compartilha backbone com 3.7 Max em texto puro.

O que cada benchmark diz:

SWE-Bench Pro: O mais difícil. Bugs reais multi-arquivo em repositórios abertos. Opus 4.8 domina com 69.2%, mas custa 15× mais que o Qwen 3.7 Plus e 29× mais que o DeepSeek.
SWE-Bench Verified: Tarefas mais acessíveis. DeepSeek V4 Pro (80.6%) e Qwen 3.7 Max (80.4%) estão essencialmente empatados. Qwen 3.6 Plus fica ~2 pontos atrás.
Terminal-Bench 2.0: Execução agentiva em shell. Qwen 3.7 Max (69.7) lidera, seguido pelo DeepSeek (67.9). Qwen 3.6 Plus (61.6) fica para trás.
LiveCodeBench: Coding competitivo. DeepSeek V4 Pro (93.5%) arrasa com Opus 4.7 (84.7%) e GPT-5.5 (85.3%).

Benchmarks agentivos (tool calling)

Benchmark	Qwen 3.7 Plus*	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.6 Max†
BFCL-V4 (tool calling)	~74	68.9	75.0	70.6	76.7 🏆
MCP-Mark (MCP tools)	—	48.2	60.8	57.1	56.7
MCP-Atlas (ecossistema MCP)	76.4	74.1	76.4	73.6	75.8

*Estimado. Qwen 3.7 Plus herda o backbone agentivo do 3.7 Max. †Dado do Opus 4.6, não do 4.8 (o dado do 4.8 não está disponível para BFCL/MCP).

O Qwen 3.7 Max lidera em tool calling entre os modelos chineses. O DeepSeek V4 Pro está alguns pontos atrás. O Qwen 3.7 Plus, por compartilhar o mesmo stack agentivo, deve estar próximo do Max. No MCP-Atlas, Plus e Max obtêm exatamente a mesma pontuação (76.4), o que sugere que o backbone agentivo é idêntico.

Capacidades multimodais

Capacidade	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.8
Visão (imagem)	✅	✅	❌	❌	❌*
Vídeo	✅	❌	❌	❌	❌
Computer use	✅ (navegação em GUIs)	—	❌	❌	✅ (beta)
Vision Arena rank	#16 🏆	—	N/A	N/A	N/A

*Opus 4.8 tem computer use para ver telas, mas não é visão multimodal nativa.

O Qwen 3.7 Plus é o único modelo nesta comparação com visão nativa (imagem + vídeo) a preço de texto. Isso muda o cálculo para equipes que trabalham com referências visuais: mockups de UI, screenshots de bugs, wireframes. DeepSeek V4 Pro e Qwen 3.7 Max não conseguem fazer isso. O Opus 4.8 pode ver telas via computer use, mas é uma camada adicional, não processamento multimodal nativo.

Matriz de decisão

Cenário	Modelo recomendado	Por quê
Daily driver para coding (padrão)	Qwen 3.7 Plus	Equilíbrio preço-desempenho-visão. 6× mais barato que o Max, vê imagens, mesmo teto de autonomia.
Máximo desempenho em coding	Opus 4.8	SWE-Bench Pro 69.2%. Para debugging profundo onde o custo não importa.
Orçamento apertado, alto volume	DeepSeek V4 Pro	Output a $0.87/M, open-weight, LiveCodeBench 93.5%. O melhor custo-benefício para coding.
Autonomia extrema (pipelines 24h+)	Qwen 3.7 Plus / Max	35h com >1000 tool calls verificado. Nenhum outro modelo tem isso documentado.
Self-hosting / privacidade	DeepSeek V4 Pro (MIT) ou Qwen 35B-A3B	Pesos abertos. Qwen 3.7 Plus e Max são API-only.
Coding com referências visuais	Qwen 3.7 Plus	Único com visão nativa a preço competitivo.
Tool calling intensivo	Qwen 3.7 Max / Plus	BFCL-V4 75.0, MCP-Atlas 76.4. Lideram em tool calling entre modelos não-Anthropic.

Veredito

Não há um vencedor absoluto, mas há uma tendência clara. O Qwen 3.7 Plus é o modelo mais equilibrado do mercado hoje para equipes de desenvolvimento que fazem coding agentivo. Não lidera nenhum benchmark individual — Opus 4.8 vence no SWE-Bench Pro, DeepSeek V4 Pro vence em preço e LiveCodeBench, Qwen 3.7 Max vence no Terminal-Bench e em tool calling. Mas o Plus é o único que cobre simultaneamente bom desempenho em código, preço baixo, visão multimodal e autonomia extrema.

A era do “melhor modelo” acabou. Agora se trata de escolher a combinação correta de atributos para cada carga de trabalho.

Fonte principal: Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai