IA al Día
a maneira eficiente de se informar
Voltar ao arquivo
Modelos 3 de junho de 2026 análise 6 min de leitura

Qwen 3.7 Plus frente a 3.6 Plus, 3.7 Max, DeepSeek V4 Pro e Opus 4.8: a comparação definitiva para coding e agentes

Em 1º de junho de 2026, a Alibaba lançou o Qwen 3.7 Plus, e de repente a conversa sobre qual modelo usar para coding agentivo foi completamente reordenada.

Qwen 3.7 Plus frente a 3.6 Plus, 3.7 Max, DeepSeek V4 Pro e Opus 4.8: a comparação definitiva para coding e agentes
Por IA al Día

Em 1º de junho de 2026, a Alibaba lançou o Qwen 3.7 Plus, e de repente a conversa sobre qual modelo usar para coding agentivo foi completamente reordenada. Não porque seja o melhor em todos os benchmarks — não é — mas porque combina três coisas que até agora não conviviam em um único modelo: preço baixo, visão multimodal e um teto de autonomia de 35 horas. Onze dias antes, havia chegado o Qwen 3.7 Max, o buque-insígnia text-only. Dois meses antes, o DeepSeek V4 Pro havia sacudido o mercado com pesos abertos e preços imbatíveis. E apenas uma semana antes, a Anthropic havia lançado o Claude Opus 4.8, o novo rei do SWE-Bench Pro. Todos competem pelo mesmo espaço. Todos ganham em algo diferente.

Esta é a comparação que reúne os cinco contendentes nas dimensões que importam para equipes de desenvolvimento: benchmarks de código, capacidades agentivas, preço e para qual carga de trabalho cada um é mais adequado.

Especificações técnicas

Característica Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Claude Opus 4.8
Lançamento Jun 2026 Abr 2026 Mai 2026 Abr 2026 Mai 2026
Modalidade Texto + Imagem + Vídeo Texto + Imagem Somente texto Somente texto Somente texto
Contexto 1M tokens 1M tokens 1M tokens 1M tokens 200K tokens
Output máximo 65.536 tok 384.000 tok
Parâmetros API-only (proprietário) API-only (proprietário) API-only (proprietário) 1.6T / 49B ativos (MIT) API-only (fechado)
Autonomia 35h / 1000+ tools ~35h 35h / 1158 tools Não especificada Não especificada
Self-hosting ✅ (MIT)

Preços por milhão de tokens

Modelo Input Output Cached input Ratio vs +barato
DeepSeek V4 Pro (OpenRouter) $0.435 $0.87 ~$0.014 (cache hit)
Qwen 3.6 Plus (OpenRouter) $0.325 $1.95 2.24×
Qwen 3.7 Plus (OpenRouter) $0.40 $1.60 $0.08 1.84×
Qwen 3.7 Max (OpenRouter) $1.25 $3.75 $0.25 4.31×
Claude Opus 4.8 (direto) $5.00 $25.00 $0.50 28.7×

O dado mais forte da tabela: o DeepSeek V4 Pro custa 29 vezes menos que o Opus 4.8 em output e entrega desempenho competitivo em coding. O Qwen 3.7 Plus fica em um ponto médio interessante: mais barato que seu antecessor (3.6 Plus) em output ($1.60 vs $1.95) e drasticamente mais barato que seu irmão maior Max ($1.60 vs $7.50).

Benchmarks de coding

Benchmark Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.8
SWE-Bench Pro ~60% 56.6% 60.6% 59.0% 69.2% 🏆
SWE-Bench Verified ~79%* 78.8% 80.4% 80.6%
Terminal-Bench 2.0 61.6% 69.7% 🏆 67.9%
LiveCodeBench 93.5% 🏆

*Estimado. Qwen 3.7 Plus compartilha backbone com 3.7 Max em texto puro.

O que cada benchmark diz:

  • SWE-Bench Pro: O mais difícil. Bugs reais multi-arquivo em repositórios abertos. Opus 4.8 domina com 69.2%, mas custa 15× mais que o Qwen 3.7 Plus e 29× mais que o DeepSeek.
  • SWE-Bench Verified: Tarefas mais acessíveis. DeepSeek V4 Pro (80.6%) e Qwen 3.7 Max (80.4%) estão essencialmente empatados. Qwen 3.6 Plus fica ~2 pontos atrás.
  • Terminal-Bench 2.0: Execução agentiva em shell. Qwen 3.7 Max (69.7) lidera, seguido pelo DeepSeek (67.9). Qwen 3.6 Plus (61.6) fica para trás.
  • LiveCodeBench: Coding competitivo. DeepSeek V4 Pro (93.5%) arrasa com Opus 4.7 (84.7%) e GPT-5.5 (85.3%).

Benchmarks agentivos (tool calling)

Benchmark Qwen 3.7 Plus* Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.6 Max†
BFCL-V4 (tool calling) ~74 68.9 75.0 70.6 76.7 🏆
MCP-Mark (MCP tools) 48.2 60.8 57.1 56.7
MCP-Atlas (ecossistema MCP) 76.4 74.1 76.4 73.6 75.8

*Estimado. Qwen 3.7 Plus herda o backbone agentivo do 3.7 Max. †Dado do Opus 4.6, não do 4.8 (o dado do 4.8 não está disponível para BFCL/MCP).

O Qwen 3.7 Max lidera em tool calling entre os modelos chineses. O DeepSeek V4 Pro está alguns pontos atrás. O Qwen 3.7 Plus, por compartilhar o mesmo stack agentivo, deve estar próximo do Max. No MCP-Atlas, Plus e Max obtêm exatamente a mesma pontuação (76.4), o que sugere que o backbone agentivo é idêntico.

Capacidades multimodais

Capacidade Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.8
Visão (imagem) ❌*
Vídeo
Computer use ✅ (navegação em GUIs) ✅ (beta)
Vision Arena rank #16 🏆 N/A N/A N/A

*Opus 4.8 tem computer use para ver telas, mas não é visão multimodal nativa.

O Qwen 3.7 Plus é o único modelo nesta comparação com visão nativa (imagem + vídeo) a preço de texto. Isso muda o cálculo para equipes que trabalham com referências visuais: mockups de UI, screenshots de bugs, wireframes. DeepSeek V4 Pro e Qwen 3.7 Max não conseguem fazer isso. O Opus 4.8 pode ver telas via computer use, mas é uma camada adicional, não processamento multimodal nativo.

Matriz de decisão

Cenário Modelo recomendado Por quê
Daily driver para coding (padrão) Qwen 3.7 Plus Equilíbrio preço-desempenho-visão. 6× mais barato que o Max, vê imagens, mesmo teto de autonomia.
Máximo desempenho em coding Opus 4.8 SWE-Bench Pro 69.2%. Para debugging profundo onde o custo não importa.
Orçamento apertado, alto volume DeepSeek V4 Pro Output a $0.87/M, open-weight, LiveCodeBench 93.5%. O melhor custo-benefício para coding.
Autonomia extrema (pipelines 24h+) Qwen 3.7 Plus / Max 35h com >1000 tool calls verificado. Nenhum outro modelo tem isso documentado.
Self-hosting / privacidade DeepSeek V4 Pro (MIT) ou Qwen 35B-A3B Pesos abertos. Qwen 3.7 Plus e Max são API-only.
Coding com referências visuais Qwen 3.7 Plus Único com visão nativa a preço competitivo.
Tool calling intensivo Qwen 3.7 Max / Plus BFCL-V4 75.0, MCP-Atlas 76.4. Lideram em tool calling entre modelos não-Anthropic.

Veredito

Não há um vencedor absoluto, mas há uma tendência clara. O Qwen 3.7 Plus é o modelo mais equilibrado do mercado hoje para equipes de desenvolvimento que fazem coding agentivo. Não lidera nenhum benchmark individual — Opus 4.8 vence no SWE-Bench Pro, DeepSeek V4 Pro vence em preço e LiveCodeBench, Qwen 3.7 Max vence no Terminal-Bench e em tool calling. Mas o Plus é o único que cobre simultaneamente bom desempenho em código, preço baixo, visão multimodal e autonomia extrema.

A era do “melhor modelo” acabou. Agora se trata de escolher a combinação correta de atributos para cada carga de trabalho.


Fonte principal: Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai

Mais nesta categoria