Em 1º de junho de 2026, a Alibaba lançou o Qwen 3.7 Plus, e de repente a conversa sobre qual modelo usar para coding agentivo foi completamente reordenada. Não porque seja o melhor em todos os benchmarks — não é — mas porque combina três coisas que até agora não conviviam em um único modelo: preço baixo, visão multimodal e um teto de autonomia de 35 horas. Onze dias antes, havia chegado o Qwen 3.7 Max, o buque-insígnia text-only. Dois meses antes, o DeepSeek V4 Pro havia sacudido o mercado com pesos abertos e preços imbatíveis. E apenas uma semana antes, a Anthropic havia lançado o Claude Opus 4.8, o novo rei do SWE-Bench Pro. Todos competem pelo mesmo espaço. Todos ganham em algo diferente.
Esta é a comparação que reúne os cinco contendentes nas dimensões que importam para equipes de desenvolvimento: benchmarks de código, capacidades agentivas, preço e para qual carga de trabalho cada um é mais adequado.
Especificações técnicas
| Característica | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Claude Opus 4.8 |
|---|---|---|---|---|---|
| Lançamento | Jun 2026 | Abr 2026 | Mai 2026 | Abr 2026 | Mai 2026 |
| Modalidade | Texto + Imagem + Vídeo | Texto + Imagem | Somente texto | Somente texto | Somente texto |
| Contexto | 1M tokens | 1M tokens | 1M tokens | 1M tokens | 200K tokens |
| Output máximo | — | — | 65.536 tok | 384.000 tok | — |
| Parâmetros | API-only (proprietário) | API-only (proprietário) | API-only (proprietário) | 1.6T / 49B ativos (MIT) | API-only (fechado) |
| Autonomia | 35h / 1000+ tools | ~35h | 35h / 1158 tools | Não especificada | Não especificada |
| Self-hosting | ❌ | ❌ | ❌ | ✅ (MIT) | ❌ |
Preços por milhão de tokens
| Modelo | Input | Output | Cached input | Ratio vs +barato |
|---|---|---|---|---|
| DeepSeek V4 Pro (OpenRouter) | $0.435 | $0.87 | ~$0.014 (cache hit) | 1× |
| Qwen 3.6 Plus (OpenRouter) | $0.325 | $1.95 | — | 2.24× |
| Qwen 3.7 Plus (OpenRouter) | $0.40 | $1.60 | $0.08 | 1.84× |
| Qwen 3.7 Max (OpenRouter) | $1.25 | $3.75 | $0.25 | 4.31× |
| Claude Opus 4.8 (direto) | $5.00 | $25.00 | $0.50 | 28.7× |
O dado mais forte da tabela: o DeepSeek V4 Pro custa 29 vezes menos que o Opus 4.8 em output e entrega desempenho competitivo em coding. O Qwen 3.7 Plus fica em um ponto médio interessante: mais barato que seu antecessor (3.6 Plus) em output ($1.60 vs $1.95) e drasticamente mais barato que seu irmão maior Max ($1.60 vs $7.50).
Benchmarks de coding
| Benchmark | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.8 |
|---|---|---|---|---|---|
| SWE-Bench Pro | ~60% | 56.6% | 60.6% | 59.0% | 69.2% 🏆 |
| SWE-Bench Verified | ~79%* | 78.8% | 80.4% | 80.6% | — |
| Terminal-Bench 2.0 | — | 61.6% | 69.7% 🏆 | 67.9% | — |
| LiveCodeBench | — | — | — | 93.5% 🏆 | — |
*Estimado. Qwen 3.7 Plus compartilha backbone com 3.7 Max em texto puro.
O que cada benchmark diz:
- SWE-Bench Pro: O mais difícil. Bugs reais multi-arquivo em repositórios abertos. Opus 4.8 domina com 69.2%, mas custa 15× mais que o Qwen 3.7 Plus e 29× mais que o DeepSeek.
- SWE-Bench Verified: Tarefas mais acessíveis. DeepSeek V4 Pro (80.6%) e Qwen 3.7 Max (80.4%) estão essencialmente empatados. Qwen 3.6 Plus fica ~2 pontos atrás.
- Terminal-Bench 2.0: Execução agentiva em shell. Qwen 3.7 Max (69.7) lidera, seguido pelo DeepSeek (67.9). Qwen 3.6 Plus (61.6) fica para trás.
- LiveCodeBench: Coding competitivo. DeepSeek V4 Pro (93.5%) arrasa com Opus 4.7 (84.7%) e GPT-5.5 (85.3%).
Benchmarks agentivos (tool calling)
| Benchmark | Qwen 3.7 Plus* | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.6 Max† |
|---|---|---|---|---|---|
| BFCL-V4 (tool calling) | ~74 | 68.9 | 75.0 | 70.6 | 76.7 🏆 |
| MCP-Mark (MCP tools) | — | 48.2 | 60.8 | 57.1 | 56.7 |
| MCP-Atlas (ecossistema MCP) | 76.4 | 74.1 | 76.4 | 73.6 | 75.8 |
*Estimado. Qwen 3.7 Plus herda o backbone agentivo do 3.7 Max. †Dado do Opus 4.6, não do 4.8 (o dado do 4.8 não está disponível para BFCL/MCP).
O Qwen 3.7 Max lidera em tool calling entre os modelos chineses. O DeepSeek V4 Pro está alguns pontos atrás. O Qwen 3.7 Plus, por compartilhar o mesmo stack agentivo, deve estar próximo do Max. No MCP-Atlas, Plus e Max obtêm exatamente a mesma pontuação (76.4), o que sugere que o backbone agentivo é idêntico.
Capacidades multimodais
| Capacidade | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.8 |
|---|---|---|---|---|---|
| Visão (imagem) | ✅ | ✅ | ❌ | ❌ | ❌* |
| Vídeo | ✅ | ❌ | ❌ | ❌ | ❌ |
| Computer use | ✅ (navegação em GUIs) | — | ❌ | ❌ | ✅ (beta) |
| Vision Arena rank | #16 🏆 | — | N/A | N/A | N/A |
*Opus 4.8 tem computer use para ver telas, mas não é visão multimodal nativa.
O Qwen 3.7 Plus é o único modelo nesta comparação com visão nativa (imagem + vídeo) a preço de texto. Isso muda o cálculo para equipes que trabalham com referências visuais: mockups de UI, screenshots de bugs, wireframes. DeepSeek V4 Pro e Qwen 3.7 Max não conseguem fazer isso. O Opus 4.8 pode ver telas via computer use, mas é uma camada adicional, não processamento multimodal nativo.
Matriz de decisão
| Cenário | Modelo recomendado | Por quê |
|---|---|---|
| Daily driver para coding (padrão) | Qwen 3.7 Plus | Equilíbrio preço-desempenho-visão. 6× mais barato que o Max, vê imagens, mesmo teto de autonomia. |
| Máximo desempenho em coding | Opus 4.8 | SWE-Bench Pro 69.2%. Para debugging profundo onde o custo não importa. |
| Orçamento apertado, alto volume | DeepSeek V4 Pro | Output a $0.87/M, open-weight, LiveCodeBench 93.5%. O melhor custo-benefício para coding. |
| Autonomia extrema (pipelines 24h+) | Qwen 3.7 Plus / Max | 35h com >1000 tool calls verificado. Nenhum outro modelo tem isso documentado. |
| Self-hosting / privacidade | DeepSeek V4 Pro (MIT) ou Qwen 35B-A3B | Pesos abertos. Qwen 3.7 Plus e Max são API-only. |
| Coding com referências visuais | Qwen 3.7 Plus | Único com visão nativa a preço competitivo. |
| Tool calling intensivo | Qwen 3.7 Max / Plus | BFCL-V4 75.0, MCP-Atlas 76.4. Lideram em tool calling entre modelos não-Anthropic. |
Veredito
Não há um vencedor absoluto, mas há uma tendência clara. O Qwen 3.7 Plus é o modelo mais equilibrado do mercado hoje para equipes de desenvolvimento que fazem coding agentivo. Não lidera nenhum benchmark individual — Opus 4.8 vence no SWE-Bench Pro, DeepSeek V4 Pro vence em preço e LiveCodeBench, Qwen 3.7 Max vence no Terminal-Bench e em tool calling. Mas o Plus é o único que cobre simultaneamente bom desempenho em código, preço baixo, visão multimodal e autonomia extrema.
A era do “melhor modelo” acabou. Agora se trata de escolher a combinação correta de atributos para cada carga de trabalho.
Fonte principal: Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai