A grande comparação: modelos chineses de agentic coding vs Claude Opus 4.8

Entre abril e junho de 2026, a China lançou uma onda de modelos de linguagem projetados para uma mesma missão: o coding agêntico. GLM-5.1, Qwen3.7-Max, Kimi K2.6, MiniMax M3, MiMo-V2.5-Pro, DeepSeek V4 Pro e V4 Flash competem diretamente com Claude Opus 4.8 nos benchmarks que mais importam para o desenvolvimento de software autônomo. Esta comparação os analisa um por um, com dados atualizados até junho de 2026.

O contexto: uma concentração histórica de lançamentos

Em apenas três meses, sete modelos chineses chegaram ao mercado com um denominador comum: todos se posicionam explicitamente para agentic coding — a capacidade de um modelo escrever, depurar e otimizar código de forma autônoma durante sessões longas, usando ferramentas, iterando sobre resultados e mantendo coerência ao longo de centenas ou milhares de chamadas.

A referência ocidental é Claude Opus 4.8, lançado pela Anthropic em 28 de maio de 2026, que elevou o padrão no SWE-Bench Pro para 69,2%. Mas os modelos chineses estão fechando a lacuna a um ritmo acelerado — e a preços que os tornam difíceis de ignorar.

O que exatamente o SWE-Bench Pro mede?

Antes de entrarmos nos números, um esclarecimento necessário. O SWE-Bench Pro avalia a capacidade de um modelo resolver bugs reais em repositórios de código aberto: o modelo recebe uma descrição do problema, explora a base de código, identifica a causa raiz e propõe um patch. É a métrica mais próxima do que um desenvolvedor humano faz diariamente. No entanto, cada modelo é avaliado com scaffolds distintos (o sistema de agente que orquestra as ferramentas), portanto, comparações diretas entre laboratórios são direcionais, não absolutas.

Os concorrentes, em ordem de desempenho

Claude Opus 4.8 — o padrão a ser superado

A Anthropic lançou o Opus 4.8 como uma melhoria “modesta, mas tangível” sobre o Opus 4.7, e os números confirmam: 69,2% no SWE-Bench Pro, contra 64,3% de seu predecessor. É uma melhoria de quase 5 pontos percentuais em apenas um mês. Mas o dado mais interessante não está nos benchmarks: a Anthropic afirma que o Opus 4.8 tem quatro vezes menos probabilidade de deixar passar bugs em seu próprio código sem reportá-los. Para equipes que confiam em agentes autônomos para codebases legados, isso é tão importante quanto qualquer métrica de desempenho.

O preço se mantém em $5 por milhão de tokens de entrada e $25 por milhão de tokens de saída — o mesmo que o Opus 4.7. É o modelo mais caro da comparação por uma margem ampla.

Qwen3.7-Max — o líder chinês em coding

O modelo principal da Alibaba chegou em 19 de maio com um desempenho que surpreendeu até mesmo os analistas mais atentos. No SWE-Bench Pro alcança 60,6%, superando todos os modelos chineses e o Opus 4.6 (57,3%). Mas onde realmente brilha é no Terminal-Bench 2.0, onde sua pontuação de 69,7 supera todos os concorrentes, incluindo Opus 4.6 (65,4%) e DeepSeek V4 Pro (67,9%). O Terminal-Bench mede tarefas reais de terminal: instalação de pacotes, depuração de processos, configuração de redes. É o benchmark mais próximo do trabalho cotidiano de um desenvolvedor.

A demonstração mais impressionante do Qwen3.7-Max foi uma otimização de kernel autônoma de 35 horas com mais de 1.000 chamadas a ferramentas, concluída sem intervenção humana. A Alibaba também demonstrou que o modelo generaliza através de diferentes scaffolds (Claude Code, OpenClaw, Qwen Code) com resultados consistentes.

Seu preço atual é de $1,25 por milhão de tokens de entrada e $3,75 por milhão de saída, graças a uma promoção de 50% válida até 22 de junho. O preço normal é o dobro.

Kimi K2.6 — o open-weight mais próximo da fronteira

A Moonshot AI lançou o Kimi K2.6 em 20 de abril como um modelo de pesos abertos com aproximadamente 1 trilhão de parâmetros. Sua pontuação de 59,5% no SWE-Bench Pro o coloca ligeiramente atrás do Qwen3.7-Max, mas à frente do Opus 4.6 (57,3%). No SWE-Bench Verified alcança 80,2%, praticamente empatado com Opus 4.6 (80,8%).

O Kimi K2.6 é projetado explicitamente para agentes proativos que operam 24/7 sem supervisão humana. A Moonshot AI reporta uma taxa de invocação de ferramentas de 96,6% e uma melhoria de 50% na geração de aplicações web com Next.js em relação ao seu predecessor K2.5. Integradores como CodeBuddy e Augment Code confirmam que o modelo é especialmente hábil para pivotar inteligentemente quando uma abordagem inicial falha.

Seu preço é de $0,75 por milhão de tokens de entrada e $3,50 por milhão de saída. Está disponível com pesos abertos sob licença Modified MIT.

DeepSeek V4 Pro — o rei da relação custo-benefício

O DeepSeek V4 Pro, lançado em 24 de abril, é um modelo de 1,6 trilhão de parâmetros (49 bilhões ativos) com 1 milhão de tokens de contexto e licença MIT. Sua pontuação de 80,6% no SWE-Bench Verified está a apenas 0,2 pontos do Opus 4.6 (80,8%), e seu 93,5 no LiveCodeBench é o mais alto de qualquer modelo até a data.

Mas o dado que mais sacudiu o mercado é seu preço. A DeepSeek aplicou um desconto de 75% que depois tornou permanente: o custo de saída é de $0,87 por milhão de tokens, contra $25 do Opus 4.8. É 29 vezes mais barato por um desempenho comparável em coding. Sua arquitetura híbrida CSA+HCA reduz os FLOPs para 27% e o cache KV para 10% do que a geração anterior exigia.

MiniMax M3 — o recém-chegado que promete revolucionar

O lançamento mais recente desta comparação — 1º de junho de 2026 — é também um dos mais ambiciosos. O MiniMax M3 é o primeiro modelo de pesos abertos que combina coding de fronteira, 1 milhão de tokens de contexto e capacidade multimodal (texto, imagem e vídeo) em um único sistema.

Seus números: 59,0% no SWE-Bench Pro, 83,5 no BrowseComp (superando o Opus 4.7, que obteve 79,3) e 66,0% no Terminal-Bench 2.1. A MiniMax afirma que supera o GPT-5.5 e o Gemini 3.1 Pro em coding, embora a validação independente ainda esteja em andamento devido ao recente lançamento.

O verdadeiro diferencial do M3 é sua arquitetura MSA (MiniMax Sparse Attention), que substitui a atenção completa pela seleção de blocos KV. Isso torna o contexto de 1 milhão de tokens prático: o prefill é 9 vezes mais rápido, o decoding 15 vezes mais rápido, e o computo por token é reduzido a um décimo em relação à geração anterior.

Em preço promocional, o MiniMax M3 custa $0,30 por milhão de tokens de entrada e $1,20 por milhão de saída. É 21 vezes mais barato que o Opus 4.8, e por ser de pesos abertos, permite auto-hospedagem.

GLM-5.1 — o especialista em otimização multi-iteração

O modelo da Z.ai (antiga Zhipu AI), lançado em 7 de abril, foi treinado inteiramente em chips Huawei Ascend, o que o torna um símbolo da soberania tecnológica chinesa. Sua pontuação de 58,4% no SWE-Bench Pro está atrás dos líderes, mas tem uma qualidade única: é projetado para não estagnar.

A demonstração mais eloqüente do GLM-5.1 é uma tarefa de otimização de banco de dados vetorial em Rust. Em uma sessão normal de 50 turnos, alcançou cerca de 3.500 consultas por segundo — comparável ao Opus 4.6. Mas em um loop de otimização de 600 iterações com mais de 6.000 chamadas a ferramentas, alcançou 21.500 consultas por segundo: seis vezes mais. Enquanto outros modelos estagnam após as primeiras iterações, o GLM-5.1 continua encontrando melhorias estruturais.

Seu preço é de aproximadamente $0,98 por milhão de tokens de entrada e $3,08 por milhão de saída no OpenRouter. O contexto está limitado a 203.000 tokens, significativamente menos que o 1 milhão da concorrência.

MiMo-V2.5-Pro — o construtor de compiladores

A Xiaomi entrou no mercado de modelos de linguagem com o MiMo-V2.5-Pro, um modelo de 1,02 trilhão de parâmetros (42 bilhões ativos) com licença MIT e 1 milhão de tokens de contexto. Suas pontuações em benchmarks são modestas (57,2% no SWE-Bench Pro, 78,9% no Verified), mas sua força está em outra parte.

A Xiaomi demonstrou que o MiMo-V2.5-Pro construiu um compilador completo de SysY em Rust — um projeto que leva semanas para um estudante de ciência da computação — em 4,3 horas com 672 chamadas a ferramentas, obtendo uma pontuação perfeita de 233/233 no conjunto de testes. É o modelo ideal para tarefas de infraestrutura que exigem sessões longas e autônomas.

Seu preço é de $0,435 por milhão de tokens de entrada e $0,87 por milhão de saída, empatado com DeepSeek V4 Pro como o segundo mais barato. Sua velocidade de geração é baixa (42 tokens por segundo) e tende a ser verboso, mas para tarefas que priorizam a correção sobre a velocidade, é uma opção sólida.

DeepSeek V4 Flash — o ultra-econômico

Se o DeepSeek V4 Pro revolucionou a relação custo-benefício, o V4 Flash a redefiniu completamente. Com 284 bilhões de parâmetros totais (13 bilhões ativos) e um preço de saída de $0,28 por milhão de tokens, oferece 79,0% no SWE-Bench Verified. Isso é apenas 1,6 ponto percentual a menos que o V4 Pro, por aproximadamente um terço do preço.

Para colocar em perspectiva: o V4 Flash custa aproximadamente 90 vezes menos que o Claude Opus 4.8 em tokens de saída, com uma diferença de desempenho em coding que muitas equipes considerariam aceitável. Para startups, equipes pequenas ou tarefas que exigem processar milhões de tokens sem se preocupar com o custo, o V4 Flash é possivelmente o modelo com melhor relação preço-desempenho já lançado.

Assim como o V4 Pro, tem licença MIT, pesos abertos e 1 milhão de tokens de contexto.

Tabela comparativa de benchmarks

Modelo	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	Preço output/1M
Claude Opus 4.8	69,2% 🏆	80,8% (Opus 4.6)	65,4% (Opus 4.6)	$25,00
Qwen3.7-Max	60,6%	80,4%	69,7% 🏆	$3,75 (promo)
Kimi K2.6	59,5%	80,2%	66,7%	$3,50
MiniMax M3	59,0%	—	66,0%	$1,20 (promo)
DeepSeek V4 Pro	59,0%	80,6%	67,9%	$0,87 💸
GLM-5.1	58,4%	—	63,5%	$4,40
MiMo-V2.5-Pro	57,2%	78,9%	68,4%	$0,87
DeepSeek V4 Flash	—	79,0%	—	$0,28 💸

Nota: os números provêm dos relatórios oficiais de cada laboratório e podem usar metodologias distintas. † = dados do Opus 4.6, não 4.8. 💸 = preço permanente reduzido.

Qual modelo escolher segundo o caso de uso?

Para coding diário (PRs, fixes, features): DeepSeek V4 Pro oferece o melhor equilíbrio entre desempenho (80,6% Verified) e preço ($0,87/1M output). Se o orçamento for mínimo, V4 Flash a $0,28 é uma opção incrivelmente potente.

Para tarefas de infraestrutura e longa duração: MiMo-V2.5-Pro demonstrou que pode completar projetos complexos como um compilador em horas de forma autônoma. GLM-5.1 é a alternativa se a tarefa exigir otimização iterativa sustentada.

Para agentes autônomos 24/7: Kimi K2.6 é projetado explicitamente para este caso de uso, com uma taxa de invocação de ferramentas de 96,6% e capacidade de orquestração de agentes heterogêneos.

Para navegação web autônoma: MiniMax M3 lidera com 83,5 no BrowseComp, superando o Opus 4.7. Seu contexto de 1M a preço mínimo o torna ideal para tarefas que exigem ler e processar grandes volumes de informação web.

Para trabalho de alta confiança em codebases legados: Claude Opus 4.8 continua sendo a opção mais segura. Sua honestidade — quatro vezes menos provável que ignore bugs em seu próprio código — e seu ecossistema maduro (Claude Code, MCP, tool use refinado) justificam o preço premium quando o custo do erro supera o custo da API.

A guerra de preços chinesa se intensifica

Além dos benchmarks, há uma tendência que merece atenção: os modelos chineses não competem apenas em desempenho, mas em uma estratégia agressiva de preços baixos. A DeepSeek tornou permanente seu desconto de 75% no V4 Pro em maio. A Xiaomi entrou no mercado de APIs com preços que subcotam todos. A Alibaba oferece 50% de desconto no Qwen3.7-Max. A MiniMax M3 lança com preços promocionais que são uma fração dos líderes ocidentais.

O resultado é um mercado onde é possível acessar modelos com desempenho de fronteira por menos de $1 por milhão de tokens de saída. Há um ano, isso parecia impossível.

O que Claude Opus 4.8 ainda faz melhor

Apesar da lacuna reduzida, o Claude Opus 4.8 mantém vantagens qualitativas que os benchmarks não capturam completamente. A honestidade em coding — reportar bugs em vez de ignorá-los — é uma melhoria significativa para o desenvolvimento autônomo. Os dynamic workflows do Claude Code permitem executar agentes paralelos para trabalhos em escala de codebase. E o ecossistema da Anthropic, com MCP e tool use refinado, continua sendo mais maduro que as alternativas chinesas.

Para empresas onde o custo de um erro de produção supera em muito o custo da API, o Opus 4.8 continua sendo a opção correta. Para o restante, os modelos chineses oferecem uma alternativa cada vez mais difícil de ignorar.