IA al Día
a maneira eficiente de se informar
Voltar ao arquivo
Ferramentas 2 de junho de 2026 análise 4 min de leitura

Qwen 3.7 Max, o modelo mais desbalanceado

Existem modelos de IA que são bons em tudo e mestres em nada. E depois existe o Qwen 3.7 Max, que é um programador impressionante e, segundo quem o testou a fundo, um dos piores escritores criativos que existem.

Qwen 3.7 Max, o modelo mais desbalanceado
Por IA al Día

Existem modelos de IA que são bons em tudo e mestres em nada. E depois existe o Qwen 3.7 Max, que é um programador impressionante e, segundo quem o testou a fundo, um dos piores escritores criativos que existem. O desbalanceamento não é um acidente: é uma decisão de design.

A Alibaba lançou o Qwen 3.7 Max em 20 de maio de 2026 no Alibaba Cloud Summit em Hangzhou, e desde o início deixou claro que não é um assistente conversacional genérico. É um “agente foundation” — uma base para construir agentes autônomos — otimizado para codificação, automação de escritório e execução de tarefas de longa duração. Compete diretamente com GPT-5.5, Claude Opus 4.7 e Gemini 3.5 Flash. E em código, compete de verdade.

Os números falam por si. No SWE-Bench Verified — o padrão para medir capacidade de resolução de problemas de engenharia de software — o Qwen 3.7 Max obteve 80,4%. Para contextualizar, isso está no mesmo nível de Claude Opus 4.6 Max (80,8%) e DeepSeek V4 Pro Max (80,6%), embora atrás do GPT-5.5 (88,7%). No SWE-Pro alcançou 60,6% e no SWE-Multilingual 78,3%. No Terminal-Bench 2.0, que mede habilidades de linha de comando, conseguiu 69,7% — a melhor pontuação entre os modelos comparados.

Onde realmente brilha é na execução autônoma prolongada. A Alibaba mostrou uma sessão contínua de otimização de kernels que durou 35 horas, durante as quais o modelo realizou 1.158 chamadas a ferramentas e 432 avaliações de código, conseguindo uma aceleração de 10x sobre um kernel de referência Triton em uma arquitetura de hardware que nunca havia visto. Isso não é um benchmark acadêmico: é uma demonstração do que significa ter um engenheiro de software sintético trabalhando turnos duplos sem dormir.

Mas o calcanhar de Aquiles é igualmente notável. O YouTuber ServeNoMaster, após testá-lo extensivamente, o descreveu como “um dos melhores modelos que já testei no lado técnico e um dos mais fracos que já testei em escrita criativa”. O título do seu vídeo o chama de “o modelo de IA mais desbalanceado”. Isso não é um defeito oculto: a Alibaba projetou o modelo para uma coisa (agentes de código e produtividade) e sacrificou todo o resto. Se você precisa de um assistente que também escreva poesia, este não é o seu modelo.

O preço parece atraente: $2,50 por milhão de tokens de entrada, $7,50 por milhão de tokens de saída. Metade do que custa Claude Opus 4.7 ou GPT-5.5 ($5/$15). Mas aqui vem a armadilha: o Qwen 3.7 Max é extremamente verborrágico. Segundo a Artificial Analysis, durante sua avaliação gerou 97 milhões de tokens de saída, contra uma média de 35 milhões de modelos comparáveis. Quase três vezes mais verborrágico que a concorrência.

Essa verbosidade se combina de forma explosiva com o sistema de prompt caching. O modelo permite cachear contextos longos para economizar custos, mas com regras que podem jogar contra: a criação de cache custa 125% do preço padrão, o TTL do cache é de apenas 5 minutos, e se você não configurar corretamente os marcadores cache_control, acaba pagando a criação repetidamente. Usuários no Reddit relatam faturas inesperadas enormes — um usuário disse que seu plano de $30 se esgotou em aproximadamente duas horas.

Há uma confusão que vale a pena esclarecer: alguns vídeos no YouTube afirmam que o Qwen 3.7 Max obteve 72,5 no SWE-Bench Verified, mas esse número simplesmente não aparece em nenhuma fonte primária. A pontuação real, confirmada pelo blog oficial da Qwen e múltiplas fontes independentes, é 80,4%. O 72,5 provavelmente é uma confusão com o Qwen3-Max-Instruct, um modelo anterior que efetivamente obteve 69,6%.

Por que importa

O Qwen 3.7 Max é a entrada mais forte da China na corrida de modelos de fronteira. Seu desempenho em código é legitimamente de classe mundial — não um “bom esforço considerando” mas competitivo contra os melhores do Ocidente. Mas seu perfil desbalanceado e seus custos ocultos são advertências importantes.

Para desenvolvedores que buscam um assistente de codificação puro, o Qwen 3.7 Max é uma opção séria, especialmente a seu preço. Mas é preciso entrar com os olhos abertos: o cache precisa ser configurado corretamente, a verbosidade precisa ser controlada, e se você precisar de algo de criatividade, é melhor procurar em outro lugar.

O modelo mais desbalanceado do mercado é também, para certos casos de uso, o melhor.


Fonte principal: Qwen3.7: The Agent Frontier — Official Alibaba/Qwen Blog

Mais nesta categoria