Hay modelos de IA que son buenos en todo y maestros en nada. Y luego está Qwen 3.7 Max, que es un asombroso programador y, según quienes lo han probado a fondo, uno de los peores escritores creativos que existen. El desbalance no es un accidente: es una decisión de diseño.
Alibaba lanzó Qwen 3.7 Max el 20 de mayo de 2026 en el Alibaba Cloud Summit en Hangzhou, y desde el principio dejó claro que no es un asistente conversacional genérico. Es un “agente foundation” —una base para construir agentes autónomos— optimizado para codificación, automatización de oficina y ejecución de tareas de larga duración. Compite directamente con GPT-5.5, Claude Opus 4.7 y Gemini 3.5 Flash. Y en código, compite de verdad.
Los números hablan solos. En SWE-Bench Verified —el estándar para medir capacidad de resolución de problemas de ingeniería de software— Qwen 3.7 Max obtuvo un 80.4%. Para ponerlo en contexto, eso está a la par de Claude Opus 4.6 Max (80.8%) y DeepSeek V4 Pro Max (80.6%), aunque por detrás de GPT-5.5 (88.7%). En SWE-Pro alcanzó 60.6% y en SWE-Multilingual 78.3%. En Terminal-Bench 2.0, que mide habilidades de línea de comandos, logró 69.7% —el mejor puntaje entre los modelos comparados.
Donde realmente brilla es en ejecución autónoma prolongada. Alibaba mostró una sesión continua de optimización de kernels que duró 35 horas, durante las cuales el modelo realizó 1,158 llamadas a herramientas y 432 evaluaciones de código, logrando una aceleración de 10x sobre un kernel de referencia Triton en una arquitectura de hardware que nunca había visto. Eso no es un benchmark académico: es una demostración de lo que significa tener un ingeniero de software sintético trabajando turnos dobles sin dormir.
Pero el talón de Aquiles es igual de notable. El YouTuber ServeNoMaster, tras probarlo extensivamente, lo describió como “uno de los mejores modelos que he probado en el lado técnico y uno de los más débiles que he probado en escritura creativa”. El título de su video lo llama “el modelo de IA más desbalanceado”. Esto no es un defecto oculto: Alibaba diseñó el modelo para una cosa (agentes de código y productividad) y sacrificó todo lo demás. Si necesitas un asistente que además escriba poesía, este no es tu modelo.
El precio parece atractivo: $2.50 por millón de tokens de entrada, $7.50 por millón de tokens de salida. La mitad de lo que cuesta Claude Opus 4.7 o GPT-5.5 ($5/$15). Pero aquí viene la trampa: Qwen 3.7 Max es extremadamente verboso. Según Artificial Analysis, durante su evaluación generó 97 millones de tokens de salida, contra un promedio de 35 millones de modelos comparables. Casi tres veces más verborrágico que la competencia.
Esa verbosidad se combina de forma explosiva con el sistema de prompt caching. El modelo permite cachear contextos largos para ahorrar costos, pero con reglas que pueden jugar en contra: la creación de caché cuesta 125% del precio estándar, el TTL del caché es de solo 5 minutos, y si no configuras correctamente los marcadores cache_control, terminas pagando la creación una y otra vez. Usuarios en Reddit reportan facturas inesperadas enormes —un usuario dijo que su plan de $30 se agotó en aproximadamente dos horas.
Hay una confusión que vale la pena aclarar: algunos videos en YouTube afirman que Qwen 3.7 Max obtuvo 72.5 en SWE-Bench Verified, pero ese número simplemente no aparece en ninguna fuente primaria. El puntaje real, confirmado por el blog oficial de Qwen y múltiples fuentes independientes, es 80.4%. El 72.5 probablemente es una confusión con Qwen3-Max-Instruct, un modelo anterior que efectivamente obtuvo 69.6%.
Por qué importa
Qwen 3.7 Max es la entrada más fuerte de China en la carrera de modelos de frontera. Su rendimiento en código es legítimamente de clase mundial —no un “buen intento considerando” sino competitivo contra los mejores de Occidente. Pero su perfil desbalanceado y sus costos ocultos son advertencias importantes.
Para desarrolladores que buscan un asistente de codificación puro, Qwen 3.7 Max es una opción seria, especialmente a su precio. Pero hay que entrar con los ojos abiertos: la caché hay que configurarla bien, la verbosidad hay que controlarla, y si necesitas algo de creatividad, mejor busca en otra parte.
El modelo más desbalanceado del mercado es también, para ciertos casos de uso, el mejor.
Fuente principal: Qwen3.7: The Agent Frontier — Official Alibaba/Qwen Blog