Qwen 3.7 Max——最不平衡的模型

有些AI模型样样通、样样松。而Qwen 3.7 Max则是一个令人惊叹的程序员——同时，据深入测试过它的人说，也是现存最差的创意写手之一。这种不平衡并非偶然：这是一个设计决策。

阿里巴巴于2026年5月20日在杭州的阿里云峰会上发布了Qwen 3.7 Max，从一开始就明确表示它不是通用型对话助手。它是一个”智能体基础模型”——用于构建自主智能体的基础——针对编程、办公自动化和长时间任务执行进行了优化。它直接对标GPT-5.5、Claude Opus 4.7和Gemini 3.5 Flash。而在代码领域，它确实有这个实力。

数字说明一切。在SWE-Bench Verified（衡量软件工程问题解决能力的标准基准）上，Qwen 3.7 Max获得了80.4%的成绩。作为对比，这与Claude Opus 4.6 Max（80.8%）和DeepSeek V4 Pro Max（80.6%）持平，落后于GPT-5.5（88.7%）。在SWE-Pro上达到60.6%，在SWE-Multilingual上达到78.3%。在衡量命令行技能的Terminal-Bench 2.0上，它取得了69.7%的成绩——在对比模型中最高。

它真正闪耀的地方在于长时间自主执行。阿里巴巴展示了一个持续35小时的kernel优化会话，期间模型进行了1,158次工具调用和432次代码评估，在一个它从未见过的硬件架构上，对参考Triton kernel实现了10倍的加速。这不是学术基准测试——而是展示了一个合成软件工程师不眠不休地连干两班意味着什么。

但它的致命弱点同样引人注目。YouTuber ServeNoMaster在广泛测试后将其描述为”我在技术方面测试过的最好的模型之一，也是我在创意写作方面测试过的最弱的模型之一”。他的视频标题称其为”最不平衡的AI模型”。这并非隐藏的缺陷：阿里巴巴设计的这款模型只为一件事（代码和生产力智能体），而牺牲了其他一切。如果你需要一个还能写诗的助手，这不是你要找的模型。

价格看起来很有吸引力：输入每百万token 2.50美元，输出每百万token 7.50美元。是Claude Opus 4.7或GPT-5.5（5美元/15美元）的一半。但这里有个陷阱：Qwen 3.7 Max极其啰嗦。据Artificial Analysis称，在其评估期间，它生成了9700万输出token，而可比模型的平均水平为3500万。几乎是竞争对手的三倍。

这种啰嗦与prompt缓存系统形成了爆炸性组合。该模型允许缓存长上下文以节省成本，但其规则可能适得其反：创建缓存需要支付标准价格的125%，缓存TTL仅为5分钟，而且如果你没有正确配置cache_control标记，就会一遍又一遍地为创建缓存付费。Reddit上的用户报告了巨额意外账单——一位用户说他的30美元套餐大约两小时就烧完了。

有一个值得澄清的混淆：YouTube上有些视频声称Qwen 3.7 Max在SWE-Bench Verified上获得了72.5分，但这个数字根本不出现在任何主要来源中。真正的分数——经Qwen官方博客和多个独立来源确认——是80.4%。72.5很可能是与Qwen3-Max-Instruct混淆了，该模型确实获得了69.6%。

为什么重要

Qwen 3.7 Max是中国在前沿模型竞赛中最强劲的入场。它的代码性能确实是世界级的——不是”考虑到…已经很不错了”，而是与西方最好的模型具有竞争力。但其不平衡的定位和隐藏成本是重要的警示。

对于寻找纯粹编程助手的开发者来说，Qwen 3.7 Max是一个严肃的选择，尤其是考虑到它的价格。但必须保持清醒：缓存需要配置好，啰嗦需要控制住，而如果你需要任何创意能力，最好另寻他处。

市场上最不平衡的模型，对某些用例而言，也是最好的。

主要来源：Qwen3.7: The Agent Frontier — Official Alibaba/Qwen Blog

Qwen 3.7 Max——最不平衡的模型

为什么重要

同分类更多文章