有些AI模型样样通、样样松。而Qwen 3.7 Max则是一个令人惊叹的程序员——同时,据深入测试过它的人说,也是现存最差的创意写手之一。这种不平衡并非偶然:这是一个设计决策。
阿里巴巴于2026年5月20日在杭州的阿里云峰会上发布了Qwen 3.7 Max,从一开始就明确表示它不是通用型对话助手。它是一个”智能体基础模型”——用于构建自主智能体的基础——针对编程、办公自动化和长时间任务执行进行了优化。它直接对标GPT-5.5、Claude Opus 4.7和Gemini 3.5 Flash。而在代码领域,它确实有这个实力。
数字说明一切。在SWE-Bench Verified(衡量软件工程问题解决能力的标准基准)上,Qwen 3.7 Max获得了80.4%的成绩。作为对比,这与Claude Opus 4.6 Max(80.8%)和DeepSeek V4 Pro Max(80.6%)持平,落后于GPT-5.5(88.7%)。在SWE-Pro上达到60.6%,在SWE-Multilingual上达到78.3%。在衡量命令行技能的Terminal-Bench 2.0上,它取得了69.7%的成绩——在对比模型中最高。
它真正闪耀的地方在于长时间自主执行。阿里巴巴展示了一个持续35小时的kernel优化会话,期间模型进行了1,158次工具调用和432次代码评估,在一个它从未见过的硬件架构上,对参考Triton kernel实现了10倍的加速。这不是学术基准测试——而是展示了一个合成软件工程师不眠不休地连干两班意味着什么。
但它的致命弱点同样引人注目。YouTuber ServeNoMaster在广泛测试后将其描述为”我在技术方面测试过的最好的模型之一,也是我在创意写作方面测试过的最弱的模型之一”。他的视频标题称其为”最不平衡的AI模型”。这并非隐藏的缺陷:阿里巴巴设计的这款模型只为一件事(代码和生产力智能体),而牺牲了其他一切。如果你需要一个还能写诗的助手,这不是你要找的模型。
价格看起来很有吸引力:输入每百万token 2.50美元,输出每百万token 7.50美元。是Claude Opus 4.7或GPT-5.5(5美元/15美元)的一半。但这里有个陷阱:Qwen 3.7 Max极其啰嗦。据Artificial Analysis称,在其评估期间,它生成了9700万输出token,而可比模型的平均水平为3500万。几乎是竞争对手的三倍。
这种啰嗦与prompt缓存系统形成了爆炸性组合。该模型允许缓存长上下文以节省成本,但其规则可能适得其反:创建缓存需要支付标准价格的125%,缓存TTL仅为5分钟,而且如果你没有正确配置cache_control标记,就会一遍又一遍地为创建缓存付费。Reddit上的用户报告了巨额意外账单——一位用户说他的30美元套餐大约两小时就烧完了。
有一个值得澄清的混淆:YouTube上有些视频声称Qwen 3.7 Max在SWE-Bench Verified上获得了72.5分,但这个数字根本不出现在任何主要来源中。真正的分数——经Qwen官方博客和多个独立来源确认——是80.4%。72.5很可能是与Qwen3-Max-Instruct混淆了,该模型确实获得了69.6%。
为什么重要
Qwen 3.7 Max是中国在前沿模型竞赛中最强劲的入场。它的代码性能确实是世界级的——不是”考虑到…已经很不错了”,而是与西方最好的模型具有竞争力。但其不平衡的定位和隐藏成本是重要的警示。
对于寻找纯粹编程助手的开发者来说,Qwen 3.7 Max是一个严肃的选择,尤其是考虑到它的价格。但必须保持清醒:缓存需要配置好,啰嗦需要控制住,而如果你需要任何创意能力,最好另寻他处。
市场上最不平衡的模型,对某些用例而言,也是最好的。
主要来源:Qwen3.7: The Agent Frontier — Official Alibaba/Qwen Blog