2026年6月1日,阿里巴巴发布了 Qwen 3.7 Plus,瞬间彻底重新洗牌了关于哪款模型适合用于智能体编程的讨论。并不是因为它在所有基准测试中都是最好的——事实并非如此——而是因为它将三个此前从未共存于单一模型中的特性结合在了一起:低廉的价格、多模态视觉能力,以及长达35小时的自主运行上限。十一天前,纯文本旗舰模型 Qwen 3.7 Max 刚刚问世。两个月前,DeepSeek V4 Pro 以开放权重和无可匹敌的价格震撼了市场。而就在一周前,Anthropic 发布了 Claude Opus 4.8,SWE-Bench Pro 的新王者。它们都在争夺同一个空间,每个都在不同方面各有所长。
这篇对比评测汇集了五位竞争者,从开发团队最关心的维度进行较量:代码基准测试、智能体能力、价格,以及各自适合的工作负载类型。
技术规格
| 特性 | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Claude Opus 4.8 |
|---|---|---|---|---|---|
| 发布时间 | 2026年6月 | 2026年4月 | 2026年5月 | 2026年4月 | 2026年5月 |
| 模态 | 文本 + 图像 + 视频 | 文本 + 图像 | 仅文本 | 仅文本 | 仅文本 |
| 上下文 | 100万 tokens | 100万 tokens | 100万 tokens | 100万 tokens | 20万 tokens |
| 最大输出 | — | — | 65,536 tok | 384,000 tok | — |
| 参数 | 仅API(专有) | 仅API(闭源) | 仅API(专有) | 1.6T / 490亿活跃(MIT) | 仅API(闭源) |
| 自主运行 | 35小时 / 1000+ 工具 | ~35小时 | 35小时 / 1158工具 | 未指定 | 未指定 |
| 自托管 | ❌ | ❌ | ❌ | ✅(MIT) | ❌ |
每百万 tokens 价格
| 模型 | 输入 | 输出 | 缓存输入 | 价格比(vs 最便宜) |
|---|---|---|---|---|
| DeepSeek V4 Pro(OpenRouter) | $0.435 | $0.87 | ~$0.014(缓存命中) | 1× |
| Qwen 3.6 Plus(OpenRouter) | $0.325 | $1.95 | — | 2.24× |
| Qwen 3.7 Plus(OpenRouter) | $0.40 | $1.60 | $0.08 | 1.84× |
| Qwen 3.7 Max(OpenRouter) | $1.25 | $3.75 | $0.25 | 4.31× |
| Claude Opus 4.8(直连) | $5.00 | $25.00 | $0.50 | 28.7× |
表中最重要的数据:DeepSeek V4 Pro 的输出价格是 Opus 4.8 的二十九分之一,而在编程方面性能旗鼓相当。Qwen 3.7 Plus 处于一个有趣的中档位置:输出价格比前代产品(3.6 Plus)更便宜($1.60 对比 $1.95),且远低于其大哥 Max($1.60 对比 $7.50)。
编程基准测试
| 基准测试 | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.8 |
|---|---|---|---|---|---|
| SWE-Bench Pro | ~60% | 56.6% | 60.6% | 59.0% | 69.2% 🏆 |
| SWE-Bench Verified | ~79%* | 78.8% | 80.4% | 80.6% | — |
| Terminal-Bench 2.0 | — | 61.6% | 69.7% 🏆 | 67.9% | — |
| LiveCodeBench | — | — | — | 93.5% 🏆 | — |
*估算值。Qwen 3.7 Plus 在纯文本方面与 3.7 Max 共享骨干网络。
各基准测试说明:
- SWE-Bench Pro:最难的测试。开源仓库中的真实多文件 Bug。Opus 4.8 以 69.2% 领先,但价格是 Qwen 3.7 Plus 的 15 倍,是 DeepSeek 的 29 倍。
- SWE-Bench Verified:相对容易的任务。DeepSeek V4 Pro(80.6%)和 Qwen 3.7 Max(80.4%)基本持平。Qwen 3.6 Plus 落后约 2 个百分点。
- Terminal-Bench 2.0:Shell 环境中的智能体执行能力。Qwen 3.7 Max(69.7%)领先,DeepSeek(67.9%)紧随其后。Qwen 3.6 Plus(61.6%)落后较多。
- LiveCodeBench:竞赛编程。DeepSeek V4 Pro(93.5%)碾压 Opus 4.7(84.7%)和 GPT-5.5(85.3%)。
智能体基准测试(工具调用)
| 基准测试 | Qwen 3.7 Plus* | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.6 Max† |
|---|---|---|---|---|---|
| BFCL-V4(工具调用) | ~74 | 68.9 | 75.0 | 70.6 | 76.7 🏆 |
| MCP-Mark(MCP 工具) | — | 48.2 | 60.8 | 57.1 | 56.7 |
| MCP-Atlas(MCP 生态系统) | 76.4 | 74.1 | 76.4 | 73.6 | 75.8 |
*估算值。Qwen 3.7 Plus 继承了 3.7 Max 的智能体骨干网络。 †Opus 4.6 的数据,而非 4.8(BFCL/MCP 暂无 4.8 的数据)。
在国产模型中,Qwen 3.7 Max 在工具调用方面领先。DeepSeek V4 Pro 落后几个百分点。Qwen 3.7 Plus 由于共享相同的智能体技术栈,应该与 Max 接近。在 MCP-Atlas 中,Plus 和 Max 得分完全相同(76.4),表明其智能体骨干网络是一致的。
多模态能力
| 能力 | Qwen 3.7 Plus | Qwen 3.6 Plus | Qwen 3.7 Max | DeepSeek V4 Pro | Opus 4.8 |
|---|---|---|---|---|---|
| 视觉(图像) | ✅ | ✅ | ❌ | ❌ | ❌* |
| 视频 | ✅ | ❌ | ❌ | ❌ | ❌ |
| 计算机使用 | ✅(GUI 浏览) | — | ❌ | ❌ | ✅(测试版) |
| Vision Arena 排名 | #16 🏆 | — | 无 | 无 | 无 |
*Opus 4.8 具备计算机使用能力(可查看屏幕),但并非原生多模态视觉。
Qwen 3.7 Plus 是本对比中唯一一款以文本价格提供原生视觉能力(图像+视频)的模型。这对于处理视觉参考素材(UI 原型、Bug 截图、线框图)的团队来说,意义重大。DeepSeek V4 Pro 和 Qwen 3.7 Max 无法做到这一点。Opus 4.8 虽可通过计算机使用能力查看屏幕,但这只是一个附加层,而非原生的多模态处理能力。
决策矩阵
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常编程首选(默认) | Qwen 3.7 Plus | 价格、性能与视觉能力的平衡。比 Max 便宜 6 倍,能看图像,具备相同的自主运行上限。 |
| 编程最高性能 | Opus 4.8 | SWE-Bench Pro 69.2%。适用于不计成本进行深度调试的场景。 |
| 预算有限,高调用量 | DeepSeek V4 Pro | 输出 $0.87/M,开放权重,LiveCodeBench 93.5%。编程性价比之王。 |
| 超长自主运行(24小时以上流水线) | Qwen 3.7 Plus / Max | 已验证支持 35 小时超过 1000 次工具调用。其他型号均无此记录。 |
| 自托管 / 隐私保护 | DeepSeek V4 Pro(MIT)或 Qwen 35B-A3B | 开放权重。Qwen 3.7 Plus 和 Max 仅限 API。 |
| 涉及视觉参考的编程 | Qwen 3.7 Plus | 唯一以具竞争力价格提供原生视觉能力的模型。 |
| 高强度工具调用 | Qwen 3.7 Max / Plus | BFCL-V4 75.0,MCP-Atlas 76.4。在非 Anthropic 模型中工具调用领先。 |
结论
没有绝对的胜者,但趋势十分明显。对于从事智能体编程的开发团队而言,Qwen 3.7 Plus 是当下市场上最均衡的模型。它在任何单个基准测试中都不拔尖——Opus 4.8 赢在 SWE-Bench Pro,DeepSeek V4 Pro 赢在价格和 LiveCodeBench,Qwen 3.7 Max 赢在 Terminal-Bench 和工具调用。但 Plus 是唯一同时覆盖了良好代码性能、低廉价格、多模态视觉和超长自主运行的模型。
“最佳模型”的时代已经终结。现在的关键是为每种工作负载选择正确的属性组合。