IA al Día
高效了解 AI 的方式
返回归档
模型 2026年6月3日 分析 6 分钟阅读

Qwen 3.7 Plus 对比 3.6 Plus、3.7 Max、DeepSeek V4 Pro 和 Opus 4.8:编程与智能体终极对比评测

2026年6月1日,阿里巴巴发布了 Qwen 3.7 Plus,瞬间彻底重新洗牌了关于哪款模型适合用于智能体编程的讨论。并不是因为它在所有基准测试中都是最好的——事实并非如此——而是因为它将三个此前从未共存于单一模型中的特性结合在了一起:低廉的价格、多模态视觉能力,以及长达35小时的自主运行上限。十一天前,纯文本旗舰模型 Qwen 3.

Qwen 3.7 Plus 对比 3.6 Plus、3.7 Max、DeepSeek V4 Pro 和 Opus 4.8:编程与智能体终极对比评测
作者 IA al Día

2026年6月1日,阿里巴巴发布了 Qwen 3.7 Plus,瞬间彻底重新洗牌了关于哪款模型适合用于智能体编程的讨论。并不是因为它在所有基准测试中都是最好的——事实并非如此——而是因为它将三个此前从未共存于单一模型中的特性结合在了一起:低廉的价格、多模态视觉能力,以及长达35小时的自主运行上限。十一天前,纯文本旗舰模型 Qwen 3.7 Max 刚刚问世。两个月前,DeepSeek V4 Pro 以开放权重和无可匹敌的价格震撼了市场。而就在一周前,Anthropic 发布了 Claude Opus 4.8,SWE-Bench Pro 的新王者。它们都在争夺同一个空间,每个都在不同方面各有所长。

这篇对比评测汇集了五位竞争者,从开发团队最关心的维度进行较量:代码基准测试、智能体能力、价格,以及各自适合的工作负载类型。

技术规格

特性 Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Claude Opus 4.8
发布时间 2026年6月 2026年4月 2026年5月 2026年4月 2026年5月
模态 文本 + 图像 + 视频 文本 + 图像 仅文本 仅文本 仅文本
上下文 100万 tokens 100万 tokens 100万 tokens 100万 tokens 20万 tokens
最大输出 65,536 tok 384,000 tok
参数 仅API(专有) 仅API(闭源) 仅API(专有) 1.6T / 490亿活跃(MIT) 仅API(闭源)
自主运行 35小时 / 1000+ 工具 ~35小时 35小时 / 1158工具 未指定 未指定
自托管 ✅(MIT)

每百万 tokens 价格

模型 输入 输出 缓存输入 价格比(vs 最便宜)
DeepSeek V4 Pro(OpenRouter) $0.435 $0.87 ~$0.014(缓存命中)
Qwen 3.6 Plus(OpenRouter) $0.325 $1.95 2.24×
Qwen 3.7 Plus(OpenRouter) $0.40 $1.60 $0.08 1.84×
Qwen 3.7 Max(OpenRouter) $1.25 $3.75 $0.25 4.31×
Claude Opus 4.8(直连) $5.00 $25.00 $0.50 28.7×

表中最重要的数据:DeepSeek V4 Pro 的输出价格是 Opus 4.8 的二十九分之一,而在编程方面性能旗鼓相当。Qwen 3.7 Plus 处于一个有趣的中档位置:输出价格比前代产品(3.6 Plus)更便宜($1.60 对比 $1.95),且远低于其大哥 Max($1.60 对比 $7.50)。

编程基准测试

基准测试 Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.8
SWE-Bench Pro ~60% 56.6% 60.6% 59.0% 69.2% 🏆
SWE-Bench Verified ~79%* 78.8% 80.4% 80.6%
Terminal-Bench 2.0 61.6% 69.7% 🏆 67.9%
LiveCodeBench 93.5% 🏆

*估算值。Qwen 3.7 Plus 在纯文本方面与 3.7 Max 共享骨干网络。

各基准测试说明:

  • SWE-Bench Pro:最难的测试。开源仓库中的真实多文件 Bug。Opus 4.8 以 69.2% 领先,但价格是 Qwen 3.7 Plus 的 15 倍,是 DeepSeek 的 29 倍。
  • SWE-Bench Verified:相对容易的任务。DeepSeek V4 Pro(80.6%)和 Qwen 3.7 Max(80.4%)基本持平。Qwen 3.6 Plus 落后约 2 个百分点。
  • Terminal-Bench 2.0:Shell 环境中的智能体执行能力。Qwen 3.7 Max(69.7%)领先,DeepSeek(67.9%)紧随其后。Qwen 3.6 Plus(61.6%)落后较多。
  • LiveCodeBench:竞赛编程。DeepSeek V4 Pro(93.5%)碾压 Opus 4.7(84.7%)和 GPT-5.5(85.3%)。

智能体基准测试(工具调用)

基准测试 Qwen 3.7 Plus* Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.6 Max†
BFCL-V4(工具调用) ~74 68.9 75.0 70.6 76.7 🏆
MCP-Mark(MCP 工具) 48.2 60.8 57.1 56.7
MCP-Atlas(MCP 生态系统) 76.4 74.1 76.4 73.6 75.8

*估算值。Qwen 3.7 Plus 继承了 3.7 Max 的智能体骨干网络。 †Opus 4.6 的数据,而非 4.8(BFCL/MCP 暂无 4.8 的数据)。

在国产模型中,Qwen 3.7 Max 在工具调用方面领先。DeepSeek V4 Pro 落后几个百分点。Qwen 3.7 Plus 由于共享相同的智能体技术栈,应该与 Max 接近。在 MCP-Atlas 中,Plus 和 Max 得分完全相同(76.4),表明其智能体骨干网络是一致的。

多模态能力

能力 Qwen 3.7 Plus Qwen 3.6 Plus Qwen 3.7 Max DeepSeek V4 Pro Opus 4.8
视觉(图像) ❌*
视频
计算机使用 ✅(GUI 浏览) ✅(测试版)
Vision Arena 排名 #16 🏆

*Opus 4.8 具备计算机使用能力(可查看屏幕),但并非原生多模态视觉。

Qwen 3.7 Plus 是本对比中唯一一款以文本价格提供原生视觉能力(图像+视频)的模型。这对于处理视觉参考素材(UI 原型、Bug 截图、线框图)的团队来说,意义重大。DeepSeek V4 Pro 和 Qwen 3.7 Max 无法做到这一点。Opus 4.8 虽可通过计算机使用能力查看屏幕,但这只是一个附加层,而非原生的多模态处理能力。

决策矩阵

场景 推荐模型 原因
日常编程首选(默认) Qwen 3.7 Plus 价格、性能与视觉能力的平衡。比 Max 便宜 6 倍,能看图像,具备相同的自主运行上限。
编程最高性能 Opus 4.8 SWE-Bench Pro 69.2%。适用于不计成本进行深度调试的场景。
预算有限,高调用量 DeepSeek V4 Pro 输出 $0.87/M,开放权重,LiveCodeBench 93.5%。编程性价比之王。
超长自主运行(24小时以上流水线) Qwen 3.7 Plus / Max 已验证支持 35 小时超过 1000 次工具调用。其他型号均无此记录。
自托管 / 隐私保护 DeepSeek V4 Pro(MIT)或 Qwen 35B-A3B 开放权重。Qwen 3.7 Plus 和 Max 仅限 API。
涉及视觉参考的编程 Qwen 3.7 Plus 唯一以具竞争力价格提供原生视觉能力的模型。
高强度工具调用 Qwen 3.7 Max / Plus BFCL-V4 75.0,MCP-Atlas 76.4。在非 Anthropic 模型中工具调用领先。

结论

没有绝对的胜者,但趋势十分明显。对于从事智能体编程的开发团队而言,Qwen 3.7 Plus 是当下市场上最均衡的模型。它在任何单个基准测试中都不拔尖——Opus 4.8 赢在 SWE-Bench Pro,DeepSeek V4 Pro 赢在价格和 LiveCodeBench,Qwen 3.7 Max 赢在 Terminal-Bench 和工具调用。但 Plus 是唯一同时覆盖了良好代码性能、低廉价格、多模态视觉和超长自主运行的模型。

“最佳模型”的时代已经终结。现在的关键是为每种工作负载选择正确的属性组合。


主要来源:Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai

同分类更多文章