Qwen 3.7 Plus 对比 3.6 Plus、3.7 Max、DeepSeek V4 Pro 和 Opus 4.8：编程与智能体终极对比评测

2026年6月1日，阿里巴巴发布了 Qwen 3.7 Plus，瞬间彻底重新洗牌了关于哪款模型适合用于智能体编程的讨论。并不是因为它在所有基准测试中都是最好的——事实并非如此——而是因为它将三个此前从未共存于单一模型中的特性结合在了一起：低廉的价格、多模态视觉能力，以及长达35小时的自主运行上限。十一天前，纯文本旗舰模型 Qwen 3.7 Max 刚刚问世。两个月前，DeepSeek V4 Pro 以开放权重和无可匹敌的价格震撼了市场。而就在一周前，Anthropic 发布了 Claude Opus 4.8，SWE-Bench Pro 的新王者。它们都在争夺同一个空间，每个都在不同方面各有所长。

这篇对比评测汇集了五位竞争者，从开发团队最关心的维度进行较量：代码基准测试、智能体能力、价格，以及各自适合的工作负载类型。

技术规格

特性	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Claude Opus 4.8
发布时间	2026年6月	2026年4月	2026年5月	2026年4月	2026年5月
模态	文本 + 图像 + 视频	文本 + 图像	仅文本	仅文本	仅文本
上下文	100万 tokens	100万 tokens	100万 tokens	100万 tokens	20万 tokens
最大输出	—	—	65,536 tok	384,000 tok	—
参数	仅API（专有）	仅API（闭源）	仅API（专有）	1.6T / 490亿活跃（MIT）	仅API（闭源）
自主运行	35小时 / 1000+ 工具	~35小时	35小时 / 1158工具	未指定	未指定
自托管	❌	❌	❌	✅（MIT）	❌

每百万 tokens 价格

模型	输入	输出	缓存输入	价格比（vs 最便宜）
DeepSeek V4 Pro（OpenRouter）	$0.435	$0.87	~$0.014（缓存命中）	1×
Qwen 3.6 Plus（OpenRouter）	$0.325	$1.95	—	2.24×
Qwen 3.7 Plus（OpenRouter）	$0.40	$1.60	$0.08	1.84×
Qwen 3.7 Max（OpenRouter）	$1.25	$3.75	$0.25	4.31×
Claude Opus 4.8（直连）	$5.00	$25.00	$0.50	28.7×

表中最重要的数据：DeepSeek V4 Pro 的输出价格是 Opus 4.8 的二十九分之一，而在编程方面性能旗鼓相当。Qwen 3.7 Plus 处于一个有趣的中档位置：输出价格比前代产品（3.6 Plus）更便宜（$1.60 对比 $1.95），且远低于其大哥 Max（$1.60 对比 $7.50）。

编程基准测试

基准测试	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.8
SWE-Bench Pro	~60%	56.6%	60.6%	59.0%	69.2% 🏆
SWE-Bench Verified	~79%*	78.8%	80.4%	80.6%	—
Terminal-Bench 2.0	—	61.6%	69.7% 🏆	67.9%	—
LiveCodeBench	—	—	—	93.5% 🏆	—

*估算值。Qwen 3.7 Plus 在纯文本方面与 3.7 Max 共享骨干网络。

各基准测试说明：

SWE-Bench Pro：最难的测试。开源仓库中的真实多文件 Bug。Opus 4.8 以 69.2% 领先，但价格是 Qwen 3.7 Plus 的 15 倍，是 DeepSeek 的 29 倍。
SWE-Bench Verified：相对容易的任务。DeepSeek V4 Pro（80.6%）和 Qwen 3.7 Max（80.4%）基本持平。Qwen 3.6 Plus 落后约 2 个百分点。
Terminal-Bench 2.0：Shell 环境中的智能体执行能力。Qwen 3.7 Max（69.7%）领先，DeepSeek（67.9%）紧随其后。Qwen 3.6 Plus（61.6%）落后较多。
LiveCodeBench：竞赛编程。DeepSeek V4 Pro（93.5%）碾压 Opus 4.7（84.7%）和 GPT-5.5（85.3%）。

智能体基准测试（工具调用）

基准测试	Qwen 3.7 Plus*	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.6 Max†
BFCL-V4（工具调用）	~74	68.9	75.0	70.6	76.7 🏆
MCP-Mark（MCP 工具）	—	48.2	60.8	57.1	56.7
MCP-Atlas（MCP 生态系统）	76.4	74.1	76.4	73.6	75.8

*估算值。Qwen 3.7 Plus 继承了 3.7 Max 的智能体骨干网络。 †Opus 4.6 的数据，而非 4.8（BFCL/MCP 暂无 4.8 的数据）。

在国产模型中，Qwen 3.7 Max 在工具调用方面领先。DeepSeek V4 Pro 落后几个百分点。Qwen 3.7 Plus 由于共享相同的智能体技术栈，应该与 Max 接近。在 MCP-Atlas 中，Plus 和 Max 得分完全相同（76.4），表明其智能体骨干网络是一致的。

多模态能力

能力	Qwen 3.7 Plus	Qwen 3.6 Plus	Qwen 3.7 Max	DeepSeek V4 Pro	Opus 4.8
视觉（图像）	✅	✅	❌	❌	❌*
视频	✅	❌	❌	❌	❌
计算机使用	✅（GUI 浏览）	—	❌	❌	✅（测试版）
Vision Arena 排名	#16 🏆	—	无	无	无

*Opus 4.8 具备计算机使用能力（可查看屏幕），但并非原生多模态视觉。

Qwen 3.7 Plus 是本对比中唯一一款以文本价格提供原生视觉能力（图像+视频）的模型。这对于处理视觉参考素材（UI 原型、Bug 截图、线框图）的团队来说，意义重大。DeepSeek V4 Pro 和 Qwen 3.7 Max 无法做到这一点。Opus 4.8 虽可通过计算机使用能力查看屏幕，但这只是一个附加层，而非原生的多模态处理能力。

决策矩阵

场景	推荐模型	原因
日常编程首选（默认）	Qwen 3.7 Plus	价格、性能与视觉能力的平衡。比 Max 便宜 6 倍，能看图像，具备相同的自主运行上限。
编程最高性能	Opus 4.8	SWE-Bench Pro 69.2%。适用于不计成本进行深度调试的场景。
预算有限，高调用量	DeepSeek V4 Pro	输出 $0.87/M，开放权重，LiveCodeBench 93.5%。编程性价比之王。
超长自主运行（24小时以上流水线）	Qwen 3.7 Plus / Max	已验证支持 35 小时超过 1000 次工具调用。其他型号均无此记录。
自托管 / 隐私保护	DeepSeek V4 Pro（MIT）或 Qwen 35B-A3B	开放权重。Qwen 3.7 Plus 和 Max 仅限 API。
涉及视觉参考的编程	Qwen 3.7 Plus	唯一以具竞争力价格提供原生视觉能力的模型。
高强度工具调用	Qwen 3.7 Max / Plus	BFCL-V4 75.0，MCP-Atlas 76.4。在非 Anthropic 模型中工具调用领先。

结论

没有绝对的胜者，但趋势十分明显。对于从事智能体编程的开发团队而言，Qwen 3.7 Plus 是当下市场上最均衡的模型。它在任何单个基准测试中都不拔尖——Opus 4.8 赢在 SWE-Bench Pro，DeepSeek V4 Pro 赢在价格和 LiveCodeBench，Qwen 3.7 Max 赢在 Terminal-Bench 和工具调用。但 Plus 是唯一同时覆盖了良好代码性能、低廉价格、多模态视觉和超长自主运行的模型。

“最佳模型”的时代已经终结。现在的关键是为每种工作负载选择正确的属性组合。

主要来源：Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai