全面对比：中国智能编码模型 vs Claude Opus 4.8

2026年4月至6月间，中国发布了一系列针对同一使命设计的语言模型：智能编码（agentic coding）。GLM-5.1、Qwen3.7-Max、Kimi K2.6、MiniMax M3、MiMo-V2.5-Pro、DeepSeek V4 Pro和V4 Flash在自主软件开发最重要的基准测试中直接与Claude Opus 4.8展开竞争。本对比分析逐一审视这些模型，数据更新至2026年6月。

背景：历史性密集发布潮

在短短三个月内，七款中国模型进入市场，它们有一个共同点：全部明确面向 agentic coding（智能编码）——即模型能够在使用工具、迭代结果并保持数百至数千次调用一致性的前提下，在长时间会话中自主编写、调试和优化代码的能力。

西方的参照基准是Anthropic于2026年5月28日发布的Claude Opus 4.8，它将SWE-Bench Pro的标准提升至69.2%。但中国模型正在以惊人的速度缩小差距——并且其价格令人难以忽视。

SWE-Bench Pro究竟衡量什么？

在进入具体数字之前，有必要先说明一下。SWE-Bench Pro评估模型解决开源代码库中真实bug的能力：模型接收问题描述，探索代码库，识别根本原因并提出补丁。这是最接近人类开发者日常工作场景的指标。然而，每个模型使用不同的scaffold（编排工具的系统）进行评估，因此各实验室间的直接比较是方向性的，而非绝对的。

参赛选手，按性能排序

Claude Opus 4.8 — 需要超越的标准

Anthropic将Opus 4.8称为对Opus 4.7”适度但切实”的改进，数据也证实了这一点：SWE-Bench Pro得分69.2%，而上一代为64.3%。这仅在短短一个月内就提升了近5个百分点。但最有趣的数据不在基准测试中：Anthropic声称Opus 4.8遗漏自身代码bug而不上报的可能性比之前低四倍。对于依赖自主智能体处理遗留代码库的团队而言，这一点与任何性能指标同等重要。

价格保持不变：输入每百万token $5，输出每百万token $25——与Opus 4.7相同。它是本次对比中价格最高的模型，且差距明显。

Qwen3.7-Max — 中国编程领导者

阿里巴巴的旗舰模型于5月19日发布，其性能甚至让最敏锐的分析师也感到惊讶。它在SWE-Bench Pro上达到60.6%，超越所有中国模型和Opus 4.6（57.3%）。但它真正闪耀的领域是Terminal-Bench 2.0，其69.7分的成绩超过了所有竞争对手，包括Opus 4.6（65.4%）和DeepSeek V4 Pro（67.9%）。Terminal-Bench衡量真实的终端任务：安装软件包、调试进程、配置网络。这是最接近开发者日常工作的基准测试。

Qwen3.7-Max最令人印象深刻的演示是一次35小时的内核自主优化，涉及超过1,000次工具调用，全程无需人工干预。阿里巴巴还证明了该模型能够跨不同scaffold（Claude Code、OpenClaw、Qwen Code）保持一致的泛化结果。

其当前价格得益于截至6月22日的五折促销，输入每百万token $1.25，输出每百万token $3.75。正常价格为两倍。

Kimi K2.6 — 最接近前沿的开源权重模型

Moonshot AI于4月20日发布了Kimi K2.6，这是一个约1万亿参数的开源权重模型。其在SWE-Bench Pro上59.5%的得分略低于Qwen3.7-Max，但领先于Opus 4.6（57.3%）。在SWE-Bench Verified上达到80.2%，与Opus 4.6（80.8%）几乎持平。

Kimi K2.6明确设计用于全天候自主运行的主动智能体，无需人工监督。Moonshot AI报告其工具调用成功率为96.6%，在基于Next.js的Web应用生成方面比前代K2.5提升了50%。CodeBuddy和Augment Code等集成商确认，该模型在初始方法失败时尤其擅长智能切换。

其价格为：输入每百万token $0.75，输出每百万token $3.50。采用Modified MIT许可证开放权重。

DeepSeek V4 Pro — 性价比之王

DeepSeek V4 Pro于4月24日发布，是一个1.6万亿参数（490亿激活）的模型，拥有100万token上下文窗口和MIT许可证。其在SWE-Bench Verified上80.6%的得分仅比Opus 4.6（80.8%）低0.2个百分点，而93.5的LiveCodeBench得分是迄今为止所有模型中最高的。

但最震撼市场的数据是其价格。DeepSeek先推出75%折扣，后将其转为永久价格：输出成本仅为每百万token $0.87，而Opus 4.8为$25。在编程性能相当的情况下，价格便宜了29倍。其混合CSA+HCA架构将FLOPs降低至27%，KV缓存降低至前代所需的10%。

MiniMax M3 — 承诺革命的新来者

本次对比中最晚发布的模型——2026年6月1日——同时也是最具雄心的之一。MiniMax M3是首个将前沿编程能力、100万token上下文和多模态能力（文本、图像和视频）整合于单一系统的开源权重模型。

其数据：SWE-Bench Pro得分59.0%，BrowseComp得分83.5（超过得分79.3的Opus 4.7），Terminal-Bench 2.1得分66.0%。MiniMax声称其在编程方面超越GPT-5.5和Gemini 3.1 Pro，但由于发布时间太新，独立验证仍在进行中。

M3的真正差异化因素是其MSA（MiniMax Sparse Attention）架构，该架构用KV块选择替代了完整注意力机制。这使得100万token上下文变得实用：prefill速度快9倍，decoding速度快15倍，单token计算量降至前代的十分之一。

促销价格方面，MiniMax M3输入每百万token仅$0.30，输出每百万token $1.20。比Opus 4.8便宜21倍，且由于是开源权重，可自行部署。

GLM-5.1 — 多轮迭代优化专家

Z.ai（原智谱AI）于4月7日发布的模型完全基于华为昇腾芯片训练，成为中国技术主权的象征。其在SWE-Bench Pro上58.4%的得分落后于领先者，但它有一个独特品质：设计上不会陷入停滞。

GLM-5.1最有说服力的演示是一项Rust向量数据库优化任务。在常规的50轮会话中，它达到了约每秒3,500次查询——与Opus 4.6相当。但在一个超过6,000次工具调用的600轮优化循环中，它达到了每秒21,500次查询：提升了六倍。当其他模型在最初几轮迭代后陷入停滞时，GLM-5.1仍能继续发现结构性的改进。

其在OpenRouter上的价格约为输入每百万token $0.98，输出每百万token $3.08。上下文限制为203,000 token，远低于竞品的100万。

MiMo-V2.5-Pro — 编译器构建者

小米以MiMo-V2.5-Pro进入语言模型市场，这是一个1.02万亿参数（420亿激活）的模型，采用MIT许可证并拥有100万token上下文窗口。其基准测试得分较为温和（SWE-Bench Pro 57.2%，Verified 78.9%），但其优势在其他方面。

小米展示了MiMo-V2.5-Pro在4.3小时内用Rust构建了一个完整的SysY编译器——这是一个计算机科学学生通常需要数周才能完成的项目——涉及672次工具调用，并在测试集中获得了233/233的满分。对于需要长时间自主会话的基础设施任务来说，这是理想的模型。

其价格为：输入每百万token $0.435，输出每百万token $0.87，与DeepSeek V4 Pro并列第二便宜。其生成速度较慢（每秒42个token）且倾向于冗长，但对于优先考虑正确性而非速度的任务而言，这是一个可靠的选择。

DeepSeek V4 Flash — 超经济型

如果说DeepSeek V4 Pro革命性地改变了性价比，那么V4 Flash则彻底重新定义了它。总参数2840亿（130亿激活），输出价格每百万token仅$0.28，在SWE-Bench Verified上达到79.0%。这仅比V4 Pro低1.6个百分点，而价格约为其三分之一。

换个角度理解：V4 Flash在输出token上的成本约为Claude Opus 4.8的九十分之一，而编程性能差距在许多团队看来是可以接受的。对于初创公司、小团队或需要处理数百万token而不必担心成本的任务而言，V4 Flash很可能是有史以来性价比最高的模型。

与V4 Pro一样，它采用MIT许可证、开放权重，并拥有100万token上下文窗口。

基准测试对比表

模型	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	输出价格/1M
Claude Opus 4.8	69.2% 🏆	80.8%（Opus 4.6）	65.4%（Opus 4.6）	$25.00
Qwen3.7-Max	60.6%	80.4%	69.7% 🏆	$3.75（促销）
Kimi K2.6	59.5%	80.2%	66.7%	$3.50
MiniMax M3	59.0%	—	66.0%	$1.20（促销）
DeepSeek V4 Pro	59.0%	80.6%	67.9%	$0.87 💸
GLM-5.1	58.4%	—	63.5%	$4.40
MiMo-V2.5-Pro	57.2%	78.9%	68.4%	$0.87
DeepSeek V4 Flash	—	79.0%	—	$0.28 💸

注：数据来自各实验室官方报告，可能采用不同的方法论。† = Opus 4.6的数据，而非4.8。💸 = 永久降低价格。

根据使用场景如何选择模型

日常编码（PR、修复、功能开发）： DeepSeek V4 Pro在性能（Verified 80.6%）和价格（输出$0.87/1M）之间提供了最佳平衡。如果预算紧张，V4 Flash以$0.28的价格也是一个极其强大的选择。

基础设施和长时间任务： MiMo-V2.5-Pro已经证明能够自主完成编译器这样复杂的项目，耗时数小时。GLM-5.1是任务需要持续迭代优化时的替代方案。

全天候自主智能体： Kimi K2.6明确针对此用例设计，工具调用成功率为96.6%，并具备异构智能体编排能力。

自主网页浏览： MiniMax M3以BrowseComp 83.5分领先，超越Opus 4.7。其最低价格下的100万token上下文使其成为需要阅读和处理大量网络信息的理想选择。

遗留代码库的高可信度工作： Claude Opus 4.8仍然是最安全的选择。它的诚实性——对自身代码中的bug视而不见的可能性低四倍——以及成熟的生态系统（Claude Code、MCP、精细化的工具使用）证明了其高溢价的合理性，当错误的成本超过API成本时更是如此。

中国价格战持续升级

除了基准测试之外，还有一个趋势值得关注：中国模型不仅在性能上竞争，还采取了激进的低价策略。DeepSeek在5月将V4 Pro的75%折扣转为永久价格。小米以低于所有竞争对手的API价格进入市场。阿里巴巴为Qwen3.7-Max提供五折优惠。MiniMax M3以仅为西方领先者零头的促销价格推出。

结果是，现在市场上可以用低于每百万输出token $1的价格获得前沿性能的模型。一年前，这看起来还是不可能的。

Claude Opus 4.8仍然做得更好的地方

尽管差距已经缩小，Claude Opus 4.8仍然保持着基准测试无法完全捕捉的定性优势。编程中的诚实性——报告bug而非忽略它们——是自主开发的一项重大进步。Claude Code的动态工作流允许在代码库规模上并行运行智能体。而Anthropic的生态系统，包括MCP和精细化的工具使用，仍然比中国替代方案更加成熟。

对于生产环境中错误的成本远超API成本的企业而言，Opus 4.8仍然是正确的选择。对于其他所有情况，中国模型提供了一个越来越难以忽视的替代方案。