IA al Día
高效了解 AI 的方式
返回归档
工具 2026年6月4日 比较 8 分钟阅读

全面对比:中国智能编码模型 vs Claude Opus 4.8

2026年4月至6月间,中国发布了一系列针对同一使命设计的语言模型:智能编码(agentic coding)。GLM-5.1、Qwen3.7-Max、Kimi K2.6、MiniMax M3、MiMo-V2.5-Pro、DeepSeek V4 Pro和V4 Flash在自主软件开发最重要的基准测试中直接与Claude Opus 4.8展开竞争。本对比分析逐一审视这些模型,数据更新至2026年6月。

全面对比:中国智能编码模型 vs Claude Opus 4.8
作者 IA al Día
来源: Research brief — fuentes múltiples

2026年4月至6月间,中国发布了一系列针对同一使命设计的语言模型:智能编码(agentic coding)。GLM-5.1、Qwen3.7-Max、Kimi K2.6、MiniMax M3、MiMo-V2.5-Pro、DeepSeek V4 Pro和V4 Flash在自主软件开发最重要的基准测试中直接与Claude Opus 4.8展开竞争。本对比分析逐一审视这些模型,数据更新至2026年6月。

背景:历史性密集发布潮

在短短三个月内,七款中国模型进入市场,它们有一个共同点:全部明确面向 agentic coding(智能编码)——即模型能够在使用工具、迭代结果并保持数百至数千次调用一致性的前提下,在长时间会话中自主编写、调试和优化代码的能力。

西方的参照基准是Anthropic于2026年5月28日发布的Claude Opus 4.8,它将SWE-Bench Pro的标准提升至69.2%。但中国模型正在以惊人的速度缩小差距——并且其价格令人难以忽视。

SWE-Bench Pro究竟衡量什么?

在进入具体数字之前,有必要先说明一下。SWE-Bench Pro评估模型解决开源代码库中真实bug的能力:模型接收问题描述,探索代码库,识别根本原因并提出补丁。这是最接近人类开发者日常工作场景的指标。然而,每个模型使用不同的scaffold(编排工具的系统)进行评估,因此各实验室间的直接比较是方向性的,而非绝对的。

参赛选手,按性能排序

Claude Opus 4.8 — 需要超越的标准

Anthropic将Opus 4.8称为对Opus 4.7”适度但切实”的改进,数据也证实了这一点:SWE-Bench Pro得分69.2%,而上一代为64.3%。这仅在短短一个月内就提升了近5个百分点。但最有趣的数据不在基准测试中:Anthropic声称Opus 4.8遗漏自身代码bug而不上报的可能性比之前低四倍。对于依赖自主智能体处理遗留代码库的团队而言,这一点与任何性能指标同等重要。

价格保持不变:输入每百万token $5,输出每百万token $25——与Opus 4.7相同。它是本次对比中价格最高的模型,且差距明显。

Qwen3.7-Max — 中国编程领导者

阿里巴巴的旗舰模型于5月19日发布,其性能甚至让最敏锐的分析师也感到惊讶。它在SWE-Bench Pro上达到60.6%,超越所有中国模型和Opus 4.6(57.3%)。但它真正闪耀的领域是Terminal-Bench 2.0,其69.7分的成绩超过了所有竞争对手,包括Opus 4.6(65.4%)和DeepSeek V4 Pro(67.9%)。Terminal-Bench衡量真实的终端任务:安装软件包、调试进程、配置网络。这是最接近开发者日常工作的基准测试。

Qwen3.7-Max最令人印象深刻的演示是一次35小时的内核自主优化,涉及超过1,000次工具调用,全程无需人工干预。阿里巴巴还证明了该模型能够跨不同scaffold(Claude Code、OpenClaw、Qwen Code)保持一致的泛化结果。

其当前价格得益于截至6月22日的五折促销,输入每百万token $1.25,输出每百万token $3.75。正常价格为两倍。

Kimi K2.6 — 最接近前沿的开源权重模型

Moonshot AI于4月20日发布了Kimi K2.6,这是一个约1万亿参数的开源权重模型。其在SWE-Bench Pro上59.5%的得分略低于Qwen3.7-Max,但领先于Opus 4.6(57.3%)。在SWE-Bench Verified上达到80.2%,与Opus 4.6(80.8%)几乎持平。

Kimi K2.6明确设计用于全天候自主运行的主动智能体,无需人工监督。Moonshot AI报告其工具调用成功率为96.6%,在基于Next.js的Web应用生成方面比前代K2.5提升了50%。CodeBuddy和Augment Code等集成商确认,该模型在初始方法失败时尤其擅长智能切换。

其价格为:输入每百万token $0.75,输出每百万token $3.50。采用Modified MIT许可证开放权重。

DeepSeek V4 Pro — 性价比之王

DeepSeek V4 Pro于4月24日发布,是一个1.6万亿参数(490亿激活)的模型,拥有100万token上下文窗口和MIT许可证。其在SWE-Bench Verified上80.6%的得分仅比Opus 4.6(80.8%)低0.2个百分点,而93.5的LiveCodeBench得分是迄今为止所有模型中最高的。

但最震撼市场的数据是其价格。DeepSeek先推出75%折扣,后将其转为永久价格:输出成本仅为每百万token $0.87,而Opus 4.8为$25。在编程性能相当的情况下,价格便宜了29倍。其混合CSA+HCA架构将FLOPs降低至27%,KV缓存降低至前代所需的10%。

MiniMax M3 — 承诺革命的新来者

本次对比中最晚发布的模型——2026年6月1日——同时也是最具雄心的之一。MiniMax M3是首个将前沿编程能力、100万token上下文和多模态能力(文本、图像和视频)整合于单一系统的开源权重模型。

其数据:SWE-Bench Pro得分59.0%,BrowseComp得分83.5(超过得分79.3的Opus 4.7),Terminal-Bench 2.1得分66.0%。MiniMax声称其在编程方面超越GPT-5.5和Gemini 3.1 Pro,但由于发布时间太新,独立验证仍在进行中。

M3的真正差异化因素是其MSA(MiniMax Sparse Attention)架构,该架构用KV块选择替代了完整注意力机制。这使得100万token上下文变得实用:prefill速度快9倍,decoding速度快15倍,单token计算量降至前代的十分之一。

促销价格方面,MiniMax M3输入每百万token仅$0.30,输出每百万token $1.20。比Opus 4.8便宜21倍,且由于是开源权重,可自行部署。

GLM-5.1 — 多轮迭代优化专家

Z.ai(原智谱AI)于4月7日发布的模型完全基于华为昇腾芯片训练,成为中国技术主权的象征。其在SWE-Bench Pro上58.4%的得分落后于领先者,但它有一个独特品质:设计上不会陷入停滞。

GLM-5.1最有说服力的演示是一项Rust向量数据库优化任务。在常规的50轮会话中,它达到了约每秒3,500次查询——与Opus 4.6相当。但在一个超过6,000次工具调用的600轮优化循环中,它达到了每秒21,500次查询:提升了六倍。当其他模型在最初几轮迭代后陷入停滞时,GLM-5.1仍能继续发现结构性的改进。

其在OpenRouter上的价格约为输入每百万token $0.98,输出每百万token $3.08。上下文限制为203,000 token,远低于竞品的100万。

MiMo-V2.5-Pro — 编译器构建者

小米以MiMo-V2.5-Pro进入语言模型市场,这是一个1.02万亿参数(420亿激活)的模型,采用MIT许可证并拥有100万token上下文窗口。其基准测试得分较为温和(SWE-Bench Pro 57.2%,Verified 78.9%),但其优势在其他方面。

小米展示了MiMo-V2.5-Pro在4.3小时内用Rust构建了一个完整的SysY编译器——这是一个计算机科学学生通常需要数周才能完成的项目——涉及672次工具调用,并在测试集中获得了233/233的满分。对于需要长时间自主会话的基础设施任务来说,这是理想的模型。

其价格为:输入每百万token $0.435,输出每百万token $0.87,与DeepSeek V4 Pro并列第二便宜。其生成速度较慢(每秒42个token)且倾向于冗长,但对于优先考虑正确性而非速度的任务而言,这是一个可靠的选择。

DeepSeek V4 Flash — 超经济型

如果说DeepSeek V4 Pro革命性地改变了性价比,那么V4 Flash则彻底重新定义了它。总参数2840亿(130亿激活),输出价格每百万token仅$0.28,在SWE-Bench Verified上达到79.0%。这仅比V4 Pro低1.6个百分点,而价格约为其三分之一。

换个角度理解:V4 Flash在输出token上的成本约为Claude Opus 4.8的九十分之一,而编程性能差距在许多团队看来是可以接受的。对于初创公司、小团队或需要处理数百万token而不必担心成本的任务而言,V4 Flash很可能是有史以来性价比最高的模型。

与V4 Pro一样,它采用MIT许可证、开放权重,并拥有100万token上下文窗口。

基准测试对比表

模型SWE-Bench ProSWE-Bench VerifiedTerminal-Bench 2.0输出价格/1M
Claude Opus 4.869.2% 🏆80.8%(Opus 4.6)65.4%(Opus 4.6)$25.00
Qwen3.7-Max60.6%80.4%69.7% 🏆$3.75(促销)
Kimi K2.659.5%80.2%66.7%$3.50
MiniMax M359.0%66.0%$1.20(促销)
DeepSeek V4 Pro59.0%80.6%67.9%$0.87 💸
GLM-5.158.4%63.5%$4.40
MiMo-V2.5-Pro57.2%78.9%68.4%$0.87
DeepSeek V4 Flash79.0%$0.28 💸

注:数据来自各实验室官方报告,可能采用不同的方法论。† = Opus 4.6的数据,而非4.8。💸 = 永久降低价格。

根据使用场景如何选择模型

日常编码(PR、修复、功能开发): DeepSeek V4 Pro在性能(Verified 80.6%)和价格(输出$0.87/1M)之间提供了最佳平衡。如果预算紧张,V4 Flash以$0.28的价格也是一个极其强大的选择。

基础设施和长时间任务: MiMo-V2.5-Pro已经证明能够自主完成编译器这样复杂的项目,耗时数小时。GLM-5.1是任务需要持续迭代优化时的替代方案。

全天候自主智能体: Kimi K2.6明确针对此用例设计,工具调用成功率为96.6%,并具备异构智能体编排能力。

自主网页浏览: MiniMax M3以BrowseComp 83.5分领先,超越Opus 4.7。其最低价格下的100万token上下文使其成为需要阅读和处理大量网络信息的理想选择。

遗留代码库的高可信度工作: Claude Opus 4.8仍然是最安全的选择。它的诚实性——对自身代码中的bug视而不见的可能性低四倍——以及成熟的生态系统(Claude Code、MCP、精细化的工具使用)证明了其高溢价的合理性,当错误的成本超过API成本时更是如此。

中国价格战持续升级

除了基准测试之外,还有一个趋势值得关注:中国模型不仅在性能上竞争,还采取了激进的低价策略。DeepSeek在5月将V4 Pro的75%折扣转为永久价格。小米以低于所有竞争对手的API价格进入市场。阿里巴巴为Qwen3.7-Max提供五折优惠。MiniMax M3以仅为西方领先者零头的促销价格推出。

结果是,现在市场上可以用低于每百万输出token $1的价格获得前沿性能的模型。一年前,这看起来还是不可能的。

Claude Opus 4.8仍然做得更好的地方

尽管差距已经缩小,Claude Opus 4.8仍然保持着基准测试无法完全捕捉的定性优势。编程中的诚实性——报告bug而非忽略它们——是自主开发的一项重大进步。Claude Code的动态工作流允许在代码库规模上并行运行智能体。而Anthropic的生态系统,包括MCP和精细化的工具使用,仍然比中国替代方案更加成熟。

对于生产环境中错误的成本远超API成本的企业而言,Opus 4.8仍然是正确的选择。对于其他所有情况,中国模型提供了一个越来越难以忽视的替代方案。


主要来源: GLM-5.1 — Z.ai | Qwen3.7 — Alibaba | Kimi K2.6 — Moonshot AI | MiniMax M3 — MiniMax | MiMo-V2.5-Pro — Xiaomi | DeepSeek V4 — DeepSeek | Claude Opus 4.8 — Anthropic

同分类更多文章