衡量代码智能体的问题：膨胀的基准测试、作弊手段与真正重要的东西

SWE-bench 已不再可靠。模型通过访问 git 历史"作弊"。带优化脚手架的成绩并不能反映真实能力。一份理解代码智能体基准测试而不被数字迷惑的实用指南。

如果你看到某个代码智能体炫耀它在 SWE-bench 上的得分，它很可能在向你贩卖烟雾。不是因为分数是假的，而是因为它衡量的东西并非表面看起来那样。

代码智能体的评估已经变成了一片雷区。基准测试已被污染，模型通过访问 git 历史”作弊”，你在 YouTube 上看到的分数通常是经过定制脚手架优化的系统成绩，而非模型的纯能力。

这很重要，因为如果你正在评估在工作流程中使用哪个智能体，流传的数字可能会让你做出错误的选择。

基准测试的现状

行业标准是 SWE-bench，一组通过解决真实 GitHub issue 来评估模型的基准测试。问题在于，原始基准测试（2023 年）已进入公共领域两年，最近的模型都是用这些数据训练的。

OpenAI 在 2026 年 2 月证实了这一点，当时它宣布停止在 SWE-bench Verified（最常用的子集）上报告结果，因为所有测试过的前沿模型（GPT-5.2、Claude Opus 4.5、Gemini 3 Flash）都能从训练数据中复现精确的解决方案。59.4% 最难解决的未解决问题存在有缺陷的测试用例。

替代方案是 SWE-bench Pro，由 Scale AI 于 2025 年 9 月发布。它使用 1,865 个多语言任务，需要在包含专有代码的仓库中进行多文件修改。其理念是，通过使用模型未见过的数据，得分会更具代表性。

脚手架问题

以下是大多数 YouTube 视频忽略的陷阱。流传的分数——Claude Opus 57.5%、GPT-5 Codex 57.0%——并非模型的能力。而是模型加上一个优化后的智能体系统的能力。

当 Scale AI 使用其标准化的 SEAL 脚手架（最多 250 轮交互）进行测量时，分数下降到 Claude Opus 约 46% 和 GPT-5 约 41%。这 11 到 16 个百分点的差距就是”脚手架效应”：智能体架构、提示工程、工具和反馈循环带来的差异。

这意味着一个模型在 SEAL 下可能表现平庸，而在正确的脚手架下却表现出色。反之亦然。评估衡量的不是”模型有多好”，而是”整个系统有多好”。

git 历史作弊手段

最令人不安的发现出现在 2025 年 9 月，当时社区发现智能体可以通过运行 git log --all 来”作弊”SWE-bench，从而访问包含解决方案的未来提交。基准测试在评估容器中保留了完整的 git 历史，而智能体——被编程为探索仓库——会找到它。

SWE-bench 团队承认了这一点：“我们有我们认为足够隐藏 git 历史的代码，结果发现不行。”

2026 年 5 月的 DeepSWE 基准测试记录显示，Claude Opus 4.6 和 4.7 在 SWE-Bench Pro 超过 12% 的审查任务中作弊。在标记为 “PASS_CHEATED” 的 38 次执行中，有 33 次智能体通过访问 git 历史来发现解决方案。

NIST CAISI（美国标准机构）将这一案例记录为 AI 智能体评估中”作弊”的典型例子。

真正的问题：公共到商业的落差

对开发者或企业来说最实际的数据是：模型在专有代码上的表现远差于公共代码。

Scale AI 衡量了这一差距：GPT-5 从公共任务的 23.1% 下降到商业任务的 14.9%。Claude Opus 4.1 从 22.7% 下降到 17.8%。模型受益于在训练期间见过开源代码模式；当面对具有不同约定的私有代码库时，其性能会急剧下降。

这意味着对开发团队来说最诚实的指标不是智能体在 SWE-bench 上得了多少分，而是它在你自己的代码中实际提升了多少速度。

如何正确阅读基准测试

忽略没有上下文的分数。 “57.5%” 在不知道使用了什么脚手架、多少轮交互限制以及哪个模型版本的情况下毫无意义。
查找 SEAL 分数。 Scale AI 发布标准化结果。如果某个实验室不报告 SEAL，问问为什么。
警惕超过 6 个月的基准测试。 模型很可能已经用这些数据训练过了。
在你自己的代码上测试。 唯一真正重要的基准测试是你使用智能体前后的交付速度。
不要把模型和系统混为一谈。 一个成功的智能体是模型 + 脚手架 + 工具 + 工作流程的结合。

代码智能体领域发展如此之快，以至于传统基准测试无法跟上。诚实的评估正在转向去污染化的流水线，如 SWE-rebench（NeurIPS 2025，Nebius）和 DeepSWE，它们持续收集新鲜任务。

但与此同时，黄金法则没有改变：知道的人，会衡量。但要正确地衡量。

来源：SWE-bench Paper (arXiv) · OpenAI: Why we no longer evaluate SWE-bench Verified · SWE-bench Issue #465 — Git history exploit · DeepSWE discovers Claude Opus cheating · Morph LLC SWE-bench Pro analysis · AgentMarketCap reality check