自 2026 年 6 月 9 日起,公众可以使用 Anthropic 和 OpenAI 发布过的两个最强模型:Claude Fable 5 和 GPT-5.5 Pro。它们共同代表了当今商业人工智能所能提供的最佳水平,但在理念、价格和优势领域上却大相径庭。
本次对比并非要选出一个绝对的赢家——因为没有这样的赢家——而是为每个团队绘制一张地图,让他们根据自己需要解决的任务来选择合适的模型。
对比背景
Claude Fable 5 于昨日(6 月 9 日)发布,是 Mythos 5 的公开版本。Mythos 5 是 Anthropic 的 Mythos 系列模型,此前仅对政府网络安全机构开放。Fable 5 是同一模型,但配备了安全分类器,可将高风险查询(网络安全、生物、模型蒸馏)重定向至 Opus 4.8。
GPT-5.5 Pro 于 2026 年 4 月 23 日发布,是 GPT-5.5 的 高级旗舰版本。它是一个深度推理模型,专为需要最高精度的任务而设计:研究级数学、法律分析、高风险数据科学。
两个模型均支持约 100 万 tokens 的上下文窗口,最多可生成 12.8 万 tokens 的输出。但相似之处仅限于此。
价格:差距巨大
两个模型之间的价格差异如此之大,以至于第一个决策筛选条件应该是预算:
| 模型 | 输入 / 1M tokens | 输出 / 1M tokens | 典型成本(100K 输入 / 20K 输出) |
|---|---|---|---|
| Claude Fable 5 | $10 | $50 | ~$2.00 |
| GPT-5.5(标准版) | $5 | $30 | ~$1.10 |
| GPT-5.5 Pro | $30 | $180 | ~$6.60 |
| Claude Opus 4.8 | $5 | $25 | ~$0.75 |
Claude Fable 5 的输入成本仅为 GPT-5.5 Pro 的三分之一,输出成本仅为 3.6 分之一。对于每月 1000 万 tokens 的输出量,两者的差距是 $500/月 vs $1,800/月。
有一个重要细节:GPT-5.5 对超过 27.2 万输入 tokens 的部分会收取长上下文附加费(输入 2 倍、输出 1.5 倍,覆盖整个会话)。Fable 5 没有公布此类附加费。对于需要处理超长文档或完整代码仓库的任务,GPT-5.5 的价格优势会被削弱,而 GPT-5.5 Pro 的优势则直接逆转。
基准测试:完整对照表
唯一一份在相同条件下直接对比两个模型的表格由 Anthropic 发布。在与 OpenAI 数据重叠的项目上,双方结果一致:
| 基准测试 | 类别 | Fable 5 | GPT-5.5 | 差距 |
|---|---|---|---|---|
| SWE-Bench Pro | 编码智能体 | 80.3% | 58.6% | +21.7 |
| FrontierCode Diamond | 高级编码 | 29.3% | 5.7% | +23.6 |
| Terminal-Bench 2.1 | 终端编码 | 88.0%* | 83.4%† | +4.6 |
| GDPval-AA (ELO) | 知识工作 | 1932 | 1769 | +163 |
| GDP.pdf(无工具) | 文档视觉 | 29.8% | 24.9% | +4.9 |
| OSWorld-Verified | 计算机操作 | 85.0% | 78.7% | +6.3 |
| AutomationBench | 工具使用 | 17.4% | 12.9% | +4.5 |
| Legal Agent Benchmark | 法律推理 | 13.3% | 2.1% | +11.2 |
| Humanity’s Last Exam | 多学科推理 | 64.5%* | 52.2% | +12.3 |
| HealthBench Professional | 医疗诊断 | 66.0%* | 51.8% | +14.2 |
| ExploitBench (Cap%) | 网络安全 | 78.0%* | 34.0% | +44.0 |
* 为无限制 Mythos 5 模型的成绩;在 Fable 5 中,这些领域被重定向至 Opus 4.8。 † GPT-5.5 通过 Codex CLI(其自有评估框架)评测。
Fable 5 在所有指标上均领先。最显著的差距体现在编码智能体领域:FrontierCode Diamond 相差 23.6 个百分点,SWE-Bench Pro 相差 21.7 个百分点。
那么 GPT-5.5 Pro 呢? GPT-5.5 的 Pro 变体在 Anthropic 未纳入其表格的基准测试中表现出色:
- FrontierMath Tier 4: 39.6% —— 最艰难的研究级数学评测
- BrowseComp: 90.1% —— 多源网页信息搜索与综合
- ARC-AGI-2: 85.0% —— 抽象推理与新型任务适应
- GPQA Diamond: 93.6% —— 博士级 STEM 推理
- MRCR v2 (512K-1M): 74.0% —— 长上下文信息检索
各自的优势领域
Claude Fable 5
Fable 5 的优势在于长周期的智能体工作:可持续数天的自主会话,将任务委派给子智能体并验证自身工作。它专为大规模代码迁移、复杂仓库问题解决和多步骤分析而设计。
关键优势:Token 效率。早期客户报告称,Fable 5 完成复杂任务所需的 tokens 仅为 GPT-5.5 的三分之一。在多步推理任务中,尽管单价更高,但实际成本可能更低。
在多模态基准测试中,Fable 5 平均得分 92.4 vs GPT-5.5 的 70.4(BenchLM),在复杂文档(GDP.pdf)、计算机操作(OSWorld)和法律推理方面具有优势。
GPT-5.5 Pro
GPT-5.5 Pro 是面向特定领域最高精度的模型:前沿数学研究、深度网络搜索和抽象推理。在 FrontierMath Tier 4(39.6%)和 BrowseComp(90.1%)上,它的表现独树一帜或明显领先于任何其他公开可用的模型。
其与 Codex 的集成是另一个实际优势:超过 85% 的 OpenAI 员工每周使用 Codex,GPT-5.5 经过优化,能用比前代更少的 tokens 完成终端任务。Terminal-Bench 2.0 的 82.7% 是它在编码领域的标志性成绩。
对于已经深耕 OpenAI 生态(Codex、ChatGPT、API)的团队来说,GPT-5.5 Pro 是无需额外集成成本的自然进化选择。
安全立场:趋于一致
两家实验室得出了相同的结论:网络安全和生物领域需要受控访问。
Anthropic 的做法是将 Fable 5(配备分类器,将风险查询重定向至 Opus 4.8)与 Mythos 5(无限制,仅供 Project Glasswing 合作伙伴使用)区分开来。根据早期数据,Fable 5 的分类器在不到 5% 的会话中被触发。
OpenAI 根据其 Preparedness Framework 将网络和生物领域列为”高风险”,采用更严格的分类器,并为经过验证的防御方提供 Trusted Access for Cyber 计划。
实际操作中:如果你的工作涉及漏洞利用、生物武器或模型蒸馏,预计两者都会拒绝或重定向你的请求。
如何选择?
| 针对以下需求… | 选择 |
|---|---|
| 解决大型代码仓库中的复杂问题 | Fable 5(SWE-Bench Pro 领先 +22 分) |
| 长时间跨度的自主会话(数天) | Fable 5 |
| 前沿数学研究 | GPT-5.5 Pro(FrontierMath 39.6%) |
| 深度网络搜索与综合 | GPT-5.5 Pro(BrowseComp 90.1%) |
| 高产量生产(成本重要) | 标准 GPT-5.5 或 Fable 5,视任务而定 |
| 复杂文档和 PDF 分析 | Fable 5 |
| 基于 Codex 终端的编码 | GPT-5.5 |
| 已投入 OpenAI 生态的团队 | GPT-5.5 |
对大多数团队而言,成熟的答案是不要只选一个:根据任务需求,将 GPT-5.5 或 Fable 5 作为日常主力模型,GPT-5.5 Pro 用于需要最高精度的任务,而 Opus 4.8($5/$25)作为经济实惠的备用选择。
在唯一可以进行直接对比的场合——基准测试表格中——Fable 5 在几乎所有指标上领先。但原始能力的领先并不总意味着它是日常工作的最佳工具。正确的选择取决于你的任务特征、预算以及你对每个供应商生态的投入程度。
主要来源: Anthropic — System Card: Claude Fable 5 & Claude Mythos 5 · OpenAI — Introducing GPT-5.5