IA al Día
高效了解 AI 的方式
返回归档
模型 2026年6月10日 比较 6 分钟阅读

Claude Fable 5 vs GPT-5.5 Pro:人工智能前沿的两大模型

Anthropic 的 Claude Fable 5 与 OpenAI 的 GPT-5.5 Pro 全面对比——这两个面向公众的最强模型。基准测试、价格、使用场景以及如何选择。

Claude Fable 5 vs GPT-5.5 Pro:人工智能前沿的两大模型
作者 IA al Día

自 2026 年 6 月 9 日起,公众可以使用 Anthropic 和 OpenAI 发布过的两个最强模型:Claude Fable 5GPT-5.5 Pro。它们共同代表了当今商业人工智能所能提供的最佳水平,但在理念、价格和优势领域上却大相径庭。

本次对比并非要选出一个绝对的赢家——因为没有这样的赢家——而是为每个团队绘制一张地图,让他们根据自己需要解决的任务来选择合适的模型。

对比背景

Claude Fable 5 于昨日(6 月 9 日)发布,是 Mythos 5 的公开版本。Mythos 5 是 Anthropic 的 Mythos 系列模型,此前仅对政府网络安全机构开放。Fable 5 是同一模型,但配备了安全分类器,可将高风险查询(网络安全、生物、模型蒸馏)重定向至 Opus 4.8。

GPT-5.5 Pro 于 2026 年 4 月 23 日发布,是 GPT-5.5 的 高级旗舰版本。它是一个深度推理模型,专为需要最高精度的任务而设计:研究级数学、法律分析、高风险数据科学。

两个模型均支持约 100 万 tokens 的上下文窗口,最多可生成 12.8 万 tokens 的输出。但相似之处仅限于此。

价格:差距巨大

两个模型之间的价格差异如此之大,以至于第一个决策筛选条件应该是预算:

模型输入 / 1M tokens输出 / 1M tokens典型成本(100K 输入 / 20K 输出)
Claude Fable 5$10$50~$2.00
GPT-5.5(标准版)$5$30~$1.10
GPT-5.5 Pro$30$180~$6.60
Claude Opus 4.8$5$25~$0.75

Claude Fable 5 的输入成本仅为 GPT-5.5 Pro 的三分之一输出成本仅为 3.6 分之一。对于每月 1000 万 tokens 的输出量,两者的差距是 $500/月 vs $1,800/月。

有一个重要细节:GPT-5.5 对超过 27.2 万输入 tokens 的部分会收取长上下文附加费(输入 2 倍、输出 1.5 倍,覆盖整个会话)。Fable 5 没有公布此类附加费。对于需要处理超长文档或完整代码仓库的任务,GPT-5.5 的价格优势会被削弱,而 GPT-5.5 Pro 的优势则直接逆转。

基准测试:完整对照表

唯一一份在相同条件下直接对比两个模型的表格由 Anthropic 发布。在与 OpenAI 数据重叠的项目上,双方结果一致:

基准测试类别Fable 5GPT-5.5差距
SWE-Bench Pro编码智能体80.3%58.6%+21.7
FrontierCode Diamond高级编码29.3%5.7%+23.6
Terminal-Bench 2.1终端编码88.0%*83.4%†+4.6
GDPval-AA (ELO)知识工作19321769+163
GDP.pdf(无工具)文档视觉29.8%24.9%+4.9
OSWorld-Verified计算机操作85.0%78.7%+6.3
AutomationBench工具使用17.4%12.9%+4.5
Legal Agent Benchmark法律推理13.3%2.1%+11.2
Humanity’s Last Exam多学科推理64.5%*52.2%+12.3
HealthBench Professional医疗诊断66.0%*51.8%+14.2
ExploitBench (Cap%)网络安全78.0%*34.0%+44.0

* 为无限制 Mythos 5 模型的成绩;在 Fable 5 中,这些领域被重定向至 Opus 4.8。 † GPT-5.5 通过 Codex CLI(其自有评估框架)评测。

Fable 5 在所有指标上均领先。最显著的差距体现在编码智能体领域:FrontierCode Diamond 相差 23.6 个百分点,SWE-Bench Pro 相差 21.7 个百分点。

那么 GPT-5.5 Pro 呢? GPT-5.5 的 Pro 变体在 Anthropic 未纳入其表格的基准测试中表现出色:

  • FrontierMath Tier 4: 39.6% —— 最艰难的研究级数学评测
  • BrowseComp: 90.1% —— 多源网页信息搜索与综合
  • ARC-AGI-2: 85.0% —— 抽象推理与新型任务适应
  • GPQA Diamond: 93.6% —— 博士级 STEM 推理
  • MRCR v2 (512K-1M): 74.0% —— 长上下文信息检索

各自的优势领域

Claude Fable 5

Fable 5 的优势在于长周期的智能体工作:可持续数天的自主会话,将任务委派给子智能体并验证自身工作。它专为大规模代码迁移、复杂仓库问题解决和多步骤分析而设计。

关键优势:Token 效率。早期客户报告称,Fable 5 完成复杂任务所需的 tokens 仅为 GPT-5.5 的三分之一。在多步推理任务中,尽管单价更高,但实际成本可能更低。

在多模态基准测试中,Fable 5 平均得分 92.4 vs GPT-5.5 的 70.4(BenchLM),在复杂文档(GDP.pdf)、计算机操作(OSWorld)和法律推理方面具有优势。

GPT-5.5 Pro

GPT-5.5 Pro 是面向特定领域最高精度的模型:前沿数学研究、深度网络搜索和抽象推理。在 FrontierMath Tier 4(39.6%)和 BrowseComp(90.1%)上,它的表现独树一帜或明显领先于任何其他公开可用的模型。

其与 Codex 的集成是另一个实际优势:超过 85% 的 OpenAI 员工每周使用 Codex,GPT-5.5 经过优化,能用比前代更少的 tokens 完成终端任务。Terminal-Bench 2.0 的 82.7% 是它在编码领域的标志性成绩。

对于已经深耕 OpenAI 生态(Codex、ChatGPT、API)的团队来说,GPT-5.5 Pro 是无需额外集成成本的自然进化选择。

安全立场:趋于一致

两家实验室得出了相同的结论:网络安全和生物领域需要受控访问

Anthropic 的做法是将 Fable 5(配备分类器,将风险查询重定向至 Opus 4.8)与 Mythos 5(无限制,仅供 Project Glasswing 合作伙伴使用)区分开来。根据早期数据,Fable 5 的分类器在不到 5% 的会话中被触发。

OpenAI 根据其 Preparedness Framework 将网络和生物领域列为”高风险”,采用更严格的分类器,并为经过验证的防御方提供 Trusted Access for Cyber 计划。

实际操作中:如果你的工作涉及漏洞利用、生物武器或模型蒸馏,预计两者都会拒绝或重定向你的请求。

如何选择?

针对以下需求…选择
解决大型代码仓库中的复杂问题Fable 5(SWE-Bench Pro 领先 +22 分)
长时间跨度的自主会话(数天)Fable 5
前沿数学研究GPT-5.5 Pro(FrontierMath 39.6%)
深度网络搜索与综合GPT-5.5 Pro(BrowseComp 90.1%)
高产量生产(成本重要)标准 GPT-5.5 或 Fable 5,视任务而定
复杂文档和 PDF 分析Fable 5
基于 Codex 终端的编码GPT-5.5
已投入 OpenAI 生态的团队GPT-5.5

对大多数团队而言,成熟的答案是不要只选一个:根据任务需求,将 GPT-5.5 或 Fable 5 作为日常主力模型,GPT-5.5 Pro 用于需要最高精度的任务,而 Opus 4.8($5/$25)作为经济实惠的备用选择。

在唯一可以进行直接对比的场合——基准测试表格中——Fable 5 在几乎所有指标上领先。但原始能力的领先并不总意味着它是日常工作的最佳工具。正确的选择取决于你的任务特征、预算以及你对每个供应商生态的投入程度。

主要来源: Anthropic — System Card: Claude Fable 5 & Claude Mythos 5 · OpenAI — Introducing GPT-5.5

同分类更多文章