Desde o dia 9 de junho de 2026, o público tem acesso aos dois modelos mais capazes já lançados pela Anthropic e OpenAI: Claude Fable 5 e GPT-5.5 Pro. Ambos resumem o melhor que a inteligência artificial comercial pode oferecer hoje, mas o fazem com filosofias, preços e pontos fortes muito distintos.
Esta comparação não busca coroar um vencedor absoluto — não há um — mas traçar um mapa para que cada equipe saiba qual escolher de acordo com o trabalho que precisa resolver.
O contexto da comparação
Claude Fable 5 chegou ontem, 9 de junho, como a versão pública do Mythos 5, o modelo de classe Mythos da Anthropic que até agora estava disponível apenas para agências governamentais de cibersegurança. O Fable 5 é o mesmo modelo, mas com classificadores de segurança que redirecionam consultas de alto risco (ciber, biologia, destilação) para o Opus 4.8.
GPT-5.5 Pro foi lançado em 23 de abril de 2026 como o tier premium do GPT-5.5. É um modelo de raciocínio profundo projetado para tarefas que exigem máxima precisão: matemática de pesquisa, análise jurídica, ciência de dados de alto risco.
Ambos os modelos possuem uma janela de contexto de aproximadamente 1 milhão de tokens e podem gerar até 128 mil tokens de saída. Mas aí terminam as semelhanças.
Preços: a diferença é enorme
A diferença de preço entre os dois modelos é tão grande que o primeiro filtro de decisão deve ser econômico:
| Modelo | Input / 1M tokens | Output / 1M tokens | Custo típico (100K in / 20K out) |
|---|---|---|---|
| Claude Fable 5 | $10 | $50 | ~$2.00 |
| GPT-5.5 (padrão) | $5 | $30 | ~$1.10 |
| GPT-5.5 Pro | $30 | $180 | ~$6.60 |
| Claude Opus 4.8 | $5 | $25 | ~$0.75 |
Claude Fable 5 custa 3 vezes menos em input e 3,6 vezes menos em output que o GPT-5.5 Pro. Para um volume mensal de 10 milhões de tokens de saída, a diferença é de $500/mês contra $1,800/mês.
Há uma nuance importante: o GPT-5.5 aplica uma sobretaxa por contexto longo acima de 272 mil tokens de entrada (2× no input, 1,5× no output sobre toda a sessão). O Fable 5 não tem sobretaxa publicada. Para trabalhos com documentos muito extensos ou repositórios completos, a vantagem de preço do GPT-5.5 se erosiona, e a do GPT-5.5 Pro diretamente se inverte.
Benchmarks: a tabela completa
A única tabela que confronta diretamente ambos os modelos sob as mesmas condições foi publicada pela Anthropic. Onde os números se sobrepõem aos da OpenAI, ambas as fontes coincidem:
| Benchmark | Categoria | Fable 5 | GPT-5.5 | Diferença |
|---|---|---|---|---|
| SWE-Bench Pro | Coding agentic | 80.3% | 58.6% | +21.7 |
| FrontierCode Diamond | Coding avançado | 29.3% | 5.7% | +23.6 |
| Terminal-Bench 2.1 | Coding terminal | 88.0%* | 83.4%† | +4.6 |
| GDPval-AA (ELO) | Trabalho de conhecimento | 1932 | 1769 | +163 |
| GDP.pdf (sem tools) | Visão documentos | 29.8% | 24.9% | +4.9 |
| OSWorld-Verified | Uso de computador | 85.0% | 78.7% | +6.3 |
| AutomationBench | Uso de ferramentas | 17.4% | 12.9% | +4.5 |
| Legal Agent Benchmark | Raciocínio jurídico | 13.3% | 2.1% | +11.2 |
| Humanity’s Last Exam | Raciocínio multidisciplinar | 64.5%* | 52.2% | +12.3 |
| HealthBench Professional | Diagnóstico médico | 66.0%* | 51.8% | +14.2 |
| ExploitBench (Cap%) | Cibersegurança | 78.0%* | 34.0% | +44.0 |
* Marca do modelo Mythos 5 sem restrições; no Fable 5 esses domínios são redirecionados para o Opus 4.8. † GPT-5.5 via Codex CLI, seu próprio harness de avaliação.
Fable 5 lidera em todas as linhas da tabela. As diferenças mais notáveis estão em coding agentic: FrontierCode Diamond mostra uma diferença de 23,6 pontos, e SWE-Bench Pro de 21,7 pontos.
E o GPT-5.5 Pro? A variante Pro do GPT-5.5 se destaca em benchmarks que a Anthropic não incluiu em sua tabela:
- FrontierMath Tier 4: 39.6% — a avaliação mais difícil de matemática de pesquisa
- BrowseComp: 90.1% — busca e síntese de informações em múltiplas fontes web
- ARC-AGI-2: 85.0% — raciocínio abstrato e adaptação a tarefas novas
- GPQA Diamond: 93.6% — raciocínio STEM em nível de doutorado
- MRCR v2 (512K-1M): 74.0% — recuperação em contexto longo
Onde cada um ganha
Claude Fable 5
O Fable 5 tem sua força no trabalho agentico de horizonte longo: sessões autônomas que podem durar dias, delegando tarefas a subagentes e validando seu próprio trabalho. Ele é projetado para migrações de código massivas, resolução de issues em repositórios complexos e análises de múltiplas etapas.
Vantagem chave: eficiência de tokens. Clientes iniciais relatam que o Fable 5 completa tarefas complexas usando um terço dos tokens que o GPT-5.5 precisa para igualar o resultado. Em trabalhos de raciocínio de múltiplas etapas, o custo real pode ser menor mesmo que o preço por token seja mais alto.
Em benchmarks multimodais, o Fable 5 obtém média de 92,4 vs 70,4 do GPT-5.5 (BenchLM), com vantagens em documentos complexos (GDP.pdf), uso de computador (OSWorld) e raciocínio jurídico.
GPT-5.5 Pro
O GPT-5.5 Pro é o modelo para precisão máxima em nichos específicos: matemática de fronteira em pesquisa, busca profunda na web e raciocínio abstrato. Em FrontierMath Tier 4 (39,6%) e BrowseComp (90,1%) ele está sozinho ou claramente à frente de qualquer alternativa pública.
Sua integração com Codex é outra vantagem real: mais de 85% do pessoal da OpenAI usa o Codex semanalmente, e o GPT-5.5 é ajustado para completar tarefas de terminal com menos tokens que seu predecessor. Terminal-Bench 2.0 a 82,7% é seu resultado emblemático em coding.
Para equipes que já vivem no ecossistema OpenAI (Codex, ChatGPT, API), o GPT-5.5 Pro é a evolução natural sem atrito de integração.
Postura de segurança: convergência
Ambos os laboratórios chegaram à mesma conclusão: cibersegurança e biologia são domínios que requerem acesso controlado.
A Anthropic resolveu isso separando o Fable 5 (com classificadores que redirecionam consultas de risco para o Opus 4.8) do Mythos 5 (sem restrições, apenas para parceiros do Project Glasswing). Os classificadores do Fable 5 são ativados em menos de 5% das sessões, segundo dados iniciais.
A OpenAI classifica ciber e biologia como “High” sob seu Preparedness Framework, com classificadores mais rigorosos e um programa Trusted Access for Cyber para defensores verificados.
Na prática: se seu trabalho envolve vulnerabilidades, armamento biológico ou destilação de modelos, espere recusas ou redirecionamentos em ambos.
Qual escolher?
| Para isso… | Escolha |
|---|---|
| Resolver issues complexos em uma base de código grande | Fable 5 (SWE-Bench Pro +22 pts) |
| Sessões autônomas de longa duração (dias) | Fable 5 |
| Matemática de pesquisa avançada | GPT-5.5 Pro (FrontierMath 39,6%) |
| Busca e síntese web profunda | GPT-5.5 Pro (BrowseComp 90,1%) |
| Alto volume de produção (custo importa) | GPT-5.5 padrão ou Fable 5 dependendo da tarefa |
| Análise de documentos e PDFs complexos | Fable 5 |
| Coding focado em terminal com Codex | GPT-5.5 |
| Equipes já investidas no ecossistema OpenAI | GPT-5.5 |
A resposta madura para a maioria das equipes é não escolher apenas um: usar GPT-5.5 ou Fable 5 como daily driver dependendo da tarefa, GPT-5.5 Pro para os trabalhos que exigem máxima precisão, e Opus 4.8 a $5/$25 como opção econômica de backup.
No único lugar onde a comparação é direta — a tabela de benchmarks —, o Fable 5 lidera em quase todas as métricas. Mas a liderança em capacidades brutas nem sempre se traduz na melhor ferramenta para o trabalho do dia a dia. A decisão correta depende do perfil das suas tarefas, do seu orçamento e do seu investimento no ecossistema de cada fornecedor.
Fonte principal: Anthropic — System Card: Claude Fable 5 & Claude Mythos 5 · OpenAI — Introducing GPT-5.5