Claude Fable 5 vs GPT-5.5 Pro: a fronteira da inteligência artificial em dois modelos

Comparativo completo entre Claude Fable 5 (Anthropic) e GPT-5.5 Pro (OpenAI), os dois modelos mais capazes disponíveis ao público. Benchmarks, preços, casos de uso e quando escolher cada um.

Desde o dia 9 de junho de 2026, o público tem acesso aos dois modelos mais capazes já lançados pela Anthropic e OpenAI: Claude Fable 5 e GPT-5.5 Pro. Ambos resumem o melhor que a inteligência artificial comercial pode oferecer hoje, mas o fazem com filosofias, preços e pontos fortes muito distintos.

Esta comparação não busca coroar um vencedor absoluto — não há um — mas traçar um mapa para que cada equipe saiba qual escolher de acordo com o trabalho que precisa resolver.

O contexto da comparação

Claude Fable 5 chegou ontem, 9 de junho, como a versão pública do Mythos 5, o modelo de classe Mythos da Anthropic que até agora estava disponível apenas para agências governamentais de cibersegurança. O Fable 5 é o mesmo modelo, mas com classificadores de segurança que redirecionam consultas de alto risco (ciber, biologia, destilação) para o Opus 4.8.

GPT-5.5 Pro foi lançado em 23 de abril de 2026 como o tier premium do GPT-5.5. É um modelo de raciocínio profundo projetado para tarefas que exigem máxima precisão: matemática de pesquisa, análise jurídica, ciência de dados de alto risco.

Ambos os modelos possuem uma janela de contexto de aproximadamente 1 milhão de tokens e podem gerar até 128 mil tokens de saída. Mas aí terminam as semelhanças.

Preços: a diferença é enorme

A diferença de preço entre os dois modelos é tão grande que o primeiro filtro de decisão deve ser econômico:

Modelo	Input / 1M tokens	Output / 1M tokens	Custo típico (100K in / 20K out)
Claude Fable 5	$10	$50	~$2.00
GPT-5.5 (padrão)	$5	$30	~$1.10
GPT-5.5 Pro	$30	$180	~$6.60
Claude Opus 4.8	$5	$25	~$0.75

Claude Fable 5 custa 3 vezes menos em input e 3,6 vezes menos em output que o GPT-5.5 Pro. Para um volume mensal de 10 milhões de tokens de saída, a diferença é de $500/mês contra $1,800/mês.

Há uma nuance importante: o GPT-5.5 aplica uma sobretaxa por contexto longo acima de 272 mil tokens de entrada (2× no input, 1,5× no output sobre toda a sessão). O Fable 5 não tem sobretaxa publicada. Para trabalhos com documentos muito extensos ou repositórios completos, a vantagem de preço do GPT-5.5 se erosiona, e a do GPT-5.5 Pro diretamente se inverte.

Benchmarks: a tabela completa

A única tabela que confronta diretamente ambos os modelos sob as mesmas condições foi publicada pela Anthropic. Onde os números se sobrepõem aos da OpenAI, ambas as fontes coincidem:

Benchmark	Categoria	Fable 5	GPT-5.5	Diferença
SWE-Bench Pro	Coding agentic	80.3%	58.6%	+21.7
FrontierCode Diamond	Coding avançado	29.3%	5.7%	+23.6
Terminal-Bench 2.1	Coding terminal	88.0%*	83.4%†	+4.6
GDPval-AA (ELO)	Trabalho de conhecimento	1932	1769	+163
GDP.pdf (sem tools)	Visão documentos	29.8%	24.9%	+4.9
OSWorld-Verified	Uso de computador	85.0%	78.7%	+6.3
AutomationBench	Uso de ferramentas	17.4%	12.9%	+4.5
Legal Agent Benchmark	Raciocínio jurídico	13.3%	2.1%	+11.2
Humanity’s Last Exam	Raciocínio multidisciplinar	64.5%*	52.2%	+12.3
HealthBench Professional	Diagnóstico médico	66.0%*	51.8%	+14.2
ExploitBench (Cap%)	Cibersegurança	78.0%*	34.0%	+44.0

* Marca do modelo Mythos 5 sem restrições; no Fable 5 esses domínios são redirecionados para o Opus 4.8. † GPT-5.5 via Codex CLI, seu próprio harness de avaliação.

Fable 5 lidera em todas as linhas da tabela. As diferenças mais notáveis estão em coding agentic: FrontierCode Diamond mostra uma diferença de 23,6 pontos, e SWE-Bench Pro de 21,7 pontos.

E o GPT-5.5 Pro? A variante Pro do GPT-5.5 se destaca em benchmarks que a Anthropic não incluiu em sua tabela:

FrontierMath Tier 4: 39.6% — a avaliação mais difícil de matemática de pesquisa
BrowseComp: 90.1% — busca e síntese de informações em múltiplas fontes web
ARC-AGI-2: 85.0% — raciocínio abstrato e adaptação a tarefas novas
GPQA Diamond: 93.6% — raciocínio STEM em nível de doutorado
MRCR v2 (512K-1M): 74.0% — recuperação em contexto longo

Onde cada um ganha

Claude Fable 5

O Fable 5 tem sua força no trabalho agentico de horizonte longo: sessões autônomas que podem durar dias, delegando tarefas a subagentes e validando seu próprio trabalho. Ele é projetado para migrações de código massivas, resolução de issues em repositórios complexos e análises de múltiplas etapas.

Vantagem chave: eficiência de tokens. Clientes iniciais relatam que o Fable 5 completa tarefas complexas usando um terço dos tokens que o GPT-5.5 precisa para igualar o resultado. Em trabalhos de raciocínio de múltiplas etapas, o custo real pode ser menor mesmo que o preço por token seja mais alto.

Em benchmarks multimodais, o Fable 5 obtém média de 92,4 vs 70,4 do GPT-5.5 (BenchLM), com vantagens em documentos complexos (GDP.pdf), uso de computador (OSWorld) e raciocínio jurídico.

GPT-5.5 Pro

O GPT-5.5 Pro é o modelo para precisão máxima em nichos específicos: matemática de fronteira em pesquisa, busca profunda na web e raciocínio abstrato. Em FrontierMath Tier 4 (39,6%) e BrowseComp (90,1%) ele está sozinho ou claramente à frente de qualquer alternativa pública.

Sua integração com Codex é outra vantagem real: mais de 85% do pessoal da OpenAI usa o Codex semanalmente, e o GPT-5.5 é ajustado para completar tarefas de terminal com menos tokens que seu predecessor. Terminal-Bench 2.0 a 82,7% é seu resultado emblemático em coding.

Para equipes que já vivem no ecossistema OpenAI (Codex, ChatGPT, API), o GPT-5.5 Pro é a evolução natural sem atrito de integração.

Postura de segurança: convergência

Ambos os laboratórios chegaram à mesma conclusão: cibersegurança e biologia são domínios que requerem acesso controlado.

A Anthropic resolveu isso separando o Fable 5 (com classificadores que redirecionam consultas de risco para o Opus 4.8) do Mythos 5 (sem restrições, apenas para parceiros do Project Glasswing). Os classificadores do Fable 5 são ativados em menos de 5% das sessões, segundo dados iniciais.

A OpenAI classifica ciber e biologia como “High” sob seu Preparedness Framework, com classificadores mais rigorosos e um programa Trusted Access for Cyber para defensores verificados.

Na prática: se seu trabalho envolve vulnerabilidades, armamento biológico ou destilação de modelos, espere recusas ou redirecionamentos em ambos.

Qual escolher?

Para isso…	Escolha
Resolver issues complexos em uma base de código grande	Fable 5 (SWE-Bench Pro +22 pts)
Sessões autônomas de longa duração (dias)	Fable 5
Matemática de pesquisa avançada	GPT-5.5 Pro (FrontierMath 39,6%)
Busca e síntese web profunda	GPT-5.5 Pro (BrowseComp 90,1%)
Alto volume de produção (custo importa)	GPT-5.5 padrão ou Fable 5 dependendo da tarefa
Análise de documentos e PDFs complexos	Fable 5
Coding focado em terminal com Codex	GPT-5.5
Equipes já investidas no ecossistema OpenAI	GPT-5.5

A resposta madura para a maioria das equipes é não escolher apenas um: usar GPT-5.5 ou Fable 5 como daily driver dependendo da tarefa, GPT-5.5 Pro para os trabalhos que exigem máxima precisão, e Opus 4.8 a $5/$25 como opção econômica de backup.

No único lugar onde a comparação é direta — a tabela de benchmarks —, o Fable 5 lidera em quase todas as métricas. Mas a liderança em capacidades brutas nem sempre se traduz na melhor ferramenta para o trabalho do dia a dia. A decisão correta depende do perfil das suas tarefas, do seu orçamento e do seu investimento no ecossistema de cada fornecedor.

Fonte principal: Anthropic — System Card: Claude Fable 5 & Claude Mythos 5 · OpenAI — Introducing GPT-5.5