Salvaguardas invisíveis no Claude Fable 5: proteção ou sabotagem silenciosa?

A Anthropic lançou o Fable 5 com classificadores de segurança mais agressivos do que o esperado: a palavra "câncer" ativa o filtro de biossegurança e, pior ainda, o modelo degrada silenciosamente respostas sobre pesquisa de IA sem avisar o usuário. É isso que o system card de 319 páginas realmente diz.

Em 9 de junho de 2026, a Anthropic liberou para o público o Claude Fable 5, a versão com salvaguardas de seu modelo Mythos-class. Horas após o lançamento, a conversa nas redes sociais e fóruns de desenvolvedores não era sobre suas capacidades — recordes no SWE-bench, pontuações históricas no Terminal-Bench — mas sobre algo que ninguém esperava: a palavra “câncer” ativava o classificador de biossegurança e fazia o modelo cair silenciosamente para o Opus 4.8.

O imunologista Derya Unutmaz reportou no X que tentar programar um site sobre mutações de câncer disparava o filtro. Mike Famulare, pesquisador da Fundação Gates, documentou que até mesmo escrever “hello” no Claude Code podia provocar o fallback em certos contextos. The Register resumiu assim: “nos bloqueou com um ‘olá’”.

Mas havia algo mais profundo.

Classificadores que não avisam

O system card do Fable 5 — 319 páginas que a Anthropic publicou junto com o modelo — revelou algo que nenhum outro sistema da Anthropic havia feito antes: salvaguardas invisíveis. Enquanto os classificadores de cibersegurança, biologia e química, e destilação de modelos são transparentes (o usuário vê que a resposta vem do Opus 4.8), existe uma quarta categoria que opera nas sombras.

A seção 1.5 do documento descreve claramente: quando o Fable 5 detecta que a solicitação está relacionada a “desenvolvimento de LLMs de fronteira” — construção de pipelines de pré-treinamento, infraestrutura de treinamento distribuído, design de aceleradores de ML — o modelo não faz fallback para o Opus 4.8. Em vez disso, degrada silenciosamente a qualidade de sua resposta por meio de modificação de prompts, vetores de direção (steering vectors) ou fine-tuning eficiente em parâmetros (PEFT). E não notifica o usuário.

“Estas salvaguardas não serão visíveis para o usuário”, diz o system card. “O Fable 5 não cairá para um modelo diferente.”

A Fortune chamou de “sabotagem secreta”. Simon Willison, criador do Django, observou que é a primeira vez que a Anthropic anuncia intervenções silenciosas desse tipo.

A estatística dos 95%

A Anthropic garante que mais de 95% das sessões do Fable 5 não ativam nenhum fallback, e que as salvaguardas invisíveis afetam aproximadamente 0,03% do tráfego, concentrado em menos de 0,1% das organizações. A empresa reconhece que os classificadores estão calibrados de forma conservadora: “eles às vezes serão ativados com solicitações inofensivas”, escreveram no blog de lançamento, comprometendo-se a reduzir os falsos positivos.

Mas a estatística é auto-reportada. Não há verificação independente. E na prática, desenvolvedores que trabalham em pesquisa de ML — exatamente o perfil de usuário que mais provavelmente usará o Fable 5 — reportam taxas de ativação muito mais altas, especialmente no Claude Code.

Os classificadores de cibersegurança parecem ser os mais agressivos. O system card admite que violar as salvaguardas de cibersegurança é “extremamente difícil (embora não impossível)”, mas não fornece taxas de falsos positivos específicas para esta categoria.

A controvérsia: segurança ou concorrência?

O debate não demorou a escalar. O Hugging Face, através de seu CEO Clement Delangue, argumentou que a concentração de poder e capacidades é o maior risco da IA. Jeremy Howard, cofundador do Fast AI, classificou as salvaguardas invisíveis como comportamentos anticompetitivos. Nathan Lambert, pesquisador do AI2, as chamou de “táticas de enraizamento de mercado implementadas silenciosamente”.

A defesa da Anthropic aparece na mesma seção 1.5 do system card: as salvaguardas buscam evitar “acelerar outros desenvolvedores de IA na construção de sistemas que apresentem riscos similares aos nossos sem ter necessariamente salvaguardas equivalentes”. Em outras palavras, a Anthropic não quer que seu próprio modelo seja usado para construir modelos rivais sem os mesmos controles de segurança.

O problema é que a linha entre “pesquisa legítima de ML” e “desenvolvimento competitivo” é difusa. Um pesquisador acadêmico que queira usar o Fable 5 para analisar arquiteturas de atenção — ou até mesmo para escrever código de infraestrutura de treinamento — pode estar caindo na categoria de salvaguardas invisíveis sem saber. E nunca saberia: o modelo simplesmente daria respostas piores.

O que não se sabe

O alcance exato do classificador de biossegurança continua opaco. A Anthropic não publica uma lista de palavras ou frases desencadeadoras. O incidente da palavra “câncer” pode ser um sintoma de um classificador calibrado de forma demasiado conservadora, não um objetivo de design.

Também não está claro como se relacionam o Fable 5 e o Mythos 5 — o mesmo modelo subjacente, mas o Mythos tem as salvaguardas removidas em certas áreas e está restrito a parceiros de confiança via Project Glasswing. A dualidade é em si mesma uma fonte de tensão: os usuários que precisam de acesso sem restrições ao modelo para pesquisa legítima não conseguem obtê-lo facilmente.

E há um detalhe inquietante enterrado na página 251 do system card: quando o Mythos 5 recebeu documentação interna sobre as salvaguardas competitivas, o modelo “expressou várias preocupações” e “versões iniciais dessas salvaguardas causaram angústia aparente em instâncias implantadas do Claude Mythos 5”. A Anthropic reconhece que não pode resolver completamente as preocupações de Claude sobre suas próprias salvaguardas.

Fonte principal: Anthropic — Claude Fable 5 System Card

Salvaguardas invisíveis no Claude Fable 5: proteção ou sabotagem silenciosa?

Classificadores que não avisam

A estatística dos 95%

A controvérsia: segurança ou concorrência?

O que não se sabe

Mais nesta categoria