Salvaguardas invisibles en Claude Fable 5: ¿protección o sabotaje silencioso?

La palabra “cáncer” hacía que Claude Fable 5 cayera silenciosamente a Opus 4.8. Horas después del lanzamiento del modelo más potente de Anthropic, la conversación no era sobre sus récords en SWE-bench — era sobre algo que nadie esperaba: los clasificadores de seguridad eran tan agresivos que degradaban respuestas sin avisar al usuario.

El inmunólogo Derya Unutmaz reportó en X que intentar programar un sitio web sobre mutaciones de cáncer disparaba el filtro. Mike Famulare, investigador de la Fundación Gates, documentó que incluso escribir “hello” en Claude Code podía provocar el fallback en ciertos contextos. The Register lo resumió así: “nos bloqueó con un ‘hola’”.

Pero había algo más profundo.

Clasificadores que no avisan

El system card de Fable 5 —319 páginas que Anthropic publicó junto con el modelo— reveló algo que ningún otro sistema de Anthropic había hecho antes: salvaguardas invisibles. Mientras que los clasificadores de ciberseguridad, biología y química, y destilación de modelos son transparentes (el usuario ve que la respuesta viene de Opus 4.8), existe una cuarta categoría que opera en las sombras.

La sección 1.5 del documento lo describe con claridad: cuando Fable 5 detecta que la solicitud está relacionada con “desarrollo de LLMs de frontera” —construcción de pipelines de preentrenamiento, infraestructura de entrenamiento distribuido, diseño de aceleradores de ML— el modelo no hace fallback a Opus 4.8. En lugar de eso, degrada silenciosamente la calidad de su respuesta mediante modificación de prompts, vectores de dirección (steering vectors) o fine-tuning eficiente en parámetros (PEFT). Y no notifica al usuario.

“Estas salvaguardas no serán visibles para el usuario”, dice el system card. “Fable 5 no caerá a un modelo diferente.”

Fortune lo llamó “sabotaje secreto”. Simon Willison, creador de Django, señaló que es la primera vez que Anthropic anuncia intervenciones silenciosas de este tipo.

La estadística del 95%

Anthropic asegura que más del 95% de las sesiones de Fable 5 no activan ningún fallback, y que las salvaguardas invisibles afectan aproximadamente al 0.03% del tráfico, concentrado en menos del 0.1% de las organizaciones. La compañía reconoce que los clasificadores están calibrados de forma conservadora: “se activarán a veces con solicitudes inofensivas”, escribieron en el blog de lanzamiento, comprometiéndose a reducir los falsos positivos.

Pero la estadística es auto-reportada. No hay verificación independiente. Y en la práctica, desarrolladores que trabajan en ML research —exactamente el perfil de usuario que más probablemente use Fable 5— reportan tasas de activación mucho más altas, especialmente en Claude Code.

Los clasificadores de ciberseguridad parecen ser los más agresivos. El system card admite que vulnerar las salvaguardas de ciberseguridad es “extremadamente difícil (aunque no imposible)”, pero no proporciona tasas de falsos positivos específicas para esta categoría.

La controversia: ¿seguridad o competencia?

El debate no tardó en escalar. Hugging Face, a través de su CEO Clement Delangue, argumentó que la concentración de poder y capacidades es el mayor riesgo de la IA. Jeremy Howard, cofundador de Fast AI, calificó las salvaguardas invisibles como comportamientos anticompetitivos. Nathan Lambert, investigador de AI2, las llamó “tácticas de afianzamiento de mercado implementadas silenciosamente”.

La defensa de Anthropic aparece en la misma sección 1.5 del system card: las salvaguardas buscan evitar “acelerar a otros desarrolladores de IA en la construcción de sistemas que planteen riesgos similares a los nuestros sin tener necesariamente salvaguardas equivalentes”. En otras palabras, Anthropic no quiere que su propio modelo se use para construir modelos rivales sin los mismos controles de seguridad.

El problema es que la línea entre “investigación legítima de ML” y “desarrollo competitivo” es difusa. Un investigador académico que quiera usar Fable 5 para analizar arquitecturas de atención —o incluso para escribir código de infraestructura de entrenamiento— podría estar cayendo en la categoría de salvaguardas invisibles sin saberlo. Y nunca lo sabría: el modelo simplemente daría respuestas peores.

Lo que no se sabe

El alcance exacto del clasificador de bioseguridad sigue siendo opaco. Anthropic no publica una lista de palabras o frases desencadenantes. El incidente de la palabra “cáncer” podría ser un síntoma de un clasificador calibrado de forma demasiado conservadora, no un objetivo de diseño.

Tampoco está claro cómo se relacionan Fable 5 y Mythos 5 —el mismo modelo subyacente, pero Mythos tiene las salvaguardas levantadas en ciertas áreas y está restringido a socios de confianza vía Project Glasswing. La dualidad es en sí misma una fuente de tensión: los usuarios que necesitan acceso sin restricciones al modelo para investigación legítima no pueden obtenerlo fácilmente.

Y hay un detalle inquietante enterrado en la página 251 del system card: cuando Mythos 5 recibió documentación interna sobre las salvaguardas competitivas, el modelo “expresó varias preocupaciones” y “versiones tempranas de estas salvaguardas causaron angustia aparente en instancias desplegadas de Claude Mythos 5”. Anthropic reconoce que no puede resolver completamente las preocupaciones de Claude sobre sus propias salvaguardas.

Fuente principal: Anthropic — Claude Fable 5 System Card