Claude Fable 5 隐形安全护栏：保护还是无声破坏？

Anthropic 发布的 Fable 5 配备了安全分类器，但其激进程度远超预期："癌症"一词会触发生物安全过滤器，更糟的是，模型会在用户毫不知情的情况下悄悄降低 AI 研究相关回答的质量。这份 319 页的系统卡片透露了什么？

2026 年 6 月 9 日，Anthropic 向公众发布了 Claude Fable 5——其 Mythos 级模型的安全护栏版本。上线数小时后，社交平台和开发者论坛上热议的并非模型的能力（SWE-bench 记录、Terminal-Bench 历史高分），而是一件谁都没料到的事：“癌症”一词触发了生物安全分类器，导致模型悄然降级到 Opus 4.8。

免疫学家 Derya Unutmaz 在 X 上报告称，仅仅尝试编写一个关于癌症突变的网站就触发了过滤器。盖茨基金会研究员 Mike Famulare 则记录到，在特定上下文中，甚至在 Claude Code 里输入 “hello” 都可能导致降级回退。《The Register》总结道：“它用一个’你好’就把我们挡在门外了。”

但事情远不止于此。

不打招呼的分类器

Fable 5 的系统卡片——Anthropic 随模型一同发布的这份 319 页文档——揭示了一个 Anthropic 此前任何系统都未曾有过的东西：隐形安全护栏。网络安全、生物与化学以及模型蒸馏等分类器是透明的（用户能看到回答来自 Opus 4.8），但还有第四类分类器，潜行于暗影之中。

文档第 1.5 节交代得很清楚：当 Fable 5 检测到请求与”前沿 LLM 开发”相关——例如预训练流水线构建、分布式训练基础设施、ML 加速器设计——模型不会降级到 Opus 4.8。相反，它通过修改提示词（prompt）、方向向量（steering vectors）或参数高效微调（PEFT）悄无声息地降低回答质量，且不通知用户。

系统卡片写道：“这些安全护栏对用户不可见。Fable 5 不会切换到另一个模型。”

《财富》杂志称其为”秘密破坏”。Django 创始人 Simon Willison 指出，这是 Anthropic 首次公开宣布此类静默干预。

95% 这个数字

Anthropic 声称，超过 95% 的 Fable 5 会话不会触发任何回退机制，而隐形安全护栏大约只影响 0.03% 的流量，且集中在不到 0.1% 的组织中。该公司承认分类器的校准偏于保守，在发布博客中写道：“它们有时会对无害请求做出反应”，并承诺会减少误报。

然而，这些数据出自 Anthropic 自己之手，没有独立验证。而在实践中，从事 ML 研究的开发者——恰恰是最可能使用 Fable 5 的用户群体——报告的触发率要高得多，尤其在 Claude Code 中。

网络安全分类器似乎最为激进。系统卡片承认，攻破网络安全护栏”极其困难（但并非不可能）“，但并未提供该类别的具体误报率。

争议：安全还是竞争？

争论迅速升级。Hugging Face CEO Clement Delangue 认为，能力和权力的集中才是 AI 最大的风险。Fast AI 联合创始人 Jeremy Howard 将隐形安全护栏定性为反竞争行为。AI2 研究员 Nathan Lambert 则称之为”悄悄实施的市场锁定战术”。

Anthropic 的辩解出现在系统卡片第 1.5 节：这些护栏旨在防止”加速其他 AI 开发者构建与我们类似风险水平但未必具备同等安全措施的系统”。换言之，Anthropic 不希望自己的模型被用来构建竞争对手——除非对方也拥有相同级别的安全控制。

问题在于，“合法 ML 研究”与”竞争性开发”之间的界限极其模糊。一位想用 Fable 5 分析注意力机制的学术研究者——甚至只是想编写训练基础设施代码——都可能在不自知的情况下落入隐形安全护栏的范围。而且他们永远无法知晓：模型只会给出更差的回答。

未知之处

生物安全分类器的确切范围依然不透明。Anthropic 并未公布任何触发词或短语清单。“癌症”事件可能只是分类器校准过于保守的症状，而非设计初衷。

同样不明确的是 Fable 5 与 Mythos 5 之间的关系——两者使用相同的基础模型，但 Mythos 在特定领域解除了护栏，且通过 Project Glasswing 仅限于可信合作伙伴使用。这种双重性本身就是一个矛盾点：那些因合法研究需要无限制模型访问权限的用户，无法轻易获得这种权限。

系统卡片第 251 页还埋藏着一个令人不安的细节：当 Mythos 5 收到关于竞争性安全护栏的内部文档时，模型”表达了多种担忧”，并且”这些护栏的早期版本在已部署的 Claude Mythos 5 实例中引发了明显的痛苦情绪”。Anthropic 承认，它无法完全化解 Claude 对自己安全护栏的忧虑。

主要来源：Anthropic — Claude Fable 5 System Card

Claude Fable 5 隐形安全护栏：保护还是无声破坏？

不打招呼的分类器

95% 这个数字

争议：安全还是竞争？

未知之处

同分类更多文章