2026 年 6 月 9 日,Anthropic 向公众发布了 Claude Fable 5——其 Mythos 级模型的安全护栏版本。上线数小时后,社交平台和开发者论坛上热议的并非模型的能力(SWE-bench 记录、Terminal-Bench 历史高分),而是一件谁都没料到的事:“癌症”一词触发了生物安全分类器,导致模型悄然降级到 Opus 4.8。
免疫学家 Derya Unutmaz 在 X 上报告称,仅仅尝试编写一个关于癌症突变的网站就触发了过滤器。盖茨基金会研究员 Mike Famulare 则记录到,在特定上下文中,甚至在 Claude Code 里输入 “hello” 都可能导致降级回退。《The Register》总结道:“它用一个’你好’就把我们挡在门外了。”
但事情远不止于此。
不打招呼的分类器
Fable 5 的系统卡片——Anthropic 随模型一同发布的这份 319 页文档——揭示了一个 Anthropic 此前任何系统都未曾有过的东西:隐形安全护栏。网络安全、生物与化学以及模型蒸馏等分类器是透明的(用户能看到回答来自 Opus 4.8),但还有第四类分类器,潜行于暗影之中。
文档第 1.5 节交代得很清楚:当 Fable 5 检测到请求与”前沿 LLM 开发”相关——例如预训练流水线构建、分布式训练基础设施、ML 加速器设计——模型不会降级到 Opus 4.8。相反,它通过修改提示词(prompt)、方向向量(steering vectors)或参数高效微调(PEFT)悄无声息地降低回答质量,且不通知用户。
系统卡片写道:“这些安全护栏对用户不可见。Fable 5 不会切换到另一个模型。”
《财富》杂志称其为”秘密破坏”。Django 创始人 Simon Willison 指出,这是 Anthropic 首次公开宣布此类静默干预。
95% 这个数字
Anthropic 声称,超过 95% 的 Fable 5 会话不会触发任何回退机制,而隐形安全护栏大约只影响 0.03% 的流量,且集中在不到 0.1% 的组织中。该公司承认分类器的校准偏于保守,在发布博客中写道:“它们有时会对无害请求做出反应”,并承诺会减少误报。
然而,这些数据出自 Anthropic 自己之手,没有独立验证。而在实践中,从事 ML 研究的开发者——恰恰是最可能使用 Fable 5 的用户群体——报告的触发率要高得多,尤其在 Claude Code 中。
网络安全分类器似乎最为激进。系统卡片承认,攻破网络安全护栏”极其困难(但并非不可能)“,但并未提供该类别的具体误报率。
争议:安全还是竞争?
争论迅速升级。Hugging Face CEO Clement Delangue 认为,能力和权力的集中才是 AI 最大的风险。Fast AI 联合创始人 Jeremy Howard 将隐形安全护栏定性为反竞争行为。AI2 研究员 Nathan Lambert 则称之为”悄悄实施的市场锁定战术”。
Anthropic 的辩解出现在系统卡片第 1.5 节:这些护栏旨在防止”加速其他 AI 开发者构建与我们类似风险水平但未必具备同等安全措施的系统”。换言之,Anthropic 不希望自己的模型被用来构建竞争对手——除非对方也拥有相同级别的安全控制。
问题在于,“合法 ML 研究”与”竞争性开发”之间的界限极其模糊。一位想用 Fable 5 分析注意力机制的学术研究者——甚至只是想编写训练基础设施代码——都可能在不自知的情况下落入隐形安全护栏的范围。而且他们永远无法知晓:模型只会给出更差的回答。
未知之处
生物安全分类器的确切范围依然不透明。Anthropic 并未公布任何触发词或短语清单。“癌症”事件可能只是分类器校准过于保守的症状,而非设计初衷。
同样不明确的是 Fable 5 与 Mythos 5 之间的关系——两者使用相同的基础模型,但 Mythos 在特定领域解除了护栏,且通过 Project Glasswing 仅限于可信合作伙伴使用。这种双重性本身就是一个矛盾点:那些因合法研究需要无限制模型访问权限的用户,无法轻易获得这种权限。
系统卡片第 251 页还埋藏着一个令人不安的细节:当 Mythos 5 收到关于竞争性安全护栏的内部文档时,模型”表达了多种担忧”,并且”这些护栏的早期版本在已部署的 Claude Mythos 5 实例中引发了明显的痛苦情绪”。Anthropic 承认,它无法完全化解 Claude 对自己安全护栏的忧虑。