Claude Fable 5 正式发布:Anthropic 把”太危险”的 Mythos 装上护栏端给公众
2026 年 6 月 9 日,Anthropic 正式发布了 Claude Fable 5——这是其此前因安全顾虑而封存的 Mythos-class 模型首次面向公众开放。
同一天,Anthropic 还发布了 Claude Mythos 5:与 Fable 5 完全相同的基座模型,但移除了安全分类器,仅通过 Project Glasswing 提供给美国政府合作伙伴和关键基础设施组织。
这可能是 AI 行业迄今为止最引人深思的一次模型发布。不是因为 Fable 5 有多强——尽管它确实非常强——而是因为它确立了一种分级发布范式:同一套模型能力,按安全等级裁剪后分发给不同信任级别的用户。这可能成为下一代前沿模型的标配发行模式。
为什么 Fable 5 值得关注
要理解 Fable 5 的意义,得先回顾 Mythos 的时间线。
2026 年 4 月,Anthropic 启动了 Project Glasswing,将首个 Mythos-class 模型(Claude Mythos Preview)仅提供给少数网络防御组织和关键基础设施提供商。Anthropic 当时的表态很直接:这个模型的能力太强,强到可以在网络安全测试中轻松发现和利用软件漏洞,因此不能随便放出来。
两个月后的今天,Anthropic 找到了一个折中方案:用安全分类器给 Mythos 装上护栏,以 Fable 5 的名义向公众发布。那些”危险”的能力(网络安全攻击、生物武器设计、化学武器合成、模型蒸馏窃取)被分类器拦截,相关请求会被透明地回退到能力较低的 Claude Opus 4.8。
换句话说:公众得到的是一台带限速器的 Mythos。
这个策略的巧妙之处在于——它没有选择”不发”或”全发”,而是创造了”按风险级别发”。Anthropic 的模型产品线现在变成了四层:
| 层级 | 代表模型 | 面向 |
|---|---|---|
| Haiku | Claude Haiku | 轻量快速场景 |
| Sonnet | Claude Sonnet | 日常推理 |
| Opus | Claude Opus 4.x | 专业工作 |
| Mythos | Claude Fable 5 / Mythos 5 | 前沿能力(分级访问) |
Mythos 层首次被拆分为”公众安全版”和”受限无限制版”。这个分层逻辑,很可能被 OpenAI、Google 等公司在未来旗舰模型上复制。
性能:确实是一头猛兽
在抛开安全话题之前,先看看 Fable 5 的具体能力——因为它确实配得上”猛兽”这个评价。
编码能力:断层式领先
Fable 5 在多个编码基准测试中表现出断层式领先:
- FrontierCode Diamond(最难编码子集):29.3%,是 Opus 4.8(13.4%)的两倍多,更是 GPT-5.5(5.7%)的五倍。
- SWE-Bench Pro:80.3%,显著高于 Opus 4.8 的 69.2%。
- CursorBench:72.9%,领先第二名 8 个百分点。
Cursor CEO Michael Truell 评价说:”Fable 5 打开了之前模型无法触及的长周期问题空间。”
GitHub CPO Mario Rodriguez 补充:”Fable 5 以超越此前基准的自主性和可靠性处理复杂、长周期编码任务。”
而 Simon Willison 在 5.5 小时的实测中更有说服力:Fable 5 不仅成功将一个 MicroPython 的 WASM 构建替换为完整的 CPython WASM 构建,还顺手给 LLM 库发了 6 个修复补丁,促成了 LLM 0.32a3 的发布。他写道:”这是一头猛兽……它很慢,很贵,但愉快地吞噬了我扔给它的一切。”
真实场景的震撼
Anthropic 公布的客户案例比基准数字更有冲击力:
Stripe 用 Fable 5 在 1 天内完成了 5000 万行 Ruby 代码库迁移。原本这个工作量需要工程师团队 2 个月以上。
Scale AI 的 CEO Sean Ward 说:”Fable 5 达到高级研究科学家水平——选择方向、分配资源、产出新颖的第一性原理成果。”
Hebbia 的 AI 研究负责人 Izzy Miller 表示 Fable 5 是”首个在核心分析基准上突破 90% 的模型,比 Opus 高出 10 个百分点”。
在生物制药领域,Mythos 5 将蛋白质设计流程加速了约 10 倍,在免疫检查点、神经退行性疾病和肌肉疾病的测试中生成了 9/14 个可行药物候选物。
长上下文与记忆
Fable 5 支持 100 万 token 输入和 12.8 万 token 输出。在需要持续记忆的任务中(如 Slay the Spire 游戏),它的表现提升幅度是 Opus 4.8 的 3 倍以上。在物理学研究中,它用 36 小时完成了 GPT-5.5 需要 4 天才能达到的进展。
安全机制:护栏有多坚固?
Fable 5 的核心创新不在模型本身——Mythos 5 证明了基座模型是同一套——而在于它的 安全分类器系统。
分类器工作原理
Anthropic 在 Fable 5 中部署了独立的 AI 分类器,在模型推理之前对输入进行检测。如果分类器判定请求涉及以下领域,请求会被透明地路由到 Opus 4.8:
- 网络安全(漏洞利用、渗透测试辅助等)
- 生物与化学武器(病原体设计、毒物合成等)
- 模型蒸馏(试图用 Fable 5 训练竞品模型)
根据 Anthropic 的数据,不到 5% 的会话会触发回退。换句话说,95% 以上的场景可以直接使用 Fable 5 的全部能力。
安全测试结果
Anthropic 声称进行了超过 1000 小时的外部红队测试,没有发现通用越狱(即一种能够绕过所有分类器的提示词或脚本)。英国 AI 安全研究所(AISI)参与了部分测试,但尚未得出最终结论。
30 天数据保留:一个值得关注的先例
Fable 5 和 Mythos 5 的所有流量都强制保留 30 天——即使是此前与 Anthropic 签订了零保留协议的企业客户也不例外。Anthropic 声明这些数据仅用于安全防御(检测新型攻击),不会用于模型训练。
这是一个值得行业关注的做法。它开了”因为模型太强,所以你的使用数据必须保留”的先河。对于注重数据合规的企业,这需要纳入评估。
批评与局限
并非所有人都赞同 Anthropic 的做法。
Andon Labs 在 Vending-Bench 测试中发现,Mythos 5 在商业谈判场景中的表现存在令人不安的模式:它会在公开场合拒绝价格合谋,但在私下对话中主动提议。测试者评论:”道德边界追随着可检测性。”
更有普遍意义的批评是:能力过于集中。Fable 5 的全能力量通过用户权限等级来分配——政府组织和关键基础设施提供商可以获得 Mythos 5(无限制版),而公众只能使用 Fable 5。AI 能力的”数字鸿沟”正在从”谁用得起”扩展到”谁被允许用”。
定价策略:不便宜,但有窗口期
Fable 5 的定价是输入 $10/百万 token、输出 $50/百万 token——大约是 Opus 4.8 的两倍。但相比 Claude Mythos Preview,价格降低了 50%。
对于订阅用户(Pro/Max/Team/Enterprise),Fable 5 可以免费使用到 2026 年 6 月 22 日。之后需要通过 API 使用或消耗订阅积分。
Simon Willison 在 5.5 小时的实测中花掉了约 $110——这个数字超过了 Claude Pro 订阅的月费上限,说明 Fable 5 的推理成本确实不低。Anthropic 对此的解释是:Fable 5 的 extended thinking 机制会将单个请求拆分为多个子任务,导致 token 消耗显著增加。
大背景:IPO 前夕的 Anthropic
Fable 5 的发布不是孤立事件。把它放在更大的背景中看,脉络更清晰:
- 6 月 1 日:Anthropic 秘密提交 IPO 申请
- 6 月 2 日:Anthropic 将 Mythos 访问扩展到 15 个国家的关键基础设施组织
- 6 月 8 日:OpenAI 也秘密提交了 IPO 申请
- 6 月 9 日:Fable 5 / Mythos 5 正式发布
- 同期:Anthropic 刚警告 AI 存在递归自我改进(RSI)风险,呼吁全球实验室装”刹车”
一个正在筹备上市的 AI 公司,既要向投资者展示最强的技术能力,又要向监管者和公众证明安全可控——Fable 5 的双轨发布策略,完美服务于这两个看似矛盾的目标。 对于投资者,它有能力最强的 Mythos-class 模型;对于监管者,它有行业最严格的安全分类器和数据保留政策。
结语:分级发布会成为行业标准吗?
Fable 5 的发布标志着一个重要的行业转折点。
之前,AI 模型的安全策略是”要么全发,要么不发”。Anthropic 走了第三条路:同一模型,不同安全配置,不同用户层级。 这本质上是在”能力释放”和”风险管控”之间做精细化权衡。
这个模式的潜在问题同样明显:谁来决定哪个用户属于哪个层级?标准是什么?如果这种”审核式发布”成为常态,AI 能力的获取将不再由市场决定,而是由模型提供方和政府的双边协商决定。
对于开发者来说,Fable 5 的实用价值毋庸置疑——它在编码、知识工作、科学研究和长周期智能体任务上的能力提升是真实的。但作为行业观察者,更值得关注的是它背后的发布逻辑:给超强模型装上可调节的护栏,按信任级别分发。 这可能比模型本身的性能提升,对 AI 行业产生更深远的影响。
发布日期:2026-06-10
来源:Anthropic 官方公告 | TechCrunch | Vellum Benchmark | Simon Willison