Fable 5 登顶所有编码基准线,Cline 实测 Terminal-Bench 2.1 拿了 88.0%,比 GPT-5.5 高出 4.6%。但与此同时,一个 DeFi 工程师说它对 smart contract 说了不,一个 geth 核心开发者发现自己的加密工作被无声路由到了旧模型。开发者社区陷入了罕见的对立。
它在做什么
2026 年 6 月 10 日,Anthropic 发布 Claude Fable 5。它是 Mythos 5(同代最强底层模型)的安全配置版本。大部分 prompt 走 Fable 5,但当检测到 cybersecurity、biology、chemistry、distillation 等关键词时,自动路由到 Opus 4.8。Anthropic 的说法是「<5% 的 session 会命中」。(已上线,Vercel AI Gateway 同步支持)
Mythos 5 本身是目前最强的底层模型,METR 评测得分是超指数级增长级别。但 Mythos 5 不对公众开放——Fable 5 是它唯一的「公开窗口」。
为什么大家都在说
社区的反应分裂得很彻底。
支持方的名单很长。前 OpenAI/Tesla AI 高管 Karpathy 亲自下场背书,说 Fable 5 是 “major version bump 级别的 step change”,软工、知识、agentic 全方向 SOTA。Claude Code 负责人也说这是他自 Opus 4.5 以来感受到的最大跨越。
但另一边的批评同样激烈。
最让开发者愤怒的事情是这样的:一个做 DeFi 的人,让 Fable 5 做 smart contract audit,被直接拒绝。 一个 geth 核心开发者,同时在做密码学和生物信息两个方向的开发——两个方向都被自动路由到了旧模型。他发了一条推文,大意是「太棒了,我正在做的加密和生物工作全都降级了」。
有人让自己的 agent 系统性地整理了反 Fable 的舆情,他的原话是「我见过开发者社区对一次新模型发布最大的怒气」。焦点集中在一个新造的标签上——Misanthropic。
更深层的问题在这里:Fable 5 的安全路由是无声的。 用户甚至不一定知道自己的提问被转到了 Opus 4.8。你不是被拒绝了,你是被降级了——而且没人告诉你。
更麻烦的是,有人指出一个逻辑矛盾:如果你不能用自己的最强模型来优化和改进 AI 本身,那这本身就等于退步。安全围栏锁住的不只是危险内容,也锁住了推动 AI 往前走的那些人。
就在同一天,Anthropic 的 CEO 发了一篇政策长文,核心论点是「AI 进步速度远超政策制定体系的响应能力」。但有批评者指出,这句话放在 Fable 5 的语境下,恰好是自我反驳——你承认能力跑在政策前面,但又用安全路由锁住了能力;那到底是能力在跑,还是你自己不想让它跑?
Elon Musk 也转了一条推文说「Fable 5 96% 的时间在说谎」,xAI 选择在「诚实度」这个维度开辟了跟 Anthropic 的第二战场。
深一层分析
这场争议的焦点,在模型本身之外。Fable 5 的智能水平几乎没有争议。
Anthropic 用安全路由代替了用户选择权。
在 Fable 5 之前,模型的安全策略是「训练时对齐」——在训练阶段注入安全偏好,用户面对的是一个已经对齐好的模型,但给它什么 prompt 仍然是用户的事。Fable 5 的做法是「运行时路由」——在推理层对用户的输入做分类,一旦命中某些「敏感」词根,不再是模型拒绝回答,而是直接换模型。
这对两种人影响完全不同。
对普通用户,<5% 的命中率意味着几乎不会感知到差异。你大概率不会在日常编码中写 bio-weapon-synthesis protocol 这种句子。
但对前沿研究者——密码学工程师、生物信息学家、安全研究员——这个路由规则意味着他们在使用「最新最强模型」时,被无声地降级了。他们从事的只是自己行业日常范围内的正常工作。geth 核心开发者在加密和生物两个方向上的工作都被路由,这更像结构性覆盖,远不止单个敏感词命中那种偶发性。
但另一个矛盾正在浮现:这些 benchmark 分数到底有多少参考价值?
就在 Fable 5 发布的同时,OpenAI 推理模型的核心缔造者 Noam Brown 发了一篇长文炮轰整个行业。他的核心论点是:同一个模型,给它一块钱想事情和给它一万块钱想事情,跑出来的分数天差地别。但现在所有的排行榜,都不告诉你这个模型花了多少钱跑出来的成绩。
他举了一个例子:GPT-5.5 在 benchmark 上看着只比 5.4 好一点,但一旦把 x 轴换成推理预算,5.5 的曲线远远甩开 5.4。MRC-R v2 在长上下文测试中,5.4 得 36.6%,5.5 得 74.0%——翻了一倍。但这个维度在标准 benchmark 表格里根本不存在。
Brown 的原话是:「当模型的能力是推理计算量的函数时,一个没有 x 轴的 benchmark 分数,就是一个没有单位的物理量。」
这恰好能解释 Fable 5 的另一个怪象:benchmark 很强,但很多日常用户感觉它跟 Opus 4.8 拉不开明显差距。Fable 5 的日常表现不如预期,很可能跟测试环境和实际使用的推理预算差异有关。
换句话说,你看到了 Fable 5 的上限,但 Anthropic 能让你用到的,可能只是它的一部分。
收尾
我打开 Claude Code 试了一下。Fable 5 写代码是真的快。那种「你还没想好完整的指令,它已经猜到了」的体验,比 GPT-5.5 明显更流畅。
但我也在想两个问题。
第一个,Noam Brown 说的对——benchmark 确实在骗人,不问推理预算只比分数,等于在比谁更会考试而不是谁更聪明。Fable 5 的真实能力,可能比榜单上显示的还要强。但问题是,安全路由让我们能接触到多少这个「真实能力」?
第二个,如果我是那个做密码学的人,每天的工作被无声降级,我还开心得起来吗?如果最强模型不让我用它来改进 AI 本身,那这个「最强」是不是也要打个引号?
两条线,都是真的。