Fable 5 敢做你要敢扛

AI 把”做”的成本打到了接近零，但”拍板”的门槛反而比以前更高了。因为出事了坐牢的是你，不是它。

Claude Fable 5 是 Anthropic 第一款”Mythos 级”模型放给了普通用户用。什么叫 Mythos 级？就是能力高到有安全风险的级别——网络安全、生物化学这些领域，这个模型能做的事已经到了需要管控的门槛。

Anthropic 的做法：同一个底层模型，做两个版本。Fable 5 给所有人，但碰到安全相关的问题，自动降级到上一代 Opus 4.8 来回答。Mythos 5 给美国政府和受信任的网络安全机构，安全护栏拿掉了。

降级触发率平均不到 5% 的会话，但 Anthropic 自己承认，这个阈值设得保守了——有些完全无害的请求也会被误杀。他们在努力调低误杀率。

这次到底强在哪

先说结论：任务越长越复杂，Fable 5 领先越大。

这不是那种”跑分涨了两个点”的常规升级。Anthropic 放了一张完整的基准测试对比表，几个硬数据：

Stripe（对，就是那个全球支付公司）实测：在一个 5000 万行代码的 Ruby 项目里，Fable 5 用一天时间完成了整个代码库的迁移改造。这个活儿，一个完整的人工团队要干两个多月。

FrontierCode 评测（Cognition 出的，专门测模型能不能写出生产级代码）：Fable 5 在所有前沿模型里排第一，而且只用了”中等努力”。

FrontierCode评测：Fable 5在各 effort level 下均为SOTA

视觉能力：之前的 Claude 模型需要额外工具辅助才能通关宝可梦火红版。Fable 5 只靠看屏幕截图，零辅助，从头打到尾。

记忆和长上下文：在杀戮尖塔这个卡牌游戏里，给 Fable 5 加上文件记忆，它的表现提升是 Opus 4.8 的三倍，打进最终关的次数也是三倍。

科研领域：Mythos 5 在分子生物学里提出的假说，Anthropic 自己的科学家盲评时，80% 的情况下更偏好 Mythos 的假说。其中一个关于大肠杆菌蛋白的新假说，后来被一个独立实验室验证了——人家也在研究同一个问题，结论一致。

还有一个更猛的：Mythos 5 自主工作了一周多，从 138 个物种、数百万个单细胞数据里，自己设计和训练了一个机器学习模型。这个模型比《Science》期刊上刚发的同类模型表现更好——体积只有后者的百分之一。

金融分析：对冲基金 IMC 测下来，Fable 5 在事实查询、概念推理、根因分析、期望值分析上全面领先。Hebbia 的金融推理基准测试，Fable 5 是所有模型里分数最高的。

Ethan Mollick 的体验

Ethan Mollick 是宾大教授，写了《共智》那本关于 AI 协作的书，44 万订阅读者。他提前拿到了 Fable 5 的测试权限，写了一篇详细的体验报告。

他说自己测试了大量任务之后的感觉是：既兴奋又不安。兴奋的是说了就做了，不安的是——说了就做了。

他举了个例子。他让 Fable 5 做一个等时线地图（就是从某个城市出发，不同交通方式在一定时间内能到达多远的可视化地图）。以前的模型做不了——因为这需要查几千条航线、列车时刻表、各国道路速度，还要做大量判断和取舍。

Fable 5 怎么做的？它启动了多个子 AI（主要是更便宜的 Claude Sonnet），并行去查数据，查到了 2200 多条航班信息、从 TGV 到新干线的列车时刻表、各国道路速度的学术论文。同时开始写代码。一边研究一边开发，一边测试一边记笔记。整个过程持续了数小时。

Mollick 发现地图有些偏远地区数据不准确，让它补。Fable 5 这次启动了对抗式工作组——一组 AI 负责研究，另一组负责测试前一组的结果。它自己搞清楚了皮特凯恩群岛（太平洋上的一个偏远小岛）多久有一班船，从渥太华怎么去格赖斯峡湾。

然后 Mollick 写了一段挺关键的话：

“我给了它一个雄心勃勃的指令，它执行了。我给了一两条小反馈，它自己搞定了。我的角色极其有限。不仅是工作量有限，连控制权都很有限——AI 做了几百个小决策，这些决策的过程我看不到，也没有机会参与。”

他还做了另一个项目：让 Fable 5 做一个叫 Concord 的研究工具软件，能校准人类判断和 AI 判断的数据分析系统。Fable 5 先写了一份 19 页的设计文档，然后自主工作了 9 个半小时，交付了一个完整的软件。

Mollick 去年把和 AI 协作比作”施法”——你念咒语，事情就发生了。但用完 Fable 5 之后，他改了说法：“我不再是巫师了。我更接近一个赞助人。我描述想要什么，我付钱，我评判结果。魔法发生在我看不到的地方。”

价格和”省着用”的悖论

Fable 5 定价：每百万输入 token 10 美元，每百万输出 token 50 美元。比上一代 Mythos Preview 便宜了一半多。

但 Mollick 指出：Fable 5 是 Opus 价格的两倍。而且它烧 token 的速度——“在生产环境中成本大概是’很多’。” 不过它会聪明地把研究任务分派给更便宜的 Sonnet 模型，实际上可能降低了一些成本。

还有一个发现：Replit 的 CTO 说，Fable 5 “去年需要一百个 prompt 才能做出来的 App，现在一次就出来了”。Cursor 的 CEO 说，Fable 5 在 CursorBench 上是 SOTA，“打开了一类以前够不着的长周期问题”。

这些开发者的反馈指向同一件事：模型能自己干的事变多了。 不单是变聪明了一点——一个 prompt 能解决的问题复杂度，上了整整一个台阶。

但这里有个容易被忽略的事：Mollick 的等时线地图为什么能成？不是光靠模型强。他知道怎么把任务拆成 AI 能接住的结构，知道什么时候该让它自己跑、什么时候该插手纠偏，也清楚模型在偏远地区数据上容易出错。上下文喂得对、边界摸得清，模型才发挥得出来。 喂不好、摸不清，再强的模型也是浪费 token。

安全机制：降级回应

这是这次发布里最值得普通人了解的机制。

Anthropic 非常明确地说：Mythos 级模型在网络攻防和生物化学领域的能力已经到了一个门槛。不加管控的话，恶意使用可以造成严重伤害。

他们的做法很聪明：不拒绝你，直接把请求转给 Opus 4.8 回答。 你还是会得到一个答案，只是不是最强模型的答案。系统会告诉你这次用了 Opus 4.8。

涵盖三个领域： – 网络安全：攻防类请求 – 生物化学：涉及病毒设计、基因工程等 – 蒸馏：防止大规模提取 Claude 能力来训练竞争模型

还有一个变化：Mythos 级模型的所有企业客户数据，强制保留 30 天。不用于训练，纯粹是为了安全审计。

对普通用户意味着什么

你可能在用豆包、用 DeepSeek，觉得这些跟你关系不大。但有几个判断值得你心里有数：

第一，自主工作能力的阈值在跳档。 之前模型擅长的是”你问一个具体问题，我回答一个具体答案”。Fable 5 之类的模型开始擅长的是”你给一个方向，它自己研究、自己规划、自己执行、自己检查，几小时甚至几天后给你成品”。这个差距已经跨过了从工具到员工的线。

第二，“赞助人”模式在成形。 Mollick 说得很准——以前你是在驾驶，现在你是在指派目标然后等交付。中间过程你看到了也看不完。工作重心从”过程控制”转向”结果评判”。这对普通人的影响是：你不需要知道 AI 怎么做的，给 token 付钱，然后你需要有判断它做得好不好的能力。

第三，安全护栏和体验之间的张力只会越来越大。 模型越强，需要锁住的能力越多，误杀越多。Fable 5 是第一个大规模验证这个机制的模型。以后每个模型发布都会面对这个问题——放多猛的能力出去，加多严的锁。

第四，国产模型在自主工作这个维度上，差距在拉大。 跑分追得很快，但”能独立干多长时间的活”这个维度上，豆包和 DeepSeek 回答问题没问题，你让它们自己启动子任务、自己研究、自己做判断、自己迭代——这个能力还差一截。不过话说回来，豆包有一种让人羡慕的职场哲学：做错了秒认，认完秒改，改完秒忘，零精神内耗。这份心态，Fable 5 还真学不来。

最后一个问题

Mollick 在文章结尾留了一个没回答的问题：人和模型的关系，到底是在走向更透明的协作，还是在走向更黑箱的委托？

他倾向后者。评论区有人把这个推了一步：“赞助人只剩下一个活——评判结果。但这个活赖以生存的东西正在被侵蚀：你的判断力。”

Fable 5 跑 9 个半小时交付一个完整软件，你用 30 分钟过一遍。你的审核覆盖率接近零。Codex 用户开 YOLO 模式、Hermes 用户跳过审批直接提交——审批已经变成一种仪式。 逐行审核 AI 的工作在经济上已经不理性了，跟懒不懒没关系。你看不完，看完了也不一定看得懂。

很多人到了这一步就开始焦虑”人还有什么用”。各种回答冒出来：学会提问、培养审美、做AI做不了的事。都对，也都没用。

赞助人的比喻为什么准？因为赞助人真的不做任何具体的事。他出钱，画家画画。画挂在他家，有人来夸，夸的是赞助人的品味。有人来骂，骂的也是赞助人。

赞助人的全部权力只有一个动作：拍板。

拍了板，这件作品姓你的名。好处是你的，翻车也是你的。

Mollick 的等时线地图，他没审代码。他做的是——看了一眼，说偏远地区数据不对，让 AI 重来。他拍不拍板？拍了就是他交付的。不拍就让 AI 重做。

这就是赞助人干的事：看了，拍板，或者不拍。

为什么拍板？说不清。凭经验、凭直觉、凭某种你花了很多年赔出来的品味。AI 做了几百个决策，每个决策可能都比你的判断合理。但你只需要在最后一个环节——这一整坨东西，我署不署名——做一个赌博式的决定。

AI 把”做”的成本打到了接近零。Stripe 那个 5000 万行代码的迁移，以前要一个团队两个月，现在一天。但拍板的成本一分钱没降。你拍了，翻车了，赔的是你的信誉、你的项目、你的用户。AI 不赔。它没有信誉可以赔。它也不用坐牢。 你让 AI 写了个方案，方案出了事，客户追责追到你头上。你说”这是 AI 写的”？没人听。AI 没有身份证，没有银行账户，没有法律责任。出事了，坐牢的是你，不是它。这大概是人类目前最不可替代的优势了——只有人能坐牢，所以只有人能拍板。

YOLO 模式说到底不是在信任 AI，是在逃避拍板——让 AI 自己跑完了，出事了可以说”不是我批的”。但这没用。你的 API key，你的账单，你的项目。出了事没人找 AI。

分水岭就在这里：以前你凭本事做事，做不好是你能力不行。现在你凭品味拍板，拍错了是你品味不行。

到这步有人会说：学会提问。这话对，但太轻了。面对 Fable 5 这种东西，“会提问”背后的含义已经完全不是我们以为的那样。

这不是向一个比自己聪明的人请教。你跟一个比你强的同事讨论方案，你知道他的思维习惯，知道他会在哪犯轴，知道怎么把信息喂给他他才能接住。这些”知道”都是基于你们共享同一套认知系统——人脑怎么想事情，大概差不多。

但 AI 不一样。它的推理方式不是人类的推理方式。它可能在某个极其复杂的任务上表现完美，转头在一个小孩都觉得明显的事情上犯低级错误。它可能在99%的情况下可靠，然后在第100次突然自信地给你一个完全错误的答案——你甚至看不出来它错了。这种失败模式，人类经验里没有参照物。

连开发这些模型的人——那些写训练代码、调参数、设计架构的工程师——他们自己也承认，理解不了模型为什么会做出某些具体决策。他们能控制训练过程，但控制不了模型在具体场景下怎么想的。一个你造出来的东西，你理解不了它的决策逻辑——这在人类工具史上没出现过。

所以”学会提问”这句话，面对这种新事物，分量远远不够。要跟一种完全不同的智能形态协作，光靠”向聪明人请教”的经验远远不够。这远超技能升级的范畴——接近一次认知重建。用人类经验套上去，跟用管理实习生的方法管理 Fable 5 一样，也对，但不够用。

我之前写过一篇叫”AI 幻境”的文章。核心判断：你几乎无法察觉自己已经活在一个被 AI 塑造的认知环境里了。幻境里的人不觉得自己在里面。这个判断在 Fable 5 之后变得更危险了——以前你还能逐行看，现在你只看到成品。

面对这种东西，谦卑是起点，不是终点。没有捷径。 判断力、对 AI 能力边界的实战手感、上下文构建能力——三样东西，每一样都得老老实实用出来、赔出来。光看几篇测评、学几个 prompt 技巧是凑不齐的。得在大量实践中一次次被AI惊到、被AI坑过、被AI带着走然后发现自己已经偏了——靠这些经验堆出来。缺一样，幻境就在等你。

Fable 5 把”做”的门槛踩平了。但这三样东西，每一样的门槛都比以前更高。因为以前做不好，你还能怪自己能力不行。现在拍错了板，你连怪谁都说不清。

Mollick 说他不确定人和模型的关系会往哪走。我也不确定。