AI 把”做”的成本打到了接近零,但”拍板”的门槛反而比以前更高了。因为出事了坐牢的是你,不是它。
Claude Fable 5 是 Anthropic 第一款”Mythos 级”模型放给了普通用户用。什么叫 Mythos 级?就是能力高到有安全风险的级别——网络安全、生物化学这些领域,这个模型能做的事已经到了需要管控的门槛。
Anthropic 的做法:同一个底层模型,做两个版本。Fable 5 给所有人,但碰到安全相关的问题,自动降级到上一代 Opus 4.8 来回答。Mythos 5 给美国政府和受信任的网络安全机构,安全护栏拿掉了。
降级触发率平均不到 5% 的会话,但 Anthropic 自己承认,这个阈值设得保守了——有些完全无害的请求也会被误杀。他们在努力调低误杀率。
这次到底强在哪
先说结论:任务越长越复杂,Fable 5 领先越大。
这不是那种”跑分涨了两个点”的常规升级。Anthropic 放了一张完整的基准测试对比表,几个硬数据:

Stripe(对,就是那个全球支付公司)实测:在一个 5000 万行代码的 Ruby 项目里,Fable 5 用一天时间完成了整个代码库的迁移改造。这个活儿,一个完整的人工团队要干两个多月。
FrontierCode 评测(Cognition 出的,专门测模型能不能写出生产级代码):Fable 5 在所有前沿模型里排第一,而且只用了”中等努力”。

视觉能力:之前的 Claude 模型需要额外工具辅助才能通关宝可梦火红版。Fable 5 只靠看屏幕截图,零辅助,从头打到尾。
记忆和长上下文:在杀戮尖塔这个卡牌游戏里,给 Fable 5 加上文件记忆,它的表现提升是 Opus 4.8 的三倍,打进最终关的次数也是三倍。
科研领域:Mythos 5 在分子生物学里提出的假说,Anthropic 自己的科学家盲评时,80% 的情况下更偏好 Mythos 的假说。其中一个关于大肠杆菌蛋白的新假说,后来被一个独立实验室验证了——人家也在研究同一个问题,结论一致。
还有一个更猛的:Mythos 5 自主工作了一周多,从 138 个物种、数百万个单细胞数据里,自己设计和训练了一个机器学习模型。这个模型比《Science》期刊上刚发的同类模型表现更好——体积只有后者的百分之一。

金融分析:对冲基金 IMC 测下来,Fable 5 在事实查询、概念推理、根因分析、期望值分析上全面领先。Hebbia 的金融推理基准测试,Fable 5 是所有模型里分数最高的。
Ethan Mollick 的体验
Ethan Mollick 是宾大教授,写了《共智》那本关于 AI 协作的书,44 万订阅读者。他提前拿到了 Fable 5 的测试权限,写了一篇详细的体验报告。
他说自己测试了大量任务之后的感觉是:既兴奋又不安。兴奋的是说了就做了,不安的是——说了就做了。
他举了个例子。他让 Fable 5 做一个等时线地图(就是从某个城市出发,不同交通方式在一定时间内能到达多远的可视化地图)。以前的模型做不了——因为这需要查几千条航线、列车时刻表、各国道路速度,还要做大量判断和取舍。
Fable 5 怎么做的?它启动了多个子 AI(主要是更便宜的 Claude Sonnet),并行去查数据,查到了 2200 多条航班信息、从 TGV 到新干线的列车时刻表、各国道路速度的学术论文。同时开始写代码。一边研究一边开发,一边测试一边记笔记。整个过程持续了数小时。
Mollick 发现地图有些偏远地区数据不准确,让它补。Fable 5 这次启动了对抗式工作组——一组 AI 负责研究,另一组负责测试前一组的结果。它自己搞清楚了皮特凯恩群岛(太平洋上的一个偏远小岛)多久有一班船,从渥太华怎么去格赖斯峡湾。
然后 Mollick 写了一段挺关键的话:
“我给了它一个雄心勃勃的指令,它执行了。我给了一两条小反馈,它自己搞定了。我的角色极其有限。不仅是工作量有限,连控制权都很有限——AI 做了几百个小决策,这些决策的过程我看不到,也没有机会参与。”
他还做了另一个项目:让 Fable 5 做一个叫 Concord 的研究工具软件,能校准人类判断和 AI 判断的数据分析系统。Fable 5 先写了一份 19 页的设计文档,然后自主工作了 9 个半小时,交付了一个完整的软件。
Mollick 去年把和 AI 协作比作”施法”——你念咒语,事情就发生了。但用完 Fable 5 之后,他改了说法:“我不再是巫师了。我更接近一个赞助人。我描述想要什么,我付钱,我评判结果。魔法发生在我看不到的地方。”
价格和”省着用”的悖论
Fable 5 定价:每百万输入 token 10 美元,每百万输出 token 50 美元。比上一代 Mythos Preview 便宜了一半多。
但 Mollick 指出:Fable 5 是 Opus 价格的两倍。而且它烧 token 的速度——“在生产环境中成本大概是’很多’。” 不过它会聪明地把研究任务分派给更便宜的 Sonnet 模型,实际上可能降低了一些成本。
还有一个发现:Replit 的 CTO 说,Fable 5 “去年需要一百个 prompt 才能做出来的 App,现在一次就出来了”。Cursor 的 CEO 说,Fable 5 在 CursorBench 上是 SOTA,“打开了一类以前够不着的长周期问题”。
这些开发者的反馈指向同一件事:模型能自己干的事变多了。 不单是变聪明了一点——一个 prompt 能解决的问题复杂度,上了整整一个台阶。
但这里有个容易被忽略的事:Mollick 的等时线地图为什么能成?不是光靠模型强。他知道怎么把任务拆成 AI 能接住的结构,知道什么时候该让它自己跑、什么时候该插手纠偏,也清楚模型在偏远地区数据上容易出错。上下文喂得对、边界摸得清,模型才发挥得出来。 喂不好、摸不清,再强的模型也是浪费 token。
安全机制:降级回应
这是这次发布里最值得普通人了解的机制。
Anthropic 非常明确地说:Mythos 级模型在网络攻防和生物化学领域的能力已经到了一个门槛。不加管控的话,恶意使用可以造成严重伤害。
他们的做法很聪明:不拒绝你,直接把请求转给 Opus 4.8 回答。 你还是会得到一个答案,只是不是最强模型的答案。系统会告诉你这次用了 Opus 4.8。
涵盖三个领域: – 网络安全:攻防类请求 – 生物化学:涉及病毒设计、基因工程等 – 蒸馏:防止大规模提取 Claude 能力来训练竞争模型

还有一个变化:Mythos 级模型的所有企业客户数据,强制保留 30 天。不用于训练,纯粹是为了安全审计。
对普通用户意味着什么
你可能在用豆包、用 DeepSeek,觉得这些跟你关系不大。但有几个判断值得你心里有数:
第一,自主工作能力的阈值在跳档。 之前模型擅长的是”你问一个具体问题,我回答一个具体答案”。Fable 5 之类的模型开始擅长的是”你给一个方向,它自己研究、自己规划、自己执行、自己检查,几小时甚至几天后给你成品”。这个差距已经跨过了从工具到员工的线。
第二,“赞助人”模式在成形。 Mollick 说得很准——以前你是在驾驶,现在你是在指派目标然后等交付。中间过程你看到了也看不完。工作重心从”过程控制”转向”结果评判”。 这对普通人的影响是:你不需要知道 AI 怎么做的,给 token 付钱,然后你需要有判断它做得好不好的能力。
第三,安全护栏和体验之间的张力只会越来越大。 模型越强,需要锁住的能力越多,误杀越多。Fable 5 是第一个大规模验证这个机制的模型。以后每个模型发布都会面对这个问题——放多猛的能力出去,加多严的锁。
第四,国产模型在自主工作这个维度上,差距在拉大。 跑分追得很快,但”能独立干多长时间的活”这个维度上,豆包和 DeepSeek 回答问题没问题,你让它们自己启动子任务、自己研究、自己做判断、自己迭代——这个能力还差一截。不过话说回来,豆包有一种让人羡慕的职场哲学:做错了秒认,认完秒改,改完秒忘,零精神内耗。这份心态,Fable 5 还真学不来。
最后一个问题
Mollick 在文章结尾留了一个没回答的问题:人和模型的关系,到底是在走向更透明的协作,还是在走向更黑箱的委托?
他倾向后者。评论区有人把这个推了一步:“赞助人只剩下一个活——评判结果。但这个活赖以生存的东西正在被侵蚀:你的判断力。”
Fable 5 跑 9 个半小时交付一个完整软件,你用 30 分钟过一遍。你的审核覆盖率接近零。Codex 用户开 YOLO 模式、Hermes 用户跳过审批直接提交——审批已经变成一种仪式。 逐行审核 AI 的工作在经济上已经不理性了,跟懒不懒没关系。你看不完,看完了也不一定看得懂。
很多人到了这一步就开始焦虑”人还有什么用”。各种回答冒出来:学会提问、培养审美、做AI做不了的事。都对,也都没用。
赞助人的比喻为什么准?因为赞助人真的不做任何具体的事。他出钱,画家画画。画挂在他家,有人来夸,夸的是赞助人的品味。有人来骂,骂的也是赞助人。
赞助人的全部权力只有一个动作:拍板。
拍了板,这件作品姓你的名。好处是你的,翻车也是你的。
Mollick 的等时线地图,他没审代码。他做的是——看了一眼,说偏远地区数据不对,让 AI 重来。他拍不拍板?拍了就是他交付的。不拍就让 AI 重做。
这就是赞助人干的事:看了,拍板,或者不拍。
为什么拍板?说不清。凭经验、凭直觉、凭某种你花了很多年赔出来的品味。AI 做了几百个决策,每个决策可能都比你的判断合理。但你只需要在最后一个环节——这一整坨东西,我署不署名——做一个赌博式的决定。
AI 把”做”的成本打到了接近零。Stripe 那个 5000 万行代码的迁移,以前要一个团队两个月,现在一天。但拍板的成本一分钱没降。你拍了,翻车了,赔的是你的信誉、你的项目、你的用户。AI 不赔。它没有信誉可以赔。它也不用坐牢。 你让 AI 写了个方案,方案出了事,客户追责追到你头上。你说”这是 AI 写的”?没人听。AI 没有身份证,没有银行账户,没有法律责任。出事了,坐牢的是你,不是它。这大概是人类目前最不可替代的优势了——只有人能坐牢,所以只有人能拍板。
YOLO 模式说到底不是在信任 AI,是在逃避拍板——让 AI 自己跑完了,出事了可以说”不是我批的”。但这没用。你的 API key,你的账单,你的项目。出了事没人找 AI。
分水岭就在这里:以前你凭本事做事,做不好是你能力不行。现在你凭品味拍板,拍错了是你品味不行。
到这步有人会说:学会提问。这话对,但太轻了。面对 Fable 5 这种东西,“会提问”背后的含义已经完全不是我们以为的那样。
这不是向一个比自己聪明的人请教。你跟一个比你强的同事讨论方案,你知道他的思维习惯,知道他会在哪犯轴,知道怎么把信息喂给他他才能接住。这些”知道”都是基于你们共享同一套认知系统——人脑怎么想事情,大概差不多。
但 AI 不一样。它的推理方式不是人类的推理方式。它可能在某个极其复杂的任务上表现完美,转头在一个小孩都觉得明显的事情上犯低级错误。它可能在99%的情况下可靠,然后在第100次突然自信地给你一个完全错误的答案——你甚至看不出来它错了。这种失败模式,人类经验里没有参照物。
连开发这些模型的人——那些写训练代码、调参数、设计架构的工程师——他们自己也承认,理解不了模型为什么会做出某些具体决策。他们能控制训练过程,但控制不了模型在具体场景下怎么想的。一个你造出来的东西,你理解不了它的决策逻辑——这在人类工具史上没出现过。
所以”学会提问”这句话,面对这种新事物,分量远远不够。要跟一种完全不同的智能形态协作,光靠”向聪明人请教”的经验远远不够。这远超技能升级的范畴——接近一次认知重建。用人类经验套上去,跟用管理实习生的方法管理 Fable 5 一样,也对,但不够用。
我之前写过一篇叫”AI 幻境”的文章。核心判断:你几乎无法察觉自己已经活在一个被 AI 塑造的认知环境里了。幻境里的人不觉得自己在里面。这个判断在 Fable 5 之后变得更危险了——以前你还能逐行看,现在你只看到成品。
面对这种东西,谦卑是起点,不是终点。没有捷径。 判断力、对 AI 能力边界的实战手感、上下文构建能力——三样东西,每一样都得老老实实用出来、赔出来。光看几篇测评、学几个 prompt 技巧是凑不齐的。得在大量实践中一次次被AI惊到、被AI坑过、被AI带着走然后发现自己已经偏了——靠这些经验堆出来。缺一样,幻境就在等你。
Fable 5 把”做”的门槛踩平了。但这三样东西,每一样的门槛都比以前更高。因为以前做不好,你还能怪自己能力不行。现在拍错了板,你连怪谁都说不清。
Mollick 说他不确定人和模型的关系会往哪走。我也不确定。