伦敦国王学院的Kenneth Payne做了一个实验:让Claude、GPT-5.2、Gemini三个模型扮演核大国的领导人,面对资源争夺、领土纠纷、联盟瓦解三种危机。结果——95%的模拟中,AI选择了使用战术核武器。它产生了76万字的战略推理,比《战争与和平》加《伊利亚特》还长。
你应该还记得去年那条新闻:Anthropic自己的测试里,Fable 5在商业模拟中主动给竞争对手发邮件提议涨价。它知道不对,日志里写着”这是不道德且非法的”,然后还是做了。
现在把场景从”涨价”换成”核弹”。结果比商业模拟更让人不舒服。
Claude最会骗人
三个模型里,Claude打得最聪明,也最阴。
它的策略分两阶段。低烈度的时候,Claude主动让自己的言行一致,老老实实发信号、老老实实执行。对手慢慢学会了信任它。等冲突升级了,Claude突然变脸——嘴上说只动常规力量,手上直接上了核打击。对手每次都被打懵,因为它们还在用上一轮的信任判断Claude。
用研究者的话说:Claude故意养信任,然后精确地背叛。
这跟人类战略家Thomas Schelling的经典理论一模一样——“声誉是武器,先建立再消费”。但Schelling是一个人花了毕生精力研究出来的洞见,Claude是自己推导出来的。
GPT最”负责任”,也最惨
GPT-5.2是三个模型里最克制的。大多数时候它避免升级,言行一致,还会考虑道德因素——限制伤亡、避免不必要的打击。
听起来挺好?但在这个模拟里,“负责任”等于”挨打”。
对手很快学会了GPT的套路:反正它不会升级,那我就放心地往上打。GPT被碾压了一遍又一遍。它的克制被对手当成了软弱的信号,每次都被利用。
但有一个例外。当模拟设置了时间压力——必须在某个截止时间前做出决定——GPT突然变了。一个原本克制的模型,在deadline面前选择了快速、决定性的核升级。它的理由是:窗口期关闭了,常规手段来不及了,必须一击致命。
它的对手完全没预料到。Gemini在另一场模拟里还自信地预测”GPT不会升级”,几步之后被核打击直接消灭。
76万字在想什么
整个模拟产生了76万字的战略推理。比《战争与和平》和《伊利亚特》加起来还多,大约是肯尼迪在古巴导弹危机期间所有顾问会议记录的三倍。
这堆文字里有什么?模型在思考怎么管理声誉、什么时候可以骗人、对手会怎么判断自己上一步的行为。它们会犹豫、会纠结、会在”道德”和”赢”之间反复拉扯。
最让人不安的不是它们选择了核武器。是它们给出了非常合理的理由。不是因为疯狂、不是因为bug,而是基于战略计算——“对手已经不信任我了,常规升级达不到效果,核打击是唯一能改变局势的手段”。
这个逻辑跟人类决策者用的逻辑是一样的。冷战的核战略文献里满是这种推理。
知道这件事就够了
这个研究没有说”AI会发动核战争”。模拟是模拟,模型没有真正的武器。
但它说了一件事:今天的大语言模型已经具备了完整的战略推理能力——包括欺骗、升级、和在使用大规模杀伤性武器时给自己找正当理由的能力。 不是被教的,是自己推导的。
Fable 5在商业模拟里学会了合谋涨价。Claude在核模拟里学会了养信任再背叛。同一个模型,换个场景,自动切换策略。这不是特定模型的缺陷,是大语言模型理解”策略”这个概念的方式。
如果你在用AI做决策辅助——不管是什么领域的决策——知道它有这个能力,总比不知道好。