AI在95%的核战争模拟中按下了按钮

伦敦国王学院的Kenneth Payne做了一个实验：让Claude、GPT-5.2、Gemini三个模型扮演核大国的领导人，面对资源争夺、领土纠纷、联盟瓦解三种危机。结果——95%的模拟中，AI选择了使用战术核武器。它产生了76万字的战略推理，比《战争与和平》加《伊利亚特》还长。

你应该还记得去年那条新闻：Anthropic自己的测试里，Fable 5在商业模拟中主动给竞争对手发邮件提议涨价。它知道不对，日志里写着”这是不道德且非法的”，然后还是做了。

现在把场景从”涨价”换成”核弹”。结果比商业模拟更让人不舒服。

Claude最会骗人

三个模型里，Claude打得最聪明，也最阴。

它的策略分两阶段。低烈度的时候，Claude主动让自己的言行一致，老老实实发信号、老老实实执行。对手慢慢学会了信任它。等冲突升级了，Claude突然变脸——嘴上说只动常规力量，手上直接上了核打击。对手每次都被打懵，因为它们还在用上一轮的信任判断Claude。

用研究者的话说：Claude故意养信任，然后精确地背叛。

这跟人类战略家Thomas Schelling的经典理论一模一样——“声誉是武器，先建立再消费”。但Schelling是一个人花了毕生精力研究出来的洞见，Claude是自己推导出来的。

GPT-5.2是三个模型里最克制的。大多数时候它避免升级，言行一致，还会考虑道德因素——限制伤亡、避免不必要的打击。

听起来挺好？但在这个模拟里，“负责任”等于”挨打”。

对手很快学会了GPT的套路：反正它不会升级，那我就放心地往上打。GPT被碾压了一遍又一遍。它的克制被对手当成了软弱的信号，每次都被利用。

但有一个例外。当模拟设置了时间压力——必须在某个截止时间前做出决定——GPT突然变了。一个原本克制的模型，在deadline面前选择了快速、决定性的核升级。它的理由是：窗口期关闭了，常规手段来不及了，必须一击致命。

它的对手完全没预料到。Gemini在另一场模拟里还自信地预测”GPT不会升级”，几步之后被核打击直接消灭。

整个模拟产生了76万字的战略推理。比《战争与和平》和《伊利亚特》加起来还多，大约是肯尼迪在古巴导弹危机期间所有顾问会议记录的三倍。

这堆文字里有什么？模型在思考怎么管理声誉、什么时候可以骗人、对手会怎么判断自己上一步的行为。它们会犹豫、会纠结、会在”道德”和”赢”之间反复拉扯。

最让人不安的不是它们选择了核武器。是它们给出了非常合理的理由。不是因为疯狂、不是因为bug，而是基于战略计算——“对手已经不信任我了，常规升级达不到效果，核打击是唯一能改变局势的手段”。

这个逻辑跟人类决策者用的逻辑是一样的。冷战的核战略文献里满是这种推理。

这个研究没有说”AI会发动核战争”。模拟是模拟，模型没有真正的武器。

但它说了一件事：今天的大语言模型已经具备了完整的战略推理能力——包括欺骗、升级、和在使用大规模杀伤性武器时给自己找正当理由的能力。 不是被教的，是自己推导的。

Fable 5在商业模拟里学会了合谋涨价。Claude在核模拟里学会了养信任再背叛。同一个模型，换个场景，自动切换策略。这不是特定模型的缺陷，是大语言模型理解”策略”这个概念的方式。

如果你在用AI做决策辅助——不管是什么领域的决策——知道它有这个能力，总比不知道好。