全行业涨价，它降了75%，还融了700亿

别人按智商收费、限量抢购、隐形加价。DeepSeek把V4-Pro的2.5折优惠直接固定下来，不恢复了。网页版免费，命中缓存几乎免费。

5月22号，DeepSeek发了个公告，很短：V4-Pro的2.5折优惠活动，原定5月31日到期恢复原价——现在不恢复了。2.5折，不恢复了。

这个折扣是怎么来的？4月24日V4-Pro发布，26号开了2.5折特惠，原计划到5月5日结束。后来延长到5月31日。再后来，直接永久化。

从”限时活动”到”这就是我们的定价”，中间只有一个月。说明一件事：他们跑了一个月的数据，确认了这个价格是可持续的。成本真降了，定价跟着降，不是烧钱换市场。

缓存命中输入0.025元/百万token，输出6元/百万token。

“缓存命中”什么意思？打个比方：你每次跟AI聊天，其实有一大段内容是重复的——系统提示词、之前聊过的上下文、固定的格式要求。这部分每次都重新算一遍，等于你每次点外卖，厨师都从种菜开始。缓存命中的意思是，厨师把常备食材提前切好了，你一喊，直接下锅。

其实各家都有缓存机制，但折扣力度差很远：

DeepSeek V4-Pro：缓存命中输入0.025元，正常输入3元。缓存是正常价的0.8%，接近免费
OpenAI GPT-5.5：缓存输入$0.50，正常$5.00。缓存是正常的10%
Anthropic Opus 4.7：缓存命中$0.50，正常$5.00。缓存是正常的10%。但写入缓存还要额外付$6.25（5分钟）或$10（1小时）
智谱 GLM-5：缓存命中1元，正常输入4元。缓存是正常的25%
Google Gemini 2.5+：自动缓存，不需要手动开启。命中后自动降价

所有一线模型都有缓存，但DeepSeek的缓存折扣最狠——0.8%对别人的10%，差了12倍。智谱的缓存折扣是25%，DeepSeek是智谱的30分之一。原因是MLA架构把KV Cache压缩得极小，存起来几乎不占资源，所以敢把缓存价格压到几乎白送。

整本《挪威的森林》喂进去，缓存命中后不到一分钱。别人家也能缓存，但做不到这个价。

全行业的定价，各有各的算盘

DeepSeek在降价。其余各家呢？

得从两个角度看：API定价和Coding Plan订阅。前者是开发者按量付费，后者是大多数人为编程AI，Agent （claude code , open claw , Hermes…）掏钱的实际方式。

API：按智商收费的和在降价的

各家当前旗舰模型的API定价（数据来自各厂商官网，2026年5月）：

DeepSeek V4-Pro：输入3元、输出6元（2.5折后）。缓存命中输入0.025元
Google Gemini 2.5 Pro：输入9元、输出72元。最新Gemini 3.5 Flash输入5.4元、输出32元，Google持续降价中
阿里 Qwen3.7-Max：输入12元、输出36元（限时5折后实际6元、18元）。过去一年多次主动降价
智谱 GLM-5：输入4元、输出18元（≤32K上下文）。缓存命中1元。4个月涨了3次价，累计涨83%
OpenAI GPT-5.5：输入36元、输出216元。GPT-5.5 Pro输出1296元
Anthropic Claude Opus 4.7：输入36元、输出180元。Sonnet 4.6输入22元、输出108元

OpenAI的逻辑是”按智商收费”。 GPT-5.5 Pro输出1296元/百万token，比GPT-5.4贵了12倍——功能没多12倍，定价逻辑就是”更聪明就该更贵”。低端模型GPT-5.4 nano只要1.4元输出，跟DeepSeek一个量级，但那是阉割版。

Anthropic的逻辑是”高端溢价+隐形加价”。 Opus 4.7官方定价看着还行，但相同代码消耗的token数比前代增加了35%——价格没变，你花的钱变多了。订阅额度用完不会停，自动按API费率继续扣，每日上限2000美元。

智谱的逻辑是”筛选客户”。 CEO张鹏说得很直白：“瓶颈在算力，不在客户。”4个月涨83%，调用量不降反增400%——潜台词：算力有限，先紧着付得起的人用。

Coding Plan：全球都在涨、限量、停售

大多数人不直接用API，用的是订阅制的编程工具。国内外都在收紧。

Claude Code，目前公认最强的编程Agent，只能通过Anthropic Max订阅使用——$100/月或$200/月两档。$200档今年春天一度要排队抢购，waitlist排了不知道多长。一个编程工具，硬生生抢出了限量版球鞋的感觉。而且$200档也不是无限量用，到一定程度会降速。

Cursor $20/月起步，但已经拆成了Pro、Pro+、Ultra三档。原来的”无限premium requests”早没了——现在是”智能体扩展限额”，超出后按用量计费。档位越低，限额越紧，想多用就往上加钱。

ChatGPT Pro $200/月，含Codex编程Agent。比Plus贵了10倍，高级编程功能全在这个档里。

GitHub Copilot 原来Pro $10/月挺厚道，今年新出了Pro+ $39/月——Agent功能和多模型选择都放进了更贵的档。

国内呢？ 涨价，或停售。

阿里云百炼4月13日关闭了Lite套餐（40元/月）的续费，之前已经停了新购。Pro版长期售罄，每天限量补货秒光。从2月”首月7.9元”抢市场，到4月全面撤退，只用了两个月。

腾讯云更干脆——Coding Plan活动页面直接显示”本次活动已结束”，全面转向按量计费的Token Plan。模型服务价格涨了最高456%。

智谱的Coding Plan每天10点开放抢购，网站挤不进去是常态。2月份刚涨过一轮，Lite从40元涨到49元。高峰时段（下午2-6点）用GLM-5，每个Prompt消耗3个额度单位——等于可用次数只有非高峰的三分之一，后来全部加限额。

MiniMax还在卖，29元到199元几档。但它的高端档Ultra-极速版（899元/月）已经悄悄下架了。

为什么全球Coding Plan都在收紧？ 三个字：收不回。包月不限次的模式下，一个重度用户的算力成本可能数百甚至上千元，厂商只能收几十块。行业内部测算，“收1亏10”——每收1元订阅费，要补贴10元算力成本。Agent 今年爆火之后，大量开发者同时高频调用，算力被严重挤兑。

从”争相入场”到”全面撤退”，不到半年。

DeepSeek的另一个位面

然后你看DeepSeek。

网页版聊天，完全免费。 不只是V4-Pro，所有模型、深度思考、智能搜索，全部免费。没有Pro版，没有会员，没有订阅。

API按量计费，没有限额，没有时间窗口。 账户有余额就一直跑，凌晨三点赶deadline也一样。不用抢购，不用等10点补货，不用算着次数用。

回头看看各家的Coding Plan——智谱Pro ¥149/月，每5小时限额约400次prompts，每周还有总额度上限。听起来不少，但你用Agent编程工具（Claude Code、Cursor这类），对话框里发一条指令，底层可能触发15-20次模型调用。400次的限额，实际可能就对应20-25次用户操作。写两个函数、调一个bug，额度就见底了。然后呢？等5小时刷新。你的工作不会等你，但套餐的限额会让你等。

Claude Max $100-200/月，ChatGPT Pro $200/月，到量也会降速。国内各家就更不用说了——停售的停售，涨价的涨价。

DeepSeek没有这个问题。它的模型架构把推理成本压到了一个不需要靠”限额”来控制支出的水平。半导体分析机构SemiAnalysis做过一组对比：同样100万token上下文，DeepSeek V4的KV缓存只占5.48GB显存，智谱GLM5要60GB，阿里Qwen3要89GB——DeepSeek是1.6万亿参数的最大模型，用的显存反而是别人的十分之一。别人搞套餐、搞限额，说到底是推理成本撑不住，只能用时间窗口削峰。DeepSeek的架构从根源上绕开了这个问题。

KV缓存对比：DeepSeek V4 5.48GB vs GLM5 60GB vs Qwen3 89GB（来源：SemiAnalysis/kvcache.ai）

V4-Pro，完整版，1.6万亿参数、1M上下文。没有阉割，没有nano。别人抢购限量的时候，它没有Coding Plan这回事——因为按量计费本身就够便宜，不需要搞套餐。

为什么这么便宜还有利润

别的公司涨价都说亏本，DeepSeek降价还赚钱。很多人觉得不可能——降到原来的四分之一，怎么可能还有钱赚？

第一层：模型架构本身就不费电。

传统大模型像一个万人公司，不管来什么活儿，所有部门全员到齐。DeepSeek的MoE架构不一样——1.6万亿参数的模型，每次推理只激活490亿。就像一个千人的顾问团，你每次只请最对口的几位出来说话，其余人不用到场，差旅费省了大半。

DeepSeek还重新设计了注意力机制。传统模型处理长文本，要把所有内容从头到尾扫一遍。V4的思路是”先粗读全局，再精读重点”——像人看一本书，先翻目录找到相关章节，再仔细读那几页，不用把每一页都盯一遍。100万token的上下文，推理计算量只有上一代的27%，内存占用只有10%。

而且因为KV缓存被压缩得极小，它可以被转存到普通固态硬盘（SSD）上，需要时再高速加载回来。这意味着推理不再依赖昂贵的HBM显存——全球严重短缺的那种。用便宜的存储替代昂贵的显存，这是”用空间换算力”的经典操作，也是DeepSeek敢把缓存价格压到Claude Sonnet缓存命中价不到3%的底气。

kvcache.ai 计算器：DeepSeek V4 Pro 1M上下文仅占4.45GB

第二层：国产算力替代，硬件成本在换底。

去年DeepSeek的训练和推理主要靠英伟达H800。今年，8家国产芯片同步适配V4——爱否等媒体报道，V4首发适配华为昇腾，工程团队把整个技术栈从CUDA迁移到华为CANN框架。相关部门专门发文指导国产大模型适配国产算力芯片。

为什么要换？英伟达的高端芯片对中国禁售，能买到的H20是阉割版，算力只有全球旗舰H200的15-20%。而国产芯片没有出口限制，价格只有英伟达同级别的一半甚至更低，推理性能正在追上来。

第三层：梁文锋算过账，而且他愿意把账公开。

去年3月，DeepSeek主动公开了一组数据：V3和R1的推理系统，日均GPU成本约8.7万美元。如果所有token都按R1的定价收费，理论日收入56.2万美元，成本利润率545%。

当然这是理论值。实际情况是：V3比R1便宜，网页端免费，夜间还有折扣。实际收入远低于56.2万美元。但即便把这些折扣全算上，利润空间还在——因为V3的架构本身就是为低成本推理设计的。

到了V4，效率又比V3上了一档。MoE稀疏激活比例更低，注意力机制更省计算，加上国产算力成本持续释放。成本真降了，不是贴钱降价。

还有一个容易被忽略的事实：DeepSeek背后的幻方量化，是中国最大的量化私募之一。梁文锋从自己的基金里拿钱做AI，不欠VC的账，不用急着盈利还投资人的钱。这意味着他可以选择”成本之上稍微有点利润”的定价策略，而不需要像上市公司那样追求利润最大化。

但这还不是重点。

重点是梁文锋的选择

降价是结果，不是原因。原因是这家公司从成立那天起，就选了一条不一样的路。

2024年7月，36氪”暗涌”团队采访了梁文锋。那是他少有的公开访谈。

“我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

“无论API，还是AI，都应该是普惠的、人人可以用得起的东西。”

“这一波浪潮里，我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。”

“中国AI不可能永远处在跟随的位置。 我们经常说中国AI和美国有一两年差距，但真实的gap是原创和模仿之差。”

“我们不会闭源。我们认为先有一个强大的技术生态更重要。在颠覆性的技术面前，闭源形成的护城河是短暂的。”

DeepSeek是中国7家大模型创业公司里，至今专注在研究和技术、未做toC应用的一家，也是坚定选择开源路线、此前从未融过资的一家。

5月22日同一天，彭博报道称DeepSeek正在推进700亿元融资。梁文锋在投资者会议上怎么说的？——继续开发开源模型，追求AGI，主要目标是推动技术边界，不是尽快变现。

700亿的钱摆在桌上，他说的还是那句话。

两种活法

昨天我刚写了一篇，叫”为什么我愿意等DeepSeek的Agent”。Agent还没发，谁也不知道能做到什么程度。但愿意等的理由，是用出来的。

DeepSeek还没出名的时候，我就在用它的API了。那时候没有什么”国产之光”的光环，就是一个安安静静提供API的小团队。用着用着你就发现了——不限调用、不随便封号、价格压到了同行几分之一，输出还稳定靠谱。

说多优秀吧，也不算最顶尖。但论干活、论稳定，几乎没有比它更踏实的。在国内的环境下，它能做到这份上，真不容易。效果中上，不花哨，但每次都交得出活。多个版本的迭代，每次都有实实在在的东西，不搞花活不画大饼。

这种信任不是一天攒出来的。是因为定价哲学、做产品的态度、一贯的质量，综合在一起，才让人觉得——它出手的东西，值得等。

也写过智谱涨价。涨价没问题，商业化要赚钱天经地义。但4个月涨83%——回头看，这条路的尽头是什么？

智谱市值3872亿港元，MiniMax市值2410亿港元，两家刚在港股上市就涨了5-8倍。Anthropic三个月估值从3800亿冲向9000亿。OpenAI估值8520亿，还在融资。

上市要讲增长故事，增长要靠提价，提价要靠”更聪明的模型值更多钱”的逻辑。闭环了，但这个闭环里没有用户——用户是付费工具，不是目的。

梁文锋的路完全反过来。去年暗涌的访谈里，他说过一句话：“过去的三十多年，我们都只强调赚钱，对创新是忽视的。创新不完全是商业驱动的，还需要好奇心和创造欲。我们只是被过去那种惯性束缚了，但它也是阶段性的。”

一个做量化基金出身的人，手里有万张A100，有700亿融资在谈，选择把AI做成水和电。

昇腾超节点今年四季度批量交付，8192张卡的集群专门为MoE推理设计。到那个节点上线，推理成本还会再降一档。这次永久降价，可能只是个开始。

而另一边，OpenAI在造迪士尼——4亿周活、8520亿估值、ChatGPT Plus涨到200美元/月。Anthropic在筑墙——收紧API、封禁账户、推动美国政府限制中国模型蒸馏。

一边把AI当基础设施，柴米油盐，越便宜越好。一边把AI当奢侈品，越贵越有人买。

对普通人来说，是他不用再担心账号被封、不用再算每次调用的成本、不用再纠结”这个功能要不要砍掉”的底气。

AI到底该是什么？

是少数人的奢侈品，还是所有人的基础设施？

梁文锋已经选了。他说的那句话，今天看，不像是场面话：“无论API，还是AI，都应该是普惠的、人人可以用得起的东西。”

这话搁别的CEO嘴里，我会觉得是公关稿。

但一个把2.5折变成永久定价的人说这话，我信。