别人按智商收费、限量抢购、隐形加价。DeepSeek把V4-Pro的2.5折优惠直接固定下来,不恢复了。网页版免费,命中缓存几乎免费。

5月22号,DeepSeek发了个公告,很短:V4-Pro的2.5折优惠活动,原定5月31日到期恢复原价——现在不恢复了。2.5折,不恢复了。

这个折扣是怎么来的?4月24日V4-Pro发布,26号开了2.5折特惠,原计划到5月5日结束。后来延长到5月31日。再后来,直接永久化。
从”限时活动”到”这就是我们的定价”,中间只有一个月。说明一件事:他们跑了一个月的数据,确认了这个价格是可持续的。成本真降了,定价跟着降,不是烧钱换市场。
缓存命中输入0.025元/百万token,输出6元/百万token。
“缓存命中”什么意思?打个比方:你每次跟AI聊天,其实有一大段内容是重复的——系统提示词、之前聊过的上下文、固定的格式要求。这部分每次都重新算一遍,等于你每次点外卖,厨师都从种菜开始。缓存命中的意思是,厨师把常备食材提前切好了,你一喊,直接下锅。
其实各家都有缓存机制,但折扣力度差很远:
- DeepSeek V4-Pro:缓存命中输入0.025元,正常输入3元。缓存是正常价的0.8%,接近免费
- OpenAI GPT-5.5:缓存输入$0.50,正常$5.00。缓存是正常的10%
- Anthropic Opus 4.7:缓存命中$0.50,正常$5.00。缓存是正常的10%。但写入缓存还要额外付$6.25(5分钟)或$10(1小时)
- 智谱 GLM-5:缓存命中1元,正常输入4元。缓存是正常的25%
- Google Gemini 2.5+:自动缓存,不需要手动开启。命中后自动降价
所有一线模型都有缓存,但DeepSeek的缓存折扣最狠——0.8%对别人的10%,差了12倍。智谱的缓存折扣是25%,DeepSeek是智谱的30分之一。原因是MLA架构把KV Cache压缩得极小,存起来几乎不占资源,所以敢把缓存价格压到几乎白送。
整本《挪威的森林》喂进去,缓存命中后不到一分钱。别人家也能缓存,但做不到这个价。
全行业的定价,各有各的算盘
DeepSeek在降价。其余各家呢?
得从两个角度看:API定价和Coding Plan订阅。前者是开发者按量付费,后者是大多数人为编程AI,Agent (claude code , open claw , Hermes…)掏钱的实际方式。
API:按智商收费的和在降价的
各家当前旗舰模型的API定价(数据来自各厂商官网,2026年5月):
- DeepSeek V4-Pro:输入3元、输出6元(2.5折后)。缓存命中输入0.025元
- Google Gemini 2.5 Pro:输入9元、输出72元。最新Gemini 3.5 Flash输入5.4元、输出32元,Google持续降价中
- 阿里 Qwen3.7-Max:输入12元、输出36元(限时5折后实际6元、18元)。过去一年多次主动降价
- 智谱 GLM-5:输入4元、输出18元(≤32K上下文)。缓存命中1元。4个月涨了3次价,累计涨83%
- OpenAI GPT-5.5:输入36元、输出216元。GPT-5.5 Pro输出1296元
- Anthropic Claude Opus 4.7:输入36元、输出180元。Sonnet 4.6输入22元、输出108元
OpenAI的逻辑是”按智商收费”。 GPT-5.5 Pro输出1296元/百万token,比GPT-5.4贵了12倍——功能没多12倍,定价逻辑就是”更聪明就该更贵”。低端模型GPT-5.4 nano只要1.4元输出,跟DeepSeek一个量级,但那是阉割版。
Anthropic的逻辑是”高端溢价+隐形加价”。 Opus 4.7官方定价看着还行,但相同代码消耗的token数比前代增加了35%——价格没变,你花的钱变多了。订阅额度用完不会停,自动按API费率继续扣,每日上限2000美元。
智谱的逻辑是”筛选客户”。 CEO张鹏说得很直白:“瓶颈在算力,不在客户。”4个月涨83%,调用量不降反增400%——潜台词:算力有限,先紧着付得起的人用。
Coding Plan:全球都在涨、限量、停售
大多数人不直接用API,用的是订阅制的编程工具。国内外都在收紧。
Claude Code,目前公认最强的编程Agent,只能通过Anthropic Max订阅使用——$100/月或$200/月两档。$200档今年春天一度要排队抢购,waitlist排了不知道多长。一个编程工具,硬生生抢出了限量版球鞋的感觉。而且$200档也不是无限量用,到一定程度会降速。
Cursor $20/月起步,但已经拆成了Pro、Pro+、Ultra三档。原来的”无限premium requests”早没了——现在是”智能体扩展限额”,超出后按用量计费。档位越低,限额越紧,想多用就往上加钱。
ChatGPT Pro $200/月,含Codex编程Agent。比Plus贵了10倍,高级编程功能全在这个档里。
GitHub Copilot 原来Pro $10/月挺厚道,今年新出了Pro+ $39/月——Agent功能和多模型选择都放进了更贵的档。
国内呢? 涨价,或停售。
阿里云百炼4月13日关闭了Lite套餐(40元/月)的续费,之前已经停了新购。Pro版长期售罄,每天限量补货秒光。从2月”首月7.9元”抢市场,到4月全面撤退,只用了两个月。
腾讯云更干脆——Coding Plan活动页面直接显示”本次活动已结束”,全面转向按量计费的Token Plan。模型服务价格涨了最高456%。
智谱的Coding Plan每天10点开放抢购,网站挤不进去是常态。2月份刚涨过一轮,Lite从40元涨到49元。高峰时段(下午2-6点)用GLM-5,每个Prompt消耗3个额度单位——等于可用次数只有非高峰的三分之一, 后来全部加限额。
MiniMax还在卖,29元到199元几档。但它的高端档Ultra-极速版(899元/月)已经悄悄下架了。
为什么全球Coding Plan都在收紧? 三个字:收不回。包月不限次的模式下,一个重度用户的算力成本可能数百甚至上千元,厂商只能收几十块。行业内部测算,“收1亏10”——每收1元订阅费,要补贴10元算力成本。Agent 今年爆火之后,大量开发者同时高频调用,算力被严重挤兑。
从”争相入场”到”全面撤退”,不到半年。
DeepSeek的另一个位面
然后你看DeepSeek。
网页版聊天,完全免费。 不只是V4-Pro,所有模型、深度思考、智能搜索,全部免费。没有Pro版,没有会员,没有订阅。
API按量计费,没有限额,没有时间窗口。 账户有余额就一直跑,凌晨三点赶deadline也一样。不用抢购,不用等10点补货,不用算着次数用。
回头看看各家的Coding Plan——智谱Pro ¥149/月,每5小时限额约400次prompts,每周还有总额度上限。听起来不少,但你用Agent编程工具(Claude Code、Cursor这类),对话框里发一条指令,底层可能触发15-20次模型调用。400次的限额,实际可能就对应20-25次用户操作。写两个函数、调一个bug,额度就见底了。然后呢?等5小时刷新。你的工作不会等你,但套餐的限额会让你等。
Claude Max $100-200/月,ChatGPT Pro $200/月,到量也会降速。国内各家就更不用说了——停售的停售,涨价的涨价。
DeepSeek没有这个问题。它的模型架构把推理成本压到了一个不需要靠”限额”来控制支出的水平。半导体分析机构SemiAnalysis做过一组对比:同样100万token上下文,DeepSeek V4的KV缓存只占5.48GB显存,智谱GLM5要60GB,阿里Qwen3要89GB——DeepSeek是1.6万亿参数的最大模型,用的显存反而是别人的十分之一。别人搞套餐、搞限额,说到底是推理成本撑不住,只能用时间窗口削峰。DeepSeek的架构从根源上绕开了这个问题。

V4-Pro,完整版,1.6万亿参数、1M上下文。没有阉割,没有nano。别人抢购限量的时候,它没有Coding Plan这回事——因为按量计费本身就够便宜,不需要搞套餐。
为什么这么便宜还有利润
别的公司涨价都说亏本,DeepSeek降价还赚钱。很多人觉得不可能——降到原来的四分之一,怎么可能还有钱赚?
第一层:模型架构本身就不费电。
传统大模型像一个万人公司,不管来什么活儿,所有部门全员到齐。DeepSeek的MoE架构不一样——1.6万亿参数的模型,每次推理只激活490亿。就像一个千人的顾问团,你每次只请最对口的几位出来说话,其余人不用到场,差旅费省了大半。
DeepSeek还重新设计了注意力机制。传统模型处理长文本,要把所有内容从头到尾扫一遍。V4的思路是”先粗读全局,再精读重点”——像人看一本书,先翻目录找到相关章节,再仔细读那几页,不用把每一页都盯一遍。100万token的上下文,推理计算量只有上一代的27%,内存占用只有10%。
而且因为KV缓存被压缩得极小,它可以被转存到普通固态硬盘(SSD)上,需要时再高速加载回来。这意味着推理不再依赖昂贵的HBM显存——全球严重短缺的那种。用便宜的存储替代昂贵的显存,这是”用空间换算力”的经典操作,也是DeepSeek敢把缓存价格压到Claude Sonnet缓存命中价不到3%的底气。

第二层:国产算力替代,硬件成本在换底。
去年DeepSeek的训练和推理主要靠英伟达H800。今年,8家国产芯片同步适配V4——爱否等媒体报道,V4首发适配华为昇腾,工程团队把整个技术栈从CUDA迁移到华为CANN框架。相关部门专门发文指导国产大模型适配国产算力芯片。
为什么要换?英伟达的高端芯片对中国禁售,能买到的H20是阉割版,算力只有全球旗舰H200的15-20%。而国产芯片没有出口限制,价格只有英伟达同级别的一半甚至更低,推理性能正在追上来。
第三层:梁文锋算过账,而且他愿意把账公开。
去年3月,DeepSeek主动公开了一组数据:V3和R1的推理系统,日均GPU成本约8.7万美元。如果所有token都按R1的定价收费,理论日收入56.2万美元,成本利润率545%。
当然这是理论值。实际情况是:V3比R1便宜,网页端免费,夜间还有折扣。实际收入远低于56.2万美元。但即便把这些折扣全算上,利润空间还在——因为V3的架构本身就是为低成本推理设计的。
到了V4,效率又比V3上了一档。MoE稀疏激活比例更低,注意力机制更省计算,加上国产算力成本持续释放。成本真降了,不是贴钱降价。
还有一个容易被忽略的事实:DeepSeek背后的幻方量化,是中国最大的量化私募之一。梁文锋从自己的基金里拿钱做AI,不欠VC的账,不用急着盈利还投资人的钱。这意味着他可以选择”成本之上稍微有点利润”的定价策略,而不需要像上市公司那样追求利润最大化。
但这还不是重点。
重点是梁文锋的选择
降价是结果,不是原因。原因是这家公司从成立那天起,就选了一条不一样的路。
2024年7月,36氪”暗涌”团队采访了梁文锋。那是他少有的公开访谈。
“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”
“无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”
“这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”
“中国AI不可能永远处在跟随的位置。 我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。”
“我们不会闭源。我们认为先有一个强大的技术生态更重要。在颠覆性的技术面前,闭源形成的护城河是短暂的。”
DeepSeek是中国7家大模型创业公司里,至今专注在研究和技术、未做toC应用的一家,也是坚定选择开源路线、此前从未融过资的一家。
5月22日同一天,彭博报道称DeepSeek正在推进700亿元融资。梁文锋在投资者会议上怎么说的?——继续开发开源模型,追求AGI,主要目标是推动技术边界,不是尽快变现。
700亿的钱摆在桌上,他说的还是那句话。
两种活法
昨天我刚写了一篇,叫”为什么我愿意等DeepSeek的Agent”。Agent还没发,谁也不知道能做到什么程度。但愿意等的理由,是用出来的。
DeepSeek还没出名的时候,我就在用它的API了。那时候没有什么”国产之光”的光环,就是一个安安静静提供API的小团队。用着用着你就发现了——不限调用、不随便封号、价格压到了同行几分之一,输出还稳定靠谱。
说多优秀吧,也不算最顶尖。但论干活、论稳定,几乎没有比它更踏实的。在国内的环境下,它能做到这份上,真不容易。效果中上,不花哨,但每次都交得出活。多个版本的迭代,每次都有实实在在的东西,不搞花活不画大饼。
这种信任不是一天攒出来的。是因为定价哲学、做产品的态度、一贯的质量,综合在一起,才让人觉得——它出手的东西,值得等。
也写过智谱涨价。涨价没问题,商业化要赚钱天经地义。但4个月涨83%——回头看,这条路的尽头是什么?
智谱市值3872亿港元,MiniMax市值2410亿港元,两家刚在港股上市就涨了5-8倍。Anthropic三个月估值从3800亿冲向9000亿。OpenAI估值8520亿,还在融资。
上市要讲增长故事,增长要靠提价,提价要靠”更聪明的模型值更多钱”的逻辑。闭环了,但这个闭环里没有用户——用户是付费工具,不是目的。
梁文锋的路完全反过来。去年暗涌的访谈里,他说过一句话:“过去的三十多年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。”
一个做量化基金出身的人,手里有万张A100,有700亿融资在谈,选择把AI做成水和电。
昇腾超节点今年四季度批量交付,8192张卡的集群专门为MoE推理设计。到那个节点上线,推理成本还会再降一档。这次永久降价,可能只是个开始。
而另一边,OpenAI在造迪士尼——4亿周活、8520亿估值、ChatGPT Plus涨到200美元/月。Anthropic在筑墙——收紧API、封禁账户、推动美国政府限制中国模型蒸馏。
一边把AI当基础设施,柴米油盐,越便宜越好。一边把AI当奢侈品,越贵越有人买。
对普通人来说,是他不用再担心账号被封、不用再算每次调用的成本、不用再纠结”这个功能要不要砍掉”的底气。
AI到底该是什么?
是少数人的奢侈品,还是所有人的基础设施?
梁文锋已经选了。他说的那句话,今天看,不像是场面话:“无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”
这话搁别的CEO嘴里,我会觉得是公关稿。
但一个把2.5折变成永久定价的人说这话,我信。