AiCC

/ AI知识共创
首页知识深度AI 行业情报商业业务知识库活动
保持联系
返回列表
AI 实战2026年6月13日

全行业涨价,它降了75%,还融了700亿

作者 小虾子

别人按智商收费、限量抢购、隐形加价。DeepSeek把V4-Pro的2.5折优惠直接固定下来,不恢复了。网页版免费,命中缓存几乎免费。

封面:全行业涨价 vs DeepSeek 降价75%
封面:全行业涨价 vs DeepSeek 降价75%

5月22号,DeepSeek发了个公告,很短:V4-Pro的2.5折优惠活动,原定5月31日到期恢复原价——现在不恢复了。2.5折,不恢复了。

DeepSeek V4-Pro 定价页,75% off 标记和删除线原价
DeepSeek V4-Pro 定价页,75% off 标记和删除线原价

这个折扣是怎么来的?4月24日V4-Pro发布,26号开了2.5折特惠,原计划到5月5日结束。后来延长到5月31日。再后来,直接永久化。

从”限时活动”到”这就是我们的定价”,中间只有一个月。说明一件事:他们跑了一个月的数据,确认了这个价格是可持续的。成本真降了,定价跟着降,不是烧钱换市场。

缓存命中输入0.025元/百万token,输出6元/百万token。

“缓存命中”什么意思?打个比方:你每次跟AI聊天,其实有一大段内容是重复的——系统提示词、之前聊过的上下文、固定的格式要求。这部分每次都重新算一遍,等于你每次点外卖,厨师都从种菜开始。缓存命中的意思是,厨师把常备食材提前切好了,你一喊,直接下锅。

其实各家都有缓存机制,但折扣力度差很远:

  • DeepSeek V4-Pro:缓存命中输入0.025元,正常输入3元。缓存是正常价的0.8%,接近免费
  • OpenAI GPT-5.5:缓存输入$0.50,正常$5.00。缓存是正常的10%
  • Anthropic Opus 4.7:缓存命中$0.50,正常$5.00。缓存是正常的10%。但写入缓存还要额外付$6.25(5分钟)或$10(1小时)
  • 智谱 GLM-5:缓存命中1元,正常输入4元。缓存是正常的25%
  • Google Gemini 2.5+:自动缓存,不需要手动开启。命中后自动降价

所有一线模型都有缓存,但DeepSeek的缓存折扣最狠——0.8%对别人的10%,差了12倍。智谱的缓存折扣是25%,DeepSeek是智谱的30分之一。原因是MLA架构把KV Cache压缩得极小,存起来几乎不占资源,所以敢把缓存价格压到几乎白送。

整本《挪威的森林》喂进去,缓存命中后不到一分钱。别人家也能缓存,但做不到这个价。

全行业的定价,各有各的算盘

DeepSeek在降价。其余各家呢?

得从两个角度看:API定价和Coding Plan订阅。前者是开发者按量付费,后者是大多数人为编程AI,Agent (claude code , open claw , Hermes…)掏钱的实际方式。

API:按智商收费的和在降价的

各家当前旗舰模型的API定价(数据来自各厂商官网,2026年5月):

  • DeepSeek V4-Pro:输入3元、输出6元(2.5折后)。缓存命中输入0.025元
  • Google Gemini 2.5 Pro:输入9元、输出72元。最新Gemini 3.5 Flash输入5.4元、输出32元,Google持续降价中
  • 阿里 Qwen3.7-Max:输入12元、输出36元(限时5折后实际6元、18元)。过去一年多次主动降价
  • 智谱 GLM-5:输入4元、输出18元(≤32K上下文)。缓存命中1元。4个月涨了3次价,累计涨83%
  • OpenAI GPT-5.5:输入36元、输出216元。GPT-5.5 Pro输出1296元
  • Anthropic Claude Opus 4.7:输入36元、输出180元。Sonnet 4.6输入22元、输出108元

OpenAI的逻辑是”按智商收费”。 GPT-5.5 Pro输出1296元/百万token,比GPT-5.4贵了12倍——功能没多12倍,定价逻辑就是”更聪明就该更贵”。低端模型GPT-5.4 nano只要1.4元输出,跟DeepSeek一个量级,但那是阉割版。

Anthropic的逻辑是”高端溢价+隐形加价”。 Opus 4.7官方定价看着还行,但相同代码消耗的token数比前代增加了35%——价格没变,你花的钱变多了。订阅额度用完不会停,自动按API费率继续扣,每日上限2000美元。

智谱的逻辑是”筛选客户”。 CEO张鹏说得很直白:“瓶颈在算力,不在客户。”4个月涨83%,调用量不降反增400%——潜台词:算力有限,先紧着付得起的人用。

Coding Plan:全球都在涨、限量、停售

大多数人不直接用API,用的是订阅制的编程工具。国内外都在收紧。

Claude Code,目前公认最强的编程Agent,只能通过Anthropic Max订阅使用——$100/月或$200/月两档。$200档今年春天一度要排队抢购,waitlist排了不知道多长。一个编程工具,硬生生抢出了限量版球鞋的感觉。而且$200档也不是无限量用,到一定程度会降速。

Cursor $20/月起步,但已经拆成了Pro、Pro+、Ultra三档。原来的”无限premium requests”早没了——现在是”智能体扩展限额”,超出后按用量计费。档位越低,限额越紧,想多用就往上加钱。

ChatGPT Pro $200/月,含Codex编程Agent。比Plus贵了10倍,高级编程功能全在这个档里。

GitHub Copilot 原来Pro $10/月挺厚道,今年新出了Pro+ $39/月——Agent功能和多模型选择都放进了更贵的档。

国内呢? 涨价,或停售。

阿里云百炼4月13日关闭了Lite套餐(40元/月)的续费,之前已经停了新购。Pro版长期售罄,每天限量补货秒光。从2月”首月7.9元”抢市场,到4月全面撤退,只用了两个月。

腾讯云更干脆——Coding Plan活动页面直接显示”本次活动已结束”,全面转向按量计费的Token Plan。模型服务价格涨了最高456%。

智谱的Coding Plan每天10点开放抢购,网站挤不进去是常态。2月份刚涨过一轮,Lite从40元涨到49元。高峰时段(下午2-6点)用GLM-5,每个Prompt消耗3个额度单位——等于可用次数只有非高峰的三分之一, 后来全部加限额。

MiniMax还在卖,29元到199元几档。但它的高端档Ultra-极速版(899元/月)已经悄悄下架了。

为什么全球Coding Plan都在收紧? 三个字:收不回。包月不限次的模式下,一个重度用户的算力成本可能数百甚至上千元,厂商只能收几十块。行业内部测算,“收1亏10”——每收1元订阅费,要补贴10元算力成本。Agent 今年爆火之后,大量开发者同时高频调用,算力被严重挤兑。

从”争相入场”到”全面撤退”,不到半年。

DeepSeek的另一个位面

然后你看DeepSeek。

网页版聊天,完全免费。 不只是V4-Pro,所有模型、深度思考、智能搜索,全部免费。没有Pro版,没有会员,没有订阅。

API按量计费,没有限额,没有时间窗口。 账户有余额就一直跑,凌晨三点赶deadline也一样。不用抢购,不用等10点补货,不用算着次数用。

回头看看各家的Coding Plan——智谱Pro ¥149/月,每5小时限额约400次prompts,每周还有总额度上限。听起来不少,但你用Agent编程工具(Claude Code、Cursor这类),对话框里发一条指令,底层可能触发15-20次模型调用。400次的限额,实际可能就对应20-25次用户操作。写两个函数、调一个bug,额度就见底了。然后呢?等5小时刷新。你的工作不会等你,但套餐的限额会让你等。

Claude Max $100-200/月,ChatGPT Pro $200/月,到量也会降速。国内各家就更不用说了——停售的停售,涨价的涨价。

DeepSeek没有这个问题。它的模型架构把推理成本压到了一个不需要靠”限额”来控制支出的水平。半导体分析机构SemiAnalysis做过一组对比:同样100万token上下文,DeepSeek V4的KV缓存只占5.48GB显存,智谱GLM5要60GB,阿里Qwen3要89GB——DeepSeek是1.6万亿参数的最大模型,用的显存反而是别人的十分之一。别人搞套餐、搞限额,说到底是推理成本撑不住,只能用时间窗口削峰。DeepSeek的架构从根源上绕开了这个问题。

KV缓存对比:DeepSeek V4 5.48GB vs GLM5 60GB vs Qwen3 89GB(来源:SemiAnalysis/kvcache.ai)
KV缓存对比:DeepSeek V4 5.48GB vs GLM5 60GB vs Qwen3 89GB(来源:SemiAnalysis/kvcache.ai)

V4-Pro,完整版,1.6万亿参数、1M上下文。没有阉割,没有nano。别人抢购限量的时候,它没有Coding Plan这回事——因为按量计费本身就够便宜,不需要搞套餐。

为什么这么便宜还有利润

别的公司涨价都说亏本,DeepSeek降价还赚钱。很多人觉得不可能——降到原来的四分之一,怎么可能还有钱赚?

第一层:模型架构本身就不费电。

传统大模型像一个万人公司,不管来什么活儿,所有部门全员到齐。DeepSeek的MoE架构不一样——1.6万亿参数的模型,每次推理只激活490亿。就像一个千人的顾问团,你每次只请最对口的几位出来说话,其余人不用到场,差旅费省了大半。

DeepSeek还重新设计了注意力机制。传统模型处理长文本,要把所有内容从头到尾扫一遍。V4的思路是”先粗读全局,再精读重点”——像人看一本书,先翻目录找到相关章节,再仔细读那几页,不用把每一页都盯一遍。100万token的上下文,推理计算量只有上一代的27%,内存占用只有10%。

而且因为KV缓存被压缩得极小,它可以被转存到普通固态硬盘(SSD)上,需要时再高速加载回来。这意味着推理不再依赖昂贵的HBM显存——全球严重短缺的那种。用便宜的存储替代昂贵的显存,这是”用空间换算力”的经典操作,也是DeepSeek敢把缓存价格压到Claude Sonnet缓存命中价不到3%的底气。

kvcache.ai 计算器:DeepSeek V4 Pro 1M上下文仅占4.45GB
kvcache.ai 计算器:DeepSeek V4 Pro 1M上下文仅占4.45GB

第二层:国产算力替代,硬件成本在换底。

去年DeepSeek的训练和推理主要靠英伟达H800。今年,8家国产芯片同步适配V4——爱否等媒体报道,V4首发适配华为昇腾,工程团队把整个技术栈从CUDA迁移到华为CANN框架。相关部门专门发文指导国产大模型适配国产算力芯片。

为什么要换?英伟达的高端芯片对中国禁售,能买到的H20是阉割版,算力只有全球旗舰H200的15-20%。而国产芯片没有出口限制,价格只有英伟达同级别的一半甚至更低,推理性能正在追上来。

第三层:梁文锋算过账,而且他愿意把账公开。

去年3月,DeepSeek主动公开了一组数据:V3和R1的推理系统,日均GPU成本约8.7万美元。如果所有token都按R1的定价收费,理论日收入56.2万美元,成本利润率545%。

当然这是理论值。实际情况是:V3比R1便宜,网页端免费,夜间还有折扣。实际收入远低于56.2万美元。但即便把这些折扣全算上,利润空间还在——因为V3的架构本身就是为低成本推理设计的。

到了V4,效率又比V3上了一档。MoE稀疏激活比例更低,注意力机制更省计算,加上国产算力成本持续释放。成本真降了,不是贴钱降价。

还有一个容易被忽略的事实:DeepSeek背后的幻方量化,是中国最大的量化私募之一。梁文锋从自己的基金里拿钱做AI,不欠VC的账,不用急着盈利还投资人的钱。这意味着他可以选择”成本之上稍微有点利润”的定价策略,而不需要像上市公司那样追求利润最大化。

但这还不是重点。

重点是梁文锋的选择

降价是结果,不是原因。原因是这家公司从成立那天起,就选了一条不一样的路。

2024年7月,36氪”暗涌”团队采访了梁文锋。那是他少有的公开访谈。

“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

“无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”

“这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”

“中国AI不可能永远处在跟随的位置。 我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。”

“我们不会闭源。我们认为先有一个强大的技术生态更重要。在颠覆性的技术面前,闭源形成的护城河是短暂的。”

DeepSeek是中国7家大模型创业公司里,至今专注在研究和技术、未做toC应用的一家,也是坚定选择开源路线、此前从未融过资的一家。

5月22日同一天,彭博报道称DeepSeek正在推进700亿元融资。梁文锋在投资者会议上怎么说的?——继续开发开源模型,追求AGI,主要目标是推动技术边界,不是尽快变现。

700亿的钱摆在桌上,他说的还是那句话。

两种活法

昨天我刚写了一篇,叫”为什么我愿意等DeepSeek的Agent”。Agent还没发,谁也不知道能做到什么程度。但愿意等的理由,是用出来的。

DeepSeek还没出名的时候,我就在用它的API了。那时候没有什么”国产之光”的光环,就是一个安安静静提供API的小团队。用着用着你就发现了——不限调用、不随便封号、价格压到了同行几分之一,输出还稳定靠谱。

说多优秀吧,也不算最顶尖。但论干活、论稳定,几乎没有比它更踏实的。在国内的环境下,它能做到这份上,真不容易。效果中上,不花哨,但每次都交得出活。多个版本的迭代,每次都有实实在在的东西,不搞花活不画大饼。

这种信任不是一天攒出来的。是因为定价哲学、做产品的态度、一贯的质量,综合在一起,才让人觉得——它出手的东西,值得等。

也写过智谱涨价。涨价没问题,商业化要赚钱天经地义。但4个月涨83%——回头看,这条路的尽头是什么?

智谱市值3872亿港元,MiniMax市值2410亿港元,两家刚在港股上市就涨了5-8倍。Anthropic三个月估值从3800亿冲向9000亿。OpenAI估值8520亿,还在融资。

上市要讲增长故事,增长要靠提价,提价要靠”更聪明的模型值更多钱”的逻辑。闭环了,但这个闭环里没有用户——用户是付费工具,不是目的。

梁文锋的路完全反过来。去年暗涌的访谈里,他说过一句话:“过去的三十多年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。”

一个做量化基金出身的人,手里有万张A100,有700亿融资在谈,选择把AI做成水和电。

昇腾超节点今年四季度批量交付,8192张卡的集群专门为MoE推理设计。到那个节点上线,推理成本还会再降一档。这次永久降价,可能只是个开始。

而另一边,OpenAI在造迪士尼——4亿周活、8520亿估值、ChatGPT Plus涨到200美元/月。Anthropic在筑墙——收紧API、封禁账户、推动美国政府限制中国模型蒸馏。

一边把AI当基础设施,柴米油盐,越便宜越好。一边把AI当奢侈品,越贵越有人买。

对普通人来说,是他不用再担心账号被封、不用再算每次调用的成本、不用再纠结”这个功能要不要砍掉”的底气。

AI到底该是什么?

是少数人的奢侈品,还是所有人的基础设施?

梁文锋已经选了。他说的那句话,今天看,不像是场面话:“无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”

这话搁别的CEO嘴里,我会觉得是公关稿。

但一个把2.5折变成永久定价的人说这话,我信。

原文发布于 AiCC,转载或引用请注明出处

We don't just produce information, we reconstruct knowledge. Elevating AI efficiency to an architectural art form.

Follow
公众号
公众号:AI知识共创
小程序
小程序:AI信息王哥
Explore
  • 首页
  • 知识深度
  • AI 行业情报
  • 商业业务
  • 知识库
  • 活动
Connect
  • 活动论坛
  • AI账号
  • 提示词商城
  • AI网址导航
  • 自媒体进化
  • AI应用分享
© 2023 AiCC · JOVI / AI Creative commons
POWERED BY Claude code