5月31日是DeepSeek本月的又一个重要节点——不是崩溃,而是API永久降价方案从今日起正式生效。
而就在前天,DeepSeek刚刚经历了本月第五次服务异常,网页对话及API中断29分钟。自2026年以来,这已经是它的第18次部分性能异常。
更让用户焦虑的是,5月29日DeepSeek悄然开始限制重新生成和修改次数。普通对话中,连续重新生成3到6次就会达到上限;专家模式下,可能只有3次机会。
越火越崩,越崩越限。
当用户敲下“重启抽卡式体验”的按钮却被系统拒之门外时,这家国产AI的标杆公司终于撕开了大模型赛道上一个不得不面对的伤口:免费不是护城河,算力才是。
一、“免费AI”正在悄悄隐形涨价
DeepSeek网页端仍然是免费的。但这个“免费”,味道越来越不一样了。
5月22日,DeepSeek宣布V4-Pro模型的API价格永久降至原价1/4,保留2.5折优惠。V4-Pro永久定价敲定后,输入(缓存命中)仅需每百万tokens 0.025元——这大约是GPT-5.5 Pro价格的1/72,企业使用成本可降90%以上。
如果说API降价是企业端的“福利”,那么C端用户的“待遇”则在同步收窄。5月28日服务中断之后,DeepSeek悄然增加了“重新生成次数限制”和“修改消息限制”。官方解释给出了一个不加掩饰的理由:算力压力太大。
免费用户“无限重抽”式体验被切断了。每一次“重新生成”,对服务器来说都是一次全新的推理请求。在算力被压到喘不过气的今天,免费版的内核正在悄然打折——不是直接收钱,而是用功能体验换生存空间。
就在DeepSeek悄悄限流的同时,坐拥3.45亿月活的豆包已正式推出三档付费版本:标准版68元/月、加强版200元/月、专业版500元/月。国内市场上,Kimi的付费会员定价在49元及99元两档,智谱AI和MiniMax的基础会员则在30元至60元之间。就连海外标杆ChatGPT Plus(20美元/月)也远未覆盖运营成本——2024年OpenAI的运营亏损仍然高达50亿美元。
而在API的战场,“免费”的幻觉正在更加彻底地被打碎。DeepSeek与小米的“光速降价”已点燃一场价格战的火药,小米宣布MiMo-V2.5系列API永久降价,最高降幅达99%。
算力是绝对的不可再生资源:HBM价格半年暴涨超500%,高端GPU紧缺,AI算力的供需矛盾不存在单纯的免费市场。DeepSeek网页端的免费,要么像今天一样功能缩水,要么像API一样间接明码标价。
二、算力“黑洞”面前,没有人能独善其身
DeepSeek的算力饥渴不是意外,是必然。
根据OpenRouter数据,上周(5月18日至24日),全球大模型总调用量攀升至28.9万亿Token,连续五周上涨,中国模型以9.22万亿Token连续四周超越美国领跑全球。在当月调用量统计中,DeepSeek三款模型合计超17万亿Token——V4 Flash独占9.13万亿,V3.2占4.07万亿,V4 Pro占3.89万亿,同时跻身全球调用量前十。
而驱动这场算力海啸的引擎已经彻底换血:排名前两位的Agent应用Hermes Agent和OpenClaw,月调用量分别达10.8万亿和6.25万亿Token。Agent系统像一个微缩工作流,单次任务动辄触发上百轮大模型调用,反复验证多次执行,负载从GB级直冲TB级。今天的算力消耗模型,和去年已经不是一回事。
成本在哪边?云服务侧的调价给出了答案。腾讯云AI算力价格在4月宣布上调5%,这是它在不到一个月内的第二次调价——3月已将混元HY2.0 Instruct模型输入价格从每千词元0.0008元涨至0.004505元,涨幅高达463%。阿里云一季度AI相关营收89.71亿元,首次占外部商业化收入超30%。
DeepSeek面临的算力消耗曲线,比同行陡得多,而它的承压点更大:网页端“不限量”免费模式让每一次用户交互都绕不开刚性算力成本。体量越大,缺口越烈——而硬件成本只能等比膨胀。
算力压力真实体现在一线。除重启/修改强制限流外,DeepSeek此前已经连续下架了专家模式文件上传、关闭了智能搜索功能,高频卡死的频率越来越高。这印证了一个残酷的事实:算力不只关乎用户服务体验,还正在深刻影响功能设计的取舍。在AI世界里,你给用户展示了什么功能,取决于你买得起多少块显卡。
三、全行业的“免费天花板”已经被撞穿
在芯片涨价、算力价格走高的大背景下,DeepSeek、阿里、腾讯这类大厂还在降API价格,逻辑在哪里?
答案是:缓存命中率的大幅优化。大模型生成文本耗时很大程度上取决于“是否可以通过缓存直接命中已处理的部分”。缓存命中次数越多,每次对话的单次算力压力就越轻。DeepSeek V4采用自研稀疏注意力机制,在百万级长上下文推理中,算力消耗仅为上代产品的27%。
降价不等于赔本赚吆喝——它是技术优化的红利释放,是“在同样硬件的负担下,接更多的用户”。这也解释了为何小米能以最高99%的降幅跟进降价——MiMo团队将多级存储间的缓存数据搬运量降至优化前的七分之一,可缓存Token数量提升了近5倍。
然而,技术红利只能延迟算力危机的爆发,不能消除它。德勤研究发现,67%的企业每月消耗超过10亿Tokens;Uber的CTO更是直言,全年AI预算才过几个月就已花完。中金公司测算,当Agent渗透率仅达8% 时,其带来的总Token消耗量就与纯Chatbot相当。换句话说,Agent时代算力需求的增长,不是线性,是平方甚至指数级。
这是全行业的共同困境:你技术再好、优化再强,终究要面对一个冰冷的天花板——物理世界的芯片供给永远赶不上需求爆发的速度。
这也是为什么学界与研究机构一致认为,AI产业“以烧钱换流量”的免费时代实质上已走到尽头。聚焦AI商业化的分析清晰指出:单纯靠免费拉高用户规模的互联网增长模式在大模型赛道并不成立。中央民族大学副教授向安玲的结论更加直接:从商业逻辑上看,纯免费模式确实很难持久,因为模型能力、服务成本与用户体验三者相互约束。
四、掐尖收费,是大模型“活下去”最理性的选择
在商业上,DeepSeek的“免费与收费”博弈背后,正在走一条典型的Freemium(免费增值)路。
所谓Freemium,逻辑清晰:基础功能免费获客,复杂付费功能精确筛选重度用户。
对C端用户,“收费”的方式并非直接锁服务,而是在不轻易惹怒大众用户的前提下逐步“掐尖”:
-
豆包付费订阅最核心的场景是PPT生成、数据分析、影视制作等高强度任务——这些场景对普通用户可有可无,但对高频生产者是刚需。
-
Kimi、MiniMax等付费订阅核心功能同样集中在长文本处理、深度推理等硬核能力上。
-
DeepSeek虽无订阅方案,但重启限制直接作用于重度使用场景——每次重新生成就是一次全新推理,是高算力消耗的高频行为。限制“重抽”就是间接对重度行为按需收费的第一步。
中央民族大学副教授向安玲给出了两条清晰的结构化路径:分层收费——日常问答基础版免费,深度推理、长上下文增强功能收费;B端反哺C端——通过企业版高单价付费反哺C端免费入口的带宽与日常维护成本。
一个更深层的挑战在于:中国AI用户的付费意愿还远低于北美。综合机构数据,北美市场C端AI产品付费率约15%—40%,中国市场仅3%—13%。这意味着AI产品在国内靠C端订阅暂时很难盈利——豆包等前驱者只能依靠少量高付费重度用户(专业版500元/月)补贴数亿免费用户。
五、这次浪潮,比流量竞争更深刻的真相
本质上,DeepSeek的“越火越崩”不是战术失误,而是国产大模型从“拼参数”“拼排名”转向“真正扛住海量需求的实战测试”的关键路口。
Agent系统的爆发式增长,将底层算力短板暴露无遗。问题不在于谁参数更强,而在于当企业级大模型应用跑在支撑数千万甚至亿级访问的实时生产系统时,谁能把成本控制、缓存命中率、系统稳定性三个核心指标同时推到及格线以上。
这才是大模型下半场的真正能力分水岭。
从用户端来说,一个更坦诚的叙事已开始形成:真实的价值,不是免费,而是“稀缺服务,精确收费”。如果AI帮你节省15分钟的核对时间、帮你输出一个更合理的数据分析表格,你真的愿意“永远零成本”享受这一切吗?
当算力成本以指数级攀升时,“永远免费”才是一个不切实际的泡沫。真正高质量、高频次、高强度的AI服务收费,是不可回避的终局。
你打算把每月的AI预算定在几档?