云算力涨价潮：当GPU从贬值预期走向供不应求

公众号记得加星标⭐️，第一时间推送不会错过。

GPU租赁价格更可能继续上涨而非下跌。

Michael Burry 的 3 年预言与市场的 40% 反转

2025 年 11 月，以成功预测 2008 年次贷危机而闻名的“大空头”Michael Burry 做出了一个大胆的判断：看空英伟达。他的核心逻辑简单直接——GPU 的生命周期只有 2-3 年，随着新一代芯片的推出，旧卡将迅速贬值，英伟达的高估值难以为继。

这个判断在当时就有争议，但也不无道理。毕竟，科技行业的摩尔定律历来如此：新产品推出，旧产品迅速过时。H100 在 2022 年发布，按照 3 年生命周期的逻辑，到 2025 年应该开始走下坡路。更何况，英伟达已经推出了性能更强、成本更低的 Blackwell 系列。

然而，仅仅 4 个月后，市场给出了截然相反的答案。

根据 GPU 租赁市场的最新数据，H100 的一年期租赁价格从 2025 年 10 月的1.70/小时暴涨至年月的2.35/小时/GPU，涨幅高达 40%。这张已经“服役”近 4 年的老卡，不仅没有贬值，反而出现了供不应求的局面——所有 GPU 类型的按需租赁容量完全售罄，到 2026 年 8-9 月的所有新增产能已被预订一空。

市场的疯狂程度超出想象。客户正在争相以 $14/小时/GPU 的价格购买 AWS 的 p6-b200 现货实例，一些 Neocloud 巨头不再出售单节点，H100 正在以 2-3 年前签约时的完全相同的价格续约，一些 H100 合同甚至续约到 2028 年，为期 4 年。寻找哪怕 8 个节点（64 个 GPU）的 H100 或 H200 都不容易。SemiAnalysis 询问的供应商中有一半完全售罄，大多数供应商只会回应他们根本没有 Hopper GPU 的产能即将到期。

市场上甚至出现了算力租户像摩纳哥大奖赛期间的公寓一样细分他们的集群并转租算力的现象。有人戏称：Neocloud 包租婆的时代即将到来。

Michael Burry 错在哪里？他低估了一个关键变量：Agent AI 的爆发速度和对算力需求的根本性重构。

Agent 如何重新定义算力消耗

如果说 2023-2024 年是大模型的 Chatbot 时代，那么 2026 年初的“龙虾热”（Claude Code 等 Agent 应用的爆发）则标志着我们进入了一个全新的纪元。这不是简单的需求增长，而是使用模式的根本性转变。

Token 消耗的量级跃升

数据最能说明问题。来自云计算行业的一线观察显示：

Chatbot 时代：单次对话消耗 500-2,000 个 tokens
Agent 时代：单个任务消耗 80,000-150,000 个 tokens

这是 40-75 倍的消耗增长。

为什么会有如此巨大的差异？Agent token 消耗暴增背后有三个核心机制：

多轮推理循环
Agent 不再是简单的“一问一答”。它采用“推理（Reasoning）→行动（Act）→反思（Reflect）”的循环链条，在完成一个任务的过程中会反复执行多次。每一次循环都需要重新调用大模型，每一次调用都会消耗 tokens。
长上下文记忆
为了保持任务的连贯性，Agent 需要“记住”所有的历史操作。这意味着每次请求都要把完整的上下文和历史记录再次发送给大模型。随着 session 的延长，看起来只是问了一个简单的问题，但实际上要把所有上下文和历史再一次塞给大模型去做计算，这导致了 token 消耗出现量级上的跃升。
多模态内容爆炸
在 browser-use 或 computer-use 等场景中，Agent 需要处理大量截图。截一次屏可能就消耗 4,000-5,000 tokens。一个看似简单的任务，可能涉及数十次截图，tokens 消耗呈指数级增长。

如果要找一个标志性事件来说明 Agent 对算力需求的冲击，Claude Code 无疑是最佳案例。

这里我们多说一句，虽然龙虾特别火，但其实笔者使用下来，Claude Code 的使用体验更好，响应也很快。

据业内观察，一些深度使用 AI 工具的公司在过去 7 天内消耗了数十亿 tokens，平均成本约 $5/M tokens。但关键不在于成本，而在于回报：节省的时间和工作流能力的扩展远远超过了这个成本。这些公司现在部署了一整套 AI 工具，覆盖的场景远超简单的搜索和摘要——包括仪表板构建、自动化爬虫、大规模数据整理和智能体金融建模。

到 2026 年底，Claude Code 将占全球日代码提交量的 20% 以上。

Anthropic 的财务数据印证了这一趋势：其 ARR（年度经常性收入）在单个季度内从 90 亿美元飙升至 250 亿美元，增长近 3 倍。这种增速在企业软件历史上极为罕见。

全球趋势在中国市场得到了充分验证。来自产业链的数据显示：

中国每日 token 消耗：140 万亿（工信部官方数据）
字节跳动单家日消耗：100 万亿（2026 年 3 月）
字节跳动 2025 年 12 月的日消耗：63 万亿

这意味着字节跳动在 3 个月内的 token 消耗增长了近 60%。如果按照这个增速持续，一年将是一个非常夸张的数字。

对全年算力需求的行业判断是：30-50% 的增长。值得注意的是，token 增加五倍，算力需求不会等比例增加五倍，因为推理效率在持续优化（如千问 3.5-Max 的推理成本大幅下降）。但即便是 30-50% 的增长，在供应紧张的背景下，也足以推动价格持续上涨。

对 B 端落地的时间判断也很明确：传统预期是 12 个月，但从国内云厂商产品 ready 的情况来看，大概 6-9 个月左右会在 B 端看到比较明显的变化，预计在 Q3 左右会看到比较多落地的例子。

阿里云的悟空、腾讯云的企业虾、阿里国际的企业级 Agent 等产品已经 ready。这些工具的形态准备就绪后，企业在熟悉程度提升、解决了安全问题、降低了幻觉率、达到了比较好的完成率之后，应该会比较积极地去采用。

当 B 端需求真正释放时，算力市场将面临新一轮冲击。

涨价的双重逻辑

GPU 租赁价格的上涨，表面上看是供需失衡的结果，但深入分析会发现，全球市场和中国市场的涨价逻辑存在微妙而重要的差异。

全球市场：供应链成本的螺旋式上升

2026 年初，整个 AI 供应链正在经历一场“定价末日”：

LPDDR5 内存价格同比上涨约 4 倍
DDR5 内存价格同比上涨约 5 倍
AI 服务器的涨价幅度超过了底层组件成本的增幅

为了管理这种组件成本快速上涨带来的利润风险，OEM 开始以显著超过底层成本增幅的水平重新定价 AI 服务器。这使集群资本投资过程变得复杂，因为更高的服务器采购成本压缩了预期项目回报，迫使一些运营商放慢或放弃部署。实际上，本应上线的供应被扣留，进一步收紧了租赁市场。

这种成本压力不仅来自内存。AMD、英特尔 CPU 同步涨价，涨价预计不止一次。整个 AI 硅供应链都在经历紧张：TSMC 的 N3 逻辑晶圆产能紧张、HBM、DRAM、NAND 内存短缺等多个环节都存在瓶颈。

但成本只是一方面。更重要的是需求侧的 ROI 验证。行业观察显示：如果使用 AI 工具的投资回报率是 5-10 倍，那么在价格上涨到足以抑制需求之前，GPU 租赁价格显然还有很长的路要走。

这意味着当前的需求曲线相对非弹性——即使价格上涨，用户仍然愿意付费，因为他们获得的价值远超成本。简单地说，当 ROI 达到 5-10 倍时，租赁价格的上涨对服务器和组件成本还会施加进一步的上行压力。

中国市场：主动的客户筛选策略

中国云厂商的涨价逻辑则更加主动和策略化。来自产业链的观察显示，云厂商涨价的核心目的是筛选客户而非单纯转嫁成本。

核心逻辑是：Claude 等 Agent 产品验证了用户愿意为 agent 能力付费，云厂商借此淘汰低质量用户、锁定付费客户。

具体表现包括：

阿里云在 3 月 20 日取消了 Lite 版 coding plan
保留 200 元/月及以上的付费套餐
MiniMax 等厂商的 coding plan 价格更高

这是一种典型的客户筛选行为——在算力紧缺的情况下，云厂商选择服务那些真正认可价值、愿意付费的客户，而不是追求用户规模的最大化。

一个关键数据是：国内云厂商 AI 算力的输出可能只有 20% 的负载或者 tokens 的量是对外可以产生收入的，大部分还是内部使用。

那么，为什么在有大量内部算力冗余的情况下，还要选择涨价而非增加供给？

短期原因：预判 B 端爆发

因为看到了 B 端需求可能在第三季度就要明显地提升，提前把价格放在那。这是一种前瞻性定价策略：与其等到 Q3 需求爆发时再涨价（可能引发客户不满），不如现在就调整价格，让市场有一个适应期。

深层原因：验证付费意愿

Agent 应用的爆发证明了 AI 工具的 ROI，用户已经从“尝鲜”阶段进入“依赖”阶段。在这个时间点涨价，可以有效区分高价值用户（认可价值，愿意付费，使用频繁）和低价值用户（价格敏感，使用低频，ROI 不明确）。

通过涨价完成客户筛选后，云厂商可以更专注于服务高价值客户，提升整体盈利能力。

涨价的分层结构与长期周期

值得注意的是，涨价并非针对所有客户。头部云厂商最近这波涨价并非针对全量客户。大客户通常有类似于硬件的长协（长期协议），价格相对稳定。涨价主要针对中小型客户和新签客户。

这意味着涨价短期内没有办法直接体现在收入端。但这种策略有其合理性：通过涨价筛选出高价值客户，同时为未来大客户续约时的价格调整做铺垫。

市场力量已经发生转移。GPU 租赁提供商的策略已经 180 度转变。Neoclouds 和 Hyperscalers 现在处于主导地位——他们现在可以协商更有利的条款，如更高的预付款、更好的定价、更长的合同期限，甚至可以挑选合同的开始和结束日期以匹配他们的库存可用性。时间现在也站在 Neoclouds 一边——他们可以按自己的时间规划部署，利用不断上涨的价格环境，随着时间的推移为特定集群建立最佳的客户组合。

无论是全球市场还是中国市场，一个共识正在形成：这轮涨价不是短期波动，而是一个持续 1-2 年的周期。

市场格局重塑：轻资产困境、大厂转向与出海架构

在这轮涨价周期中，不同商业模式的玩家面临着截然不同的命运，整个算力市场的格局正在发生深刻重构。

聚合平台的利润困境

像硅基流动这样的模型聚合平台，自持算力比例低于 40%，大量依赖 IDC 供应商的机房租赁。在涨价环境下，这种轻资产模式面临严峻挑战：

如果涨价不能传导到上游 API 调用方或 MaaS 服务，或者规模不能扩大的话，这些平台的利润空间将面临显著压力。

即使是 OpenAI 和 Anthropic 这样的头部玩家，虽然毛利很高，但从收入情况看，可能还没达到真正盈利的地步。这种 MaaS 平台的存在可能会变成一种常态，它们可能通过收一些路由费用和模型厂商合作，在价格相对稳定的期间活得好一些。但在价格急剧上升的环境里，空间确实不是那么大。

大厂的自持算力战略转向

与聚合平台形成鲜明对比的是，大型云厂商正在大幅提高自持算力比例：

阿里云：公布已部署大量自研PPU
字节跳动：传出正在做自研芯片，并购买大量国产芯片

这种转向的核心逻辑是：在推理需求增长的前提下，通过设计更好的 PD 分离架构（Prefill 和 Decode 分离），在长期 TCO 上实现更好的成本下降，以及应用一些核心网络技术或软件技术。这是大云厂商在推理卡层面上增加自持或自有卡比例的主要原因。

从财务角度看，GPU 租赁价格的重新加速提高了 Neocloud 的 ROIC（投资资本回报率），通过扩大已部署资本的利润率。同时，更高的租赁价格延长了现有 GPU 的经济使用寿命，这意味着投资资本在需要再投资之前会产生更长时间的现金流。

这正是 Burry 没有预见到的：在需求持续旺盛的情况下，GPU 的经济寿命不是缩短，而是延长了。训练 workload 在 H100 上可以获得最佳性价比，即使对于老卡，需求也保持高位。

火山引擎的窗口期与两难选择

在主要云厂商纷纷涨价的背景下，火山引擎（字节跳动的云服务品牌）的策略选择尤为引人关注。火山引擎近年增长迅速，从此前的 100 亿营收增长到 2025 年的 200-250 亿，但这种增长主要来自中小客户的低价策略，行业 know-how 的不足制约了大 B 客户的渗透。

产业观察显示：若此轮涨价中火山引擎坚持不跟，这是切入大 B 市场的窗口期；但长期低价不可持续，最可能的路径是在重点行业保持价格竞争力，在其余行业跟进涨价。

这揭示了一个战略两难：短期来看，大厂涨价为火山引擎提供了以价格优势切入大客户市场的窗口；但长期来看，持续低价会侵蚀利润，且在算力成本上升的背景下难以为继。最可能的路径是差异化定价：在有技术积累和行业理解的重点领域（如电商、内容）保持竞争力定价，在其他领域跟随市场涨价。

这轮GPU涨价能持续多久？

要理解这个问题，我们需要关注需求侧的三大驱动力。

驱动力一：B 端需求尚未释放

Agent 应用向 B 端的传导将在 Q3 左右看到比较多落地的例子。目前的 token 消耗主要来自 C 端和“有 B 端目的的 C 端用户”（如自媒体、个人开发者、用大模型写小说等）。当企业级应用大规模铺开后，需求将再上一个台阶。

企业级 Agent 产品已经 ready，只是在等待企业解决安全问题（尤其是权限失控担忧）。从产业咨询的情况来看，很多企业对这件事的态度是比较积极的，会在安全问题解决后积极采用。

驱动力二：ROI 的持续验证

使用 AI 工具的投资回报现在是一个已解决的问题——使用 AI 工具可以提供比使用工具成本高一个数量级的价值。tokens 需求曲线向上和向右的转移为推高 GPU 租赁价格提供了一个强大且相对非弹性（目前）的力量。

当 ROI 达到 5-10 倍时，价格上涨不会显著抑制需求。这意味着涨价空间还很大。

驱动力三：新增产能被快速消化

市场范围内，直到 2026 年 8 月至 9 月上线的所有容量都已被预订。Blackwell 的交付周期也延长至 6-7 月，这得益于对开源权重模型的强劲需求以及推理需求的持续激增，大多数这些集群现在都被占用。

更重要的是，一个关键问题浮现：额外的算力容量和因此而来的 token 量是否会缓解持续的算力紧缩，还是 token 需求会超过这些增量？从目前趋势看，后者的可能性更大。

随着 Neoclouds 看到供应紧缩和价格上涨，他们会在进一步涨价之前抢先确保更多硬件，这只会进一步收紧供应并推高价格。这与 2023-2024 年的 GPU 短缺如出一辙，当时紧张的供应使 OEM 能够推动超额利润率扩张，并导致服务器价格急剧飙升。

这种正反馈机制一旦启动，很难在短期内打破。综合来看，这些因素指向一个明确的结论：GPU 租赁价格更可能继续上涨而非下跌。