全球算力格局震荡，“高阶TPU”崛起！

头图由AI生成

非GPU时代大幕拉开。

作者 | 程茜

编辑 | 漠影

芯东西3月2日消息，近日，多家外媒报道，非GPU芯片应用迎来爆发期，前有Meta传已与谷歌签署数十亿美元合作，大规模租用TPU训练模型；后有OpenAI被曝计划导入英伟达基于Groq技术的AI推理芯片。

这些重磅合作正是全球AI算力格局加速重构的缩影。2026年伊始，摩根大通的一份产能报告流出：谷歌计划在2027年部署600-700万颗TPU，大部分将供给Anthropic、OpenAI、Meta以及苹果等外部客户。

无独有偶，2月13日，OpenAI上线GPT-5.3-Codex-Spark。这款模型选择了一家特殊的芯片厂商来承接推理任务——Cerebras，一个以“晶圆级芯片”挑战英伟达的“叛逆者”。这是OpenAI首次在主力模型上大规模采用非GPU芯片完成部署，背后原因在于Cerebras带来的更低延迟与更低能耗，为实时编程带来接近实时的响应体验。

仅仅半年之前，全球AI产业的目光还牢牢锁定在英伟达的财报和产能分配上，人们争相与这家算力巨擘结成利益同盟。如今，全球头号AI玩家们纷纷重新规划未来几年的芯片订单。

IDC预测，到2028年，中国非GPU服务器市场规模占比将接近50%；高盛投资研究部的模型显示，全球AI服务器中非GPU芯片出货占比，将从2024年的36%增长至2027年的45%。

▲全球AI芯片中GPU架构和非GPU架构比例（数据来源：高盛全球投资研究部，芯东西制图）

面对日益清晰的算力变局，一个更深层的转折正在发生：AI的竞争焦点正从单纯的算力规模，深刻转向对能效比与延迟的极致追求。

这一转折，将GPU推向尴尬境地：由于每次计算都需要在外部显存和计算单元之间频繁往返搬运数据，这种冗长的传输路径让GPU始终受困于高能耗和高延迟的先天缺陷。路透社爆料，OpenAI已多次表示对英伟达芯片的“不满”——响应速度未达预期，在代码生成产品Codex上感受尤为明显。

压力迫使英伟达这条“巨龙”寻求改变。2025年底，英伟达不惜以近三倍溢价拿下Groq核心技术与团队。这家公司的创始人Jonathan Ross正是谷歌TPU核心设计者。被称为“TPU之父”的他，创立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。最终，英伟达以200亿美元的天价，买下了这把“高阶TPU”之剑。

去GPU化的趋势仍在继续。没有人愿意把未来十年的基础设施押注在一个能耗大、延迟高、系统封闭的技术上。但这场算力变局的核心悬念尚未解开：TPU能否真正扛起对抗GPU的大旗？那个让英伟达不惜押下重注的Groq，又藏着怎样的技术底牌？

01.

从自用到商用：

谷歌TPU扰动全球算力格局

一直以来，谷歌TPU都作为其内部的核心算力支撑，专供自家大模型训练与推理使用。而去年至今，谷歌策略发生重大转变，被曝要正式将TPU推向商用市场。

巨额订单迅速涌向谷歌。

博通CEO透露，AI明星公司Anthropic下单了总额210亿美元（约1486亿元人民币）的订单，采购基于谷歌TPU构建的AI算力系统；与此同时，Meta被曝已与谷歌达成数十亿美元的AI芯片交易。此外，潜在客户还包括苹果，以及已与SpaceX合并的xAI等，TPU市场规模持续扩大。

这背后是双重机遇的叠加。

一方面，大模型进入规模化落地阶段，全球算力需求爆发、成本压力加剧，单一依赖GPU的架构瓶颈日益凸显。

另一方面，谷歌TPU的性能已具备与顶级GPU分庭抗礼的实力——2025年推出的第七代TPU，是谷歌迄今为止性能最高、可扩展性最强的AI芯片：单芯片峰值算力4614 TFLOPS（FP8精度），最大集群9216颗芯片、总算力达42.5 EFLOPS。

TPU v7在同等算力输出下功耗仅为英伟达B200的40%至50%。更为关键的是，依托自研光电路交换机（OCS）技术，其万卡级集群可实现近乎线性的加速比，显著降低了传统GPU集群在万卡规模下的通信效率损耗。

▲Google TPU v5e、v5p、v6、v7芯片关键性能对比（图片来源：SemiAnalysis）

谷歌TPU崛起还有更为直接的例证：在TPU上训练的Gemini 3，在多个权威基准测试中位居榜首，为业界顶尖模型之一。

此外，对于大模型公司而言，算力成本是绕不开的难题。“每美元产生的Token数”正取代峰值算力，成为衡量芯片商业价值的标尺。TPU凭借AI专用架构带来的2-4倍能效优势，以及万卡集群近乎线性的扩展能力，将大模型推理的综合成本相比GPU拉低50%以上——这正是Anthropic、Meta们用订单投票的根本逻辑。

因此，当下大多大模型企业会选择采购TPU GPU多元算力来缓解成本压力。去年11月，半导体研究机构SemiAnalysis对比大模型公司的采购成本后发现：与OpenAI相比，同时使用TPU与GPU的Anthropic，在与英伟达谈判时拥有更强的议价权。

这一事实表明：未来头部AI公司，大概率都会转向“多芯片并行”路线，以降低对单一架构的依赖、提升成本竞争力。

▲OpenAI与Anthropic购买算力的成本对比（图片来源：SemiAnalysis）

综上，谷歌TPU的性能跨越式提升、顶尖大模型的规模化验证、头部AI公司的主动布局，这三重因素共同印证，TPU已从过去的全球算力产业补充路线，正式升级为全球算力竞争中的主流路线。这不仅打破了长期由英伟达绝对主导的AI芯片格局，也为国内外算力芯片打开了全新发展窗口。

02.

不止于TPU：十年磨一剑，

“TPU之父”探索更高阶的可能

然而，谷歌TPU的成功并非终点。国内外一批聚焦TPU芯片的创新企业快速崛起，它们摆脱复刻谷歌TPU的发展模式，逐步走出了一条差异化、多元化并行的发展之路。

这其中的代表玩家，就是被英伟达高价收购的AI芯片创企Groq。这家公司的创始人，被称为“TPU之父”的Jonathan Ross，创立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。行业资深专家表示，二者的不同之处与芯片架构密切相关。

谷歌TPU采用“固定架构集群扩展”的设计思路：其芯片内部搭载相对固定的计算单元，依托二维数据流模式开展固定化的算力运算；在芯片间互联层面，则通过构建3D Torus拓扑结构，实现多芯片间的高效数据流传输与协同计算。

▲谷歌TPU架构（图片来源：谷歌官网）

与谷歌TPU芯片的固定数据流不同，Groq的TSP（Tensor Streaming Processor）芯片是一种“软件定义硬件”（Software Defined Hardware）的新型数据流处理器。

“通过构建可重构的软硬件系统，使其在保持可编程性的同时，达到接近ASIC的极致性能。”美国DARPA“电子复兴计划”（ERI）高度看好“软件定义硬件”技术，并将其作为国家级战略布局的核心方向之一。

这也是Groq被称之为“高阶TPU”的原因。通过芯片内功能切片化微架构的底层设计，结合软件层面的灵活配置能力，TSP可根据不同任务场景和计算需求实现计算逻辑与数据流路径映射。同时，该芯片依托大容量片上SRAM及静态调度机制，在显著提升数据访存效率的同时还能有效降低数据搬运能耗，实现计算效率的提升。

二者的性能表现对比，Groq的优势也已经得到数据验证。公开信息显示，在相同推理任务中，Groq芯片的首token延迟比谷歌TPU v7芯片降低20%～50%，每token成本降低10%～30%。

架构选择的背后，折射出整个产业对计算效率瓶颈的重新审视。计算机体系结构泰斗、图灵奖获得者David Patterson教授在最新研究中指出，大模型每次生成都绕不开数据搬运，而搬运能耗远高于计算本身，未来的核心命题是“让数据离计算更近”。

为此，他提出了几个AI芯片的演进方向：近内存处理、3D堆叠、低延迟互连。这些均指向同一个目标——用架构创新降低数据移动的能耗与延迟。

David Patterson的洞察将AI规模化的竞争拉回最朴素的物理层面，谁能用更低的能耗、更低的延迟跑通下一代模型，谁就能在未来十年的算力牌桌上占得先机。

03.

“高阶TPU”含金量还在上升：

三大创新将架构优势发挥至极

相比于Groq所强调的确定性数据流能力，国内的清微智能、海外的Cerebras等芯片企业在高效的多维度数据流动态配置及先进集成方式上，还在持续提升“高阶TPU”的含金量。

主要表现为如下几个方面：

其一，通过3D Chiplet技术构建三维立体数据流架构。依托“计算核心 3D DRAM芯粒”的组合，清微智能在“垂直水平”两个维度上形成高效数据流计算模式，核心目标是突破传统二维数据流架构的效率局限。

具体而言，三维数据流计算架构可依据计算任务核心需求以及数据特性，在水平维度与垂直维度上实现数据流的灵活调度，最大化缩短数据传输路径、提升数据流周转效率，显著降低数据搬运过程中的延迟与能耗，最终实现计算效率的进一步提升。

其二，是依托算力网格技术构建灵活数据流计算范式。该技术可突破传统固定组网的扩展性与语义适配瓶颈，通过灵活组网及Scale up与Scale out协同，能根据AI任务特性，实时下发数据流的动态配置信息，实现在多种互联拓扑结构间灵活切换和精准调度，降低互联延迟，充分释放数据流架构算力。

其三，通过前沿的晶圆级芯片技术，将数据流架构的优势发挥到极致。具体而言，晶圆级芯片技术将数据流架构思想从芯片内部扩展至整片晶圆尺度，在整片晶圆高密度集成大量计算核心，极大缩短计算核心间的互联距离，实现数量级的互联带宽提升与通信延迟的降低，从而将数据流架构的算力规模与计算效能发挥到极致，是数据流计算架构的理想物理载体。

以Cerebras晶圆级芯片为例。实测数据显示，Cerebras CS 3系统在推理性能上较英伟达旗舰DGX B200 Blackwell GPU快21倍，成本与功耗均降低 1/3，在算力、成本、能效上展现出显著的综合优势。

▲Cerebras CS-3 vs英伟达GPU：大模型推理速度对比（图片来源：Cerebras官网）

04.

结语：AI算力规则正在重构

当谷歌TPU走出围墙、OpenAI拥抱晶圆级芯片、英伟达天价收编Groq，这些信号均指向同一个方向：TPU已变成巨头们真金白银押注的主战场。

算力世界的单极时代，正在被多元架构终结。决定下一代AI天花板的，不再是算力堆砌的军备竞赛，而是能耗、延迟、确定性共同构成的AI能力新指标。

对于国产芯片而言，这场变局既是机遇也是挑战。跟随者只能瓜分残羹，唯有走出自己的底层创新之路，才有资格参与下一轮全球算力洗牌。