扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.56版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 全球算力格局震荡,“高阶TPU”崛起!

股市情报:上述文章报告出品方/作者:芯东西;仅供参考,投资者应独立决策并承担投资风险。

全球算力格局震荡,“高阶TPU”崛起!

时间:2026-03-02 19:55
上述文章报告出品方/作者:芯东西;仅供参考,投资者应独立决策并承担投资风险。

头图由AI生成

非GPU时代大幕拉开。
作者 |  程茜
编辑 |  漠影
芯东西3月2日消息,近日,多家外媒报道,非GPU芯片应用迎来爆发期,前有Meta传已与谷歌签署数十亿美元合作,大规模租用TPU训练模型;后有OpenAI被曝计划导入英伟达基于Groq技术的AI推理芯片
这些重磅合作正是全球AI算力格局加速重构的缩影。2026年伊始,摩根大通的一份产能报告流出:谷歌计划在2027年部署600-700万颗TPU,大部分将供给Anthropic、OpenAI、Meta以及苹果等外部客户。
无独有偶,2月13日,OpenAI上线GPT-5.3-Codex-Spark。这款模型选择了一家特殊的芯片厂商来承接推理任务——Cerebras,一个以“晶圆级芯片”挑战英伟达的“叛逆者”。这是OpenAI首次在主力模型上大规模采用非GPU芯片完成部署,背后原因在于Cerebras带来的更低延迟与更低能耗,为实时编程带来接近实时的响应体验。
仅仅半年之前,全球AI产业的目光还牢牢锁定在英伟达的财报和产能分配上,人们争相与这家算力巨擘结成利益同盟。如今,全球头号AI玩家们纷纷重新规划未来几年的芯片订单。
IDC预测,到2028年,中国非GPU服务器市场规模占比将接近50%;高盛投资研究部的模型显示,全球AI服务器中非GPU芯片出货占比,将从2024年的36%增长至2027年的45%。

▲全球AI芯片中GPU架构和非GPU架构比例(数据来源:高盛全球投资研究部,芯东西制图)

面对日益清晰的算力变局,一个更深层的转折正在发生:AI的竞争焦点正从单纯的算力规模,深刻转向对能效比与延迟的极致追求
这一转折,将GPU推向尴尬境地:由于每次计算都需要在外部显存和计算单元之间频繁往返搬运数据,这种冗长的传输路径让GPU始终受困于高能耗和高延迟的先天缺陷。路透社爆料,OpenAI已多次表示对英伟达芯片的“不满”——响应速度未达预期,在代码生成产品Codex上感受尤为明显。
压力迫使英伟达这条“巨龙”寻求改变。2025年底,英伟达不惜以近三倍溢价拿下Groq核心技术与团队。这家公司的创始人Jonathan Ross正是谷歌TPU核心设计者。被称为“TPU之父”的他,创立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。最终,英伟达以200亿美元的天价,买下了这把“高阶TPU”之剑。
去GPU化的趋势仍在继续。没有人愿意把未来十年的基础设施押注在一个能耗大、延迟高、系统封闭的技术上。但这场算力变局的核心悬念尚未解开:TPU能否真正扛起对抗GPU的大旗?那个让英伟达不惜押下重注的Groq,又藏着怎样的技术底牌?

01.
从自用到商用:
谷歌TPU扰动全球算力格局


一直以来,谷歌TPU都作为其内部的核心算力支撑,专供自家大模型训练与推理使用。而去年至今,谷歌策略发生重大转变,被曝要正式将TPU推向商用市场。
巨额订单迅速涌向谷歌。
博通CEO透露,AI明星公司Anthropic下单了总额210亿美元(约1486亿元人民币)的订单,采购基于谷歌TPU构建的AI算力系统;与此同时,Meta被曝已与谷歌达成数十亿美元的AI芯片交易。此外,潜在客户还包括苹果,以及已与SpaceX合并的xAI等,TPU市场规模持续扩大。
这背后是双重机遇的叠加。
一方面,大模型进入规模化落地阶段,全球算力需求爆发、成本压力加剧,单一依赖GPU的架构瓶颈日益凸显
另一方面,谷歌TPU的性能已具备与顶级GPU分庭抗礼的实力——2025年推出的第七代TPU,是谷歌迄今为止性能最高、可扩展性最强的AI芯片:单芯片峰值算力4614 TFLOPS(FP8精度),最大集群9216颗芯片、总算力达42.5 EFLOPS。
TPU v7在同等算力输出下功耗仅为英伟达B200的40%至50%。更为关键的是,依托自研光电路交换机(OCS)技术,其万卡级集群可实现近乎线性的加速比,显著降低了传统GPU集群在万卡规模下的通信效率损耗。

▲Google TPU v5e、v5p、v6、v7芯片关键性能对比(图片来源:SemiAnalysis)

谷歌TPU崛起还有更为直接的例证:在TPU上训练的Gemini 3,在多个权威基准测试中位居榜首,为业界顶尖模型之一。
此外,对于大模型公司而言,算力成本是绕不开的难题。“每美元产生的Token数”正取代峰值算力,成为衡量芯片商业价值的标尺。TPU凭借AI专用架构带来的2-4倍能效优势,以及万卡集群近乎线性的扩展能力,将大模型推理的综合成本相比GPU拉低50%以上——这正是Anthropic、Meta们用订单投票的根本逻辑。
因此,当下大多大模型企业会选择采购TPU GPU多元算力来缓解成本压力。去年11月,半导体研究机构SemiAnalysis对比大模型公司的采购成本后发现:与OpenAI相比,同时使用TPU与GPU的Anthropic,在与英伟达谈判时拥有更强的议价权。
这一事实表明:未来头部AI公司,大概率都会转向“多芯片并行”路线,以降低对单一架构的依赖、提升成本竞争力。

▲OpenAI与Anthropic购买算力的成本对比(图片来源:SemiAnalysis)

综上,谷歌TPU的性能跨越式提升、顶尖大模型的规模化验证、头部AI公司的主动布局,这三重因素共同印证,TPU已从过去的全球算力产业补充路线,正式升级为全球算力竞争中的主流路线。这不仅打破了长期由英伟达绝对主导的AI芯片格局,也为国内外算力芯片打开了全新发展窗口。

02.
不止于TPU:十年磨一剑,
“TPU之父”探索更高阶的可能


然而,谷歌TPU的成功并非终点。国内外一批聚焦TPU芯片的创新企业快速崛起,它们摆脱复刻谷歌TPU的发展模式,逐步走出了一条差异化、多元化并行的发展之路。
这其中的代表玩家,就是被英伟达高价收购的AI芯片创企Groq。这家公司的创始人,被称为“TPU之父”的Jonathan Ross,创立Groq的初衷就是要打造一款超越谷歌TPU的AI芯片。行业资深专家表示,二者的不同之处与芯片架构密切相关。
谷歌TPU采用“固定架构 集群扩展”的设计思路:其芯片内部搭载相对固定的计算单元,依托二维数据流模式开展固定化的算力运算;在芯片间互联层面,则通过构建3D Torus拓扑结构,实现多芯片间的高效数据流传输与协同计算。

▲谷歌TPU架构(图片来源:谷歌官网)

与谷歌TPU芯片的固定数据流不同,Groq的TSP(Tensor Streaming Processor)芯片是一种“软件定义硬件”(Software Defined Hardware)的新型数据流处理器。
“通过构建可重构的软硬件系统,使其在保持可编程性的同时,达到接近ASIC的极致性能。”美国DARPA“电子复兴计划”(ERI)高度看好“软件定义硬件”技术,并将其作为国家级战略布局的核心方向之一。
这也是Groq被称之为“高阶TPU”的原因。通过芯片内功能切片化微架构的底层设计,结合软件层面的灵活配置能力,TSP可根据不同任务场景和计算需求实现计算逻辑与数据流路径映射。同时,该芯片依托大容量片上SRAM及静态调度机制,在显著提升数据访存效率的同时还能有效降低数据搬运能耗,实现计算效率的提升。
二者的性能表现对比,Groq的优势也已经得到数据验证。公开信息显示,在相同推理任务中,Groq芯片的首token延迟比谷歌TPU v7芯片降低20%~50%,每token成本降低10%~30%
架构选择的背后,折射出整个产业对计算效率瓶颈的重新审视。计算机体系结构泰斗、图灵奖获得者David Patterson教授在最新研究中指出,大模型每次生成都绕不开数据搬运,而搬运能耗远高于计算本身,未来的核心命题是“让数据离计算更近”。
为此,他提出了几个AI芯片的演进方向:近内存处理、3D堆叠、低延迟互连。这些均指向同一个目标——用架构创新降低数据移动的能耗与延迟
David Patterson的洞察将AI规模化的竞争拉回最朴素的物理层面,谁能用更低的能耗、更低的延迟跑通下一代模型,谁就能在未来十年的算力牌桌上占得先机。

03.
“高阶TPU”含金量还在上升:
三大创新将架构优势发挥至极


相比于Groq所强调的确定性数据流能力,国内的清微智能、海外的Cerebras等芯片企业在高效的多维度数据流动态配置及先进集成方式上,还在持续提升“高阶TPU”的含金量。
主要表现为如下几个方面:
其一,通过3D Chiplet技术构建三维立体数据流架构。依托“计算核心 3D DRAM芯粒”的组合,清微智能在“垂直 水平”两个维度上形成高效数据流计算模式,核心目标是突破传统二维数据流架构的效率局限。
具体而言,三维数据流计算架构可依据计算任务核心需求以及数据特性,在水平维度与垂直维度上实现数据流的灵活调度,最大化缩短数据传输路径、提升数据流周转效率,显著降低数据搬运过程中的延迟与能耗,最终实现计算效率的进一步提升。
其二,是依托算力网格技术构建灵活数据流计算范式。该技术可突破传统固定组网的扩展性与语义适配瓶颈,通过灵活组网及Scale up与Scale out协同,能根据AI任务特性,实时下发数据流的动态配置信息,实现在多种互联拓扑结构间灵活切换和精准调度,降低互联延迟,充分释放数据流架构算力。
其三,通过前沿的晶圆级芯片技术,将数据流架构的优势发挥到极致。具体而言,晶圆级芯片技术将数据流架构思想从芯片内部扩展至整片晶圆尺度,在整片晶圆高密度集成大量计算核心,极大缩短计算核心间的互联距离,实现数量级的互联带宽提升与通信延迟的降低,从而将数据流架构的算力规模与计算效能发挥到极致,是数据流计算架构的理想物理载体。
以Cerebras晶圆级芯片为例。实测数据显示,Cerebras CS 3系统在推理性能上较英伟达旗舰DGX B200 Blackwell GPU快21倍,成本与功耗均降低 1/3,在算力、成本、能效上展现出显著的综合优势。

▲Cerebras CS-3 vs英伟达GPU:大模型推理速度对比(图片来源:Cerebras官网)


04.
结语:AI算力规则正在重构


当谷歌TPU走出围墙、OpenAI拥抱晶圆级芯片、英伟达天价收编Groq,这些信号均指向同一个方向:TPU已变成巨头们真金白银押注的主战场。
算力世界的单极时代,正在被多元架构终结。决定下一代AI天花板的,不再是算力堆砌的军备竞赛,而是能耗、延迟、确定性共同构成的AI能力新指标。
对于国产芯片而言,这场变局既是机遇也是挑战。跟随者只能瓜分残羹,唯有走出自己的底层创新之路,才有资格参与下一轮全球算力洗牌。

股票复盘网
当前版本:V3.0