扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.5.7版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 马斯克站台谷歌第8代TPU!训练从数月缩至数周、推理性价比提升80%

股市情报:上述文章报告出品方/作者:量子位;仅供参考,投资者应独立决策并承担投资风险。

马斯克站台谷歌第8代TPU!训练从数月缩至数周、推理性价比提升80%

时间:2026-04-23 17:03
上述文章报告出品方/作者:量子位;仅供参考,投资者应独立决策并承担投资风险。

TPU被低估了。

看完谷歌最新发布的第8代TPU,我终于理解马斯克说这句话的含义了。

确实,谷歌专为Agent时代打造的第8代TPU,亮点显而易见:

一是在「训推分离」这条路上,谷歌比英伟达走得更彻底——

直接推出了两款物理上完全不同的芯片。

  • 面向训练的TPU 8t:整体计算性能是上一代产品Ironwood的近三倍,能将模型训练周期从数月缩短至数周。

  • 面向推理的TPU 8i:在成本不变的情况下,能让服务能力翻倍。

二是在能效上,谷歌继续发力——

采用第四代液冷技术,第8代TPU每瓦性能比上一代Ironwood提升了近两倍

性能和能耗两个问题一解决,Agent的大规模落地才算真正有了可能。

也正因此,这次第8代TPU一发布,就在引发了不小的讨论:

这才是真正能带来变革的硬件升级。

市场的反应也来得很直接。

就在第8代TPU亮相发布会后,Alphabet股价盘中最高涨幅2.2%,显示出资本市场对这一方向的初步认可。

预计这两款芯片将在今年晚些时候正式上市。

Gemini参与设计、谷歌放出两款芯片细节

值得一提的是,谷歌第8代TPU背后还有Gemini的手笔。

虽然谷歌没有透露Gemini具体参与了哪些环节,但博客里可是给它署了名(Co-designed)

而凝聚「人机智慧」的第8代TPU,这次分别朝着训练和推理两个方向极致开卷——

最终也诞生了8t8i两款芯片。

笑死,网友还脑洞大开想到了一句如何区分它们的口诀:

横屏用于训练,竖屏用于推理。

先看右手边专攻训练的8t。

对比上一代Ironwood,8t直接把「规模、效率、稳定性」三件事一起拉满了:

  • 规模:单个超级芯片组可扩展至9600个芯片 2PB共享高带宽内存,芯片间带宽翻倍,总算力达到121 ExaFlops,支持模型直接运行在统一超大内存池中。

  • 利用率:存储访问速度提升10倍,配合TPUDirect数据直连,让算力不再空转,尽可能把资源吃满。

  • 扩展性:基于Virgo网络 JAX Pathways,实现近乎线性扩展,单一逻辑集群可延伸至百万级芯片规模。

  • 稳定性:通过实时遥测、自动绕过故障链路(ICI)、光路交换(OCS)等机制,在超大规模下仍能维持运行连续性,有效吞吐目标最高可达97%。

而专攻推理的8i,则完全是另一套思路,核心就三个字:

低延迟

为此,谷歌几乎是从底层把整套推理栈重做了一遍:

  • 内存:直接对「内存墙」下手,把288GB高带宽内存 384MB片上SRAM塞进芯片里(容量是上一代的3倍),让模型的活跃数据尽量都留在芯片上,减少来回搬运带来的等待。

  • 系统效率:引入自研的Axion CPU架构,把每台服务器的CPU主机数量翻倍,再通过NUMA做隔离优化,让整套系统在协同时更高效。

  • 模型适配:针对当下主流的MoE混合专家模型,把互连带宽提升到19.2 Tb/s,再用新的Boardfly架构把网络「路径长度」砍掉一半以上,让多专家协同时不再拖慢整体速度。

  • 延迟控制:新增片上集体加速引擎(CAE),把原本需要跨芯片完成的全局操作搬回芯片内部,整体延迟最高可降低到原来的1/5。

这一套下来,效果也很直接——

每美元性能提升约80%,在相同成本下,服务能力接近翻倍

至于为什么决定训推分离?在谷歌看来这事儿很简单——

智能体时代对延迟和吞吐的要求截然不同,训练要的是「快」,推理要的是「稳」。

实践已经证明,一块芯片无法同时做好两件事。

既然如此,那为何不尝试分开做呢?

至少在第8代TPU身上,谷歌已经看到了这种分离带来的实际利益。

不过,谷歌之所以敢走这条分离的路,背后也确实离不开它对全栈的掌控能力。

背后是全栈协同优化

一个可能容易被忽略的细节是:

以前谷歌的TPU可能搭配的是通用的、第三方的CPU,比如英特尔或AMD的x86架构CPU。

但从这一代开始,TPU终于和谷歌自己设计的CPU(Axion)搭档了。

这意味着,谷歌可以按照AI任务的实际需求,去定制CPU和TPU之间的配合方式,从而榨干每一瓦电的性能。

而说到AI发展的最大瓶颈之一的「电」,谷歌这次也下了不少功夫。

一方面,它不再只盯着芯片本身,而是把优化范围直接拉到整条链路——

从CPU、TPU,到网络,再到整个数据中心,全部围绕「省电」重做一遍。

比如把网络连接直接塞进计算芯片里,减少节点之间的数据搬运。

再配合统一的电源管理,根据实时负载动态调功,把电优先分给最关键的计算环节。

另一方面,连数据中心也不再是被动承载,而是和TPU一起协同设计,供电、调度、散热全部重新打磨。

再加上第四代液冷,把原本风冷顶不住的功率密度撑起来,让算力可以在更高能效区间稳定运行。

这些优化叠加起来,效果也很直接:

8t和8i的每瓦性能,相比上一代直接提升接近2倍

而一旦放到数据中心层面来看,单位电力能提供的算力,五年也已经提升了6倍。

更关键的是,谷歌目前也把这套全栈能力打包交给开发者使用了。

无需再折腾复杂的适配和环境搭建,8t和8i原生支持像PyTorch、JAX、vLLM这些主流框架,同时提供裸机访问,开发者可以直接用到真实硬件性能。

再配合MaxText、Tunix等开源工具,从模型训练到上线部署的路径也被进一步打通。

也难怪谷歌敢喊出,要做「面向Agent时代的基础设施」这样的口号。

至少从现在的布局来看,它已经在往这个方向铺路了。

One More Thing

随着谷歌第8代TPU发布,网友们也是集体看起了老黄的热闹(doge)。

你说巧不巧,老黄前一阵刚好在一档播客中回应了主持人的犀利提问:

世界上排名前三的AI模型中有两个——Claude和Gemini,都是在TPU上训练的。这对英伟达未来意味着什么?

而老黄当时只留下了引人无限遐想的几个字:

TPU没有威胁

在老黄看来,专为AI设计的TPU只是在某个赛道上取得突破,而英伟达做的是All。

有大量应用场景是TPU无法覆盖的。英伟达把CUDA打造成一个出色的张量处理单元,但它也能处理数据处理、计算、AI等的整个生命周期。我们的市场机会更广,覆盖面更大。因为我们支持世界上所有类型的应用,你可以在任何地方建立英伟达系统,并确信它会有客户需求。这是一个完全不同的概念。

就是说,英伟达卖的从来不是某一颗芯片,而是一整套加速计算体系——

从CUDA生态,到覆盖AI、数据处理、科学计算在内的全场景能力。

从这个角度而言,AI只是当下其中最火的一块。

不过,随着AI本身开始吞噬越来越多的算力需求,TPU的重要性似乎也正在被重新估值。

别的不说,至少马斯克已经表明了自己的态度。

股票复盘网
当前版本:V3.0