
麒麟2026采用了LogicFolding双层逻辑折叠,晶体管密度从155MTr/mm²大幅提升至238MTr/mm²,而这一提升幅度以往需要三年的几何微缩才能实现。

以下为何庭波《多层电子系统的时间缩放理论》论文六十年来,摩尔定律的几何缩放一直驱动着半导体行业的进步。然而,这一行业契约已不再成立:纯粹依靠缩小尺寸带来的回报已经趋于平缓,前沿芯片的设计预算已超过每颗10亿美元,并且在最先进节点上,单位晶体管的成本也不再下降。本文提出了一种新的缩放原理——τ缩放——该原理采用时间本身,而非晶体管面积,作为衡量进步的主要指标,将单一的特征时间常数τ作为横跨十二个数量级的统一优化目标,从晶体管的开关速度到数据中心的负载响应均适用。
本文展示了两个生产级规模的验证案例。在一款移动SoC上,LogicFolding(逻辑折叠,一种将数字、模拟和存储电路分区并垂直堆叠在多层有源层中的方法论)在固定工艺节点下,实现了晶体管密度55% 的阶跃式提升,并在同等性能下将功耗降低了41%。在AI系统方面,通过协同设计的、包含内存语义的统一总线架构、近封装的光I/O以及边缘到表面的3D折叠技术,预期到2035年可实现超过100倍的硬件集成度增长。
更深入的论述在于其方法论层面:τ缩放是继邓纳德缩放之后,第一个为整个计算堆栈建立统一优化目标的缩放原理。
一、引言
自二十世纪六十年代中期以来,半导体行业一直以纳米为单位衡量进步。每十八个月,晶体管尺寸缩小、频率上升、每个逻辑门的成本下降。摩尔定律既是一个经验观察,也帮助建立了一个行业契约,整个计算堆栈都建立在此之上。然而,这个行业契约已不再成立。在7纳米节点之后,几何缩放不再带来其历史上的红利。光刻工具正接近物理极限,极紫外(EUV)光刻的折旧在晶圆成本中占据主导地位,单位晶体管的成本曲线已经趋于平缓,在某些情况下甚至出现逆转。对于那些获取最先进光刻技术受限的组织而言,这一限制更早地成为瓶颈,并产生了更严重的影响。
因此,行业的核心问题已经发生了变化。它不再是“晶体管还能缩小多少?”而是“应该缩放什么,以及针对什么目标?”
在过去的六年里,作者在华为海思的团队在移动SoC、AI加速器、系统互联和封装领域对这一问题进行了硅片层面的研究。结论是,答案不在于一个新的节点,也不在于一种新的晶体管架构,而在于优化目标本身的改变。本文认为,未来十年电子系统的演进不应由几何缩放来引导,而应由时间缩放——即系统性地减少堆栈每一层的一个单一特征时间常数τ——来指引,从皮秒级开关的晶体管到秒级响应的数据中心负载。
下文将从科学方法论和产业路线图两个角度阐述τ缩放的理论,并借鉴了2020年5月至2026年5月期间381颗量产芯片的经验教训。
二、几何时代的终结
在其历史的大部分时间里,半导体行业只有一个任务:把晶体管做得更小。戈登·摩尔在1965年的观察——晶体管密度大约每两年翻一番——在十年后得到了罗伯特·邓纳德的缩放理论的补充,该理论确立了按比例缩小电压和尺寸可以维持恒定电场。几何缩放与邓纳德缩放相结合,在近五十年的时间里,为单位功耗性能和单位成本性能带来了指数级的提升。
这种格局分两个阶段瓦解。大约在2005年,邓纳德缩放首先失效:电压不再随特征尺寸按比例缩小,暗硅时代开始。几何缩放则持续得更久一些,由FinFET及随后的环绕栅极(GAA)器件架构维持。然而,在7纳米之后,纯粹依靠尺寸缩放的回报已经趋于平缓。其原因现在已有充分记载:速度饱和将本征延迟对沟道长度的依赖从二次关系降为线性关系;局部互连的寄生电阻和电容在标准单元延迟预算中占据主导地位;掩模成本、EUV折旧以及设计规则复杂性已将2纳米节点的前沿芯片设计预算推高至每颗芯片超过10亿美元。
其经济后果同样不可避免。先进节点的单位晶体管成本已经趋于平缓,而在最前沿,成本正在上升。支撑了过去五十年的行业契约——每一代都以更低成本提供更多晶体管——已不复存在。
对于华为海思而言,这一转变伴随着一个额外的约束:获取最先进光刻工具受限。指望另一个节点能解决问题已不再可行。六年前,几何路线图趋于平缓,迫使我们面对一个更根本的问题——这个问题,回过头来看,整个行业最终都将不得不面对。
三、时间,而非空间:摩尔时代的真正通货
究其对终端用户的核心影响,摩尔定律从根本上讲从来都不是关于几何尺寸的。晶体管变小提升了系统性能,是因为它们开关速度更快。互联变得更密集提升了性能,是因为信号传输距离更短。更高的集成度提升了性能,是因为数据跨越的边界更少。每一代产品所交付的,本质上都是时间的缩短——在器件层面是皮秒到纳秒,在芯片层面是纳秒到微秒,在系统层面是微秒到秒。空间缩放仅仅是压缩时间的手段。
一旦认识到这一点,一个明显的重新构架便浮现出来:时间本身应被采纳为主要指标。可以在堆栈的每一层——晶体管、电路、芯片和系统——定义一个特征时间常数τ,并将其缩减作为统一的优化目标。几何缩放随后成为缩减τ的众多技术之一,而非唯一的技术。
这一原理被称为τ缩放,本文提出将其作为几何摩尔缩放的后继者,成为半导体演进的指导原则。形式上,τ被视为一个分层结构,可分解为:
τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)
其中τ_transistor, τ_circuit, τ_chip, 和 τ_system 分别代表晶体管、电路、芯片和系统层的时间常数。每一层的τ由其下层τ以及该层引入的组织和通信开销共同构成。如图1所示,τ的工作空间在时间维度上跨越约十二个数量级(皮秒到秒),在空间维度上跨越相当的范围(纳米到公里)。在每一层,都有不同的机制可用于缩减τ:
晶体管:本征开关延迟,通过迁移率增强、应变工程、高κ/金属栅极和GAA架构来解决,并且日益需要通过减少局部互连的寄生电阻和电容来解决,后者目前已超过本征传输时间数倍。
电路:信号路径上的RC传播延迟,通过更低电阻率的导体、低κ电介质,以及——最重要地——通过垂直集成减少线长来解决。
芯片:计算和内存访问延迟,通过架构选择、流水线深度、存储层次和片上互联来解决。
系统:端到端的消息传递和同步时间,通过互联拓扑、协议栈和架构设计来解决。

[图1:τ缩放的工作空间在时间和空间维度上跨越12个数量级,并划分为四个层次:晶体管、电路、芯片和系统。]
从这个分层公式中可以得出一个有用的代际规则:
τ_n 1 = τ_n / α
其中下标n和n 1分别表示当前代和下一代。根据不同行业部门的市场压力和优化优先级差异,我们认为年度缩放因子是应用特定的,而非通用的。不同的行业部门由于独特的应用约束,需要不同的加速因子。我们预测,未来十年,受功耗和散热预算限制的移动设备,其年度缩放因子约为1.3;需要安全关键实时响应的自动驾驶系统约为1.5;而吞吐量直接转化为经济价值的人工智能(AI)令牌生成则可高达10。
τ之所以能成为一个有用的主要指标,而不仅仅是对现有指标的重新命名,是因为它是整个堆栈中相同的指标。频率、延迟、带宽和吞吐量都受其各自层级的τ支配。工艺工程师、电路设计师和系统架构师可以用相同的单位来讨论同一个量。τ是能够实现端到端堆栈协同优化的语言——而各层独立优化、时序仅作为事后考量而出现的时代已经结束。
四、LogicFolding:一个移动SoC的验证案例
τ缩放的首次生产级规模测试是在移动领域进行的。智能手机SoC是一个特例,因为一颗芯片就构成了整个系统。多插槽并行不可用;没有千节点互联网络可以掩盖一条慢速链路。所有交付给用户的性能都源自单个芯片,在几瓦的功耗预算和手持设备形态因素设定的散热限制下运行。
在2020年之后,当获取前沿节点的途径受限时,实际的问题变成了:在节点固定的情况下,如何继续在单颗芯片上实现代际性能提升?
由此产生的答案被称为LogicFolding。
定义:LogicFolding是一种设计方法论,它将数字、模拟和存储电路分区到垂直堆叠的有源层中,遵循时间缩放原理,共同优化性能、功耗和面积(图2)。
数字电路分为组合逻辑——寄存器之间的布尔网络——和时序逻辑——保存状态的触发器。数字系统的性能上限由相邻触发器级之间的关键路径延迟决定,而该延迟又由该路径上的互连RC和门数量主导。传统优化将门电路放置在平面内,并通过上方的金属堆栈进行布线;导线越长,寄生RC越大,关键路径就越慢。
LogicFolding抛弃了平面假设。关键路径上的门电路被分布到两个(并最终更多)垂直堆叠的有源层中,通过超精细间距的混合键合连接。从电路设计师的角度来看,这两层表现为一个单一连续的结构,单元如同穿过一个额外的金属层一样分布在整个晶圆界面上。信号线大幅缩短,寄生RC急剧下降,时钟偏移收紧,芯片在相同的工艺节点下以更高的时钟频率运行。

[图2:LogicFolding的原理示意图]
为了充分实现LogicFolding的架构优势,关键在于保持混合键合与顶部金属布线层之间的低间距比(通常称为“齿轮比”)。当垂直互连间距接近顶部金属层的尺寸时,优化目标的本质发生了根本性转变。历史上,当垂直互连间距远大于顶部金属间距时,设计空间基本被限制为一个离散优化问题。设计师在宏观层面手动定义分区边界,将整个功能模块分配给特定的芯片 。芯片间连接的粗糙粒度迫使采用离散的模块分配方法,这在计算上是可行的,但并非全局最优。
本文提出的LogicFolding被定位为一个连续优化问题,其中精细粒度的垂直集成使得设计空间能够在远超功能模块细粒度的层面上进行探索,为跨垂直维度进行全局协调的电路优化打开了大门。随着键合焊盘间距的逐步缩小,垂直互连密度不断增加,从电路连接性的角度来看,晶圆实际上被拉得越来越近。这使得优化空间从离散转变为连续,需要使用先进的自动化设计工具。
值得注意的是,虽然顺序3D集成在理论上通过顺序制造器件层来提供最终的精细粒度(器件或标准单元粒度),但它目前面临着重大的制造瓶颈 。最关键的是,由于顺序制造过程中固有的严格热预算限制,下层器件的性能极易退化。作为一种商业可行的实现方式,LogicFolding利用成熟的先进晶圆对晶圆混合键合技术,实现了连续优化所需的低齿轮比。
在实践中,LogicFolding要求齿轮比降至约3以下,且该比值越低通常效果越好。以当前约720纳米的顶部金属间距计算,这对应于低于2微米的混合键合间距——理想情况下齿轮比约为1,此时键合界面处的“鸟笼式”布线开销将基本消失。实现这一间距,以及所需的套刻精度(<0.5微米)、硅通孔(TSV)微缩(临界尺寸和保持区小于1.5微米,间距小于6微米)和良率(通过智能冗余设计接近100%),需要在供应商和合作伙伴生态系统中进行多年的工艺开发努力。
与2025年的Kirin 9030 Pro基线相比,在Kirin 2026上测得的成果提供了具体的实践证据。尽管两者制造于相同的成熟工艺节点,但基线采用传统平面设计,而Kirin 2026采用了LogicFolding:
晶体管密度在单一代际间实现了阶跃式提升,从155 MTr/mm² 提升至 238 MTr/mm²(晶体管密度计算公式为 2/
(CPP × 单元高度);Kirin SoC设计的面积利用率为68%)。这一提升幅度以往需要三年的几何微缩才能实现。在环境温度、1.1V供电电压下,SoC性能核心的最高时钟频率提升了近13%。
在上下两层构建的一条高速全局片上网络数据通路,其面积减少了55%,同时供电稳定性得到改善。一项硅后时钟偏移调整方案独立贡献了超过5% 的SoC性能提升。
在SRAM上(其访问速度、每比特能耗和面积强烈依赖于位线和字线长度),LogicFolding缩短了关键路径,降低了每比特能耗,并将工作频率提升了超过40%。
在一个代表性处理核心上,双层折叠架构使时钟缓冲器数量减少了超过50%,时钟偏移降低了25%,线长缩短了约30%。
热管理仍然是LogicFolding架构中的关键挑战。为解决此问题,我们采用了热感知分区和布局规划策略。在设计阶段,我们有意识地避免折叠高功耗电路,并从结构上防止高功耗子系统的空间相邻。SoC性能核心是我们详细评估的焦点。如表1所示,利用LogicFolding带来的性能提升,Kirin 2026降低其供电电压以实现与Kirin 9030 Pro的等性能运行。在实际测量中,达到此等性能目标时,功耗降低了41%,同时功率密度下降了5.6%。

表1. Kirin 2026与Kirin 9030 Pro在等性能下的功耗对比
这些增益是在固定器件节点上实现的,并非通过新的光刻步骤,而是通过逻辑在三维空间分布上的拓扑重组获得的。
在Kirin 2026中量产的LogicFolding实现是刻意保守的。混合键合间距达到了1.5微米;硅通孔着陆仅向顶部金属下方推进了一步;折叠仅沿关键路径选择性应用,而非贯穿整个设计(图3)。即便如此,CPU性能核心的频率今年已回归至3.1 GHz。

图3. (a) 下一代Kirin SoC平台的原理示意图;(b) 其键合界面的横截面图像。
在未来十年间,LogicFolding预计将从局部的关键路径折叠演进为全面的、多层级的折叠——每个封装内将集成三层、四层乃至更多的有源层。这一演进由低温混合键合技术(放宽了各层之间的热预算限制)以及硅通孔(TSV)着陆点从顶层金属逐步下移至M6层所推动,此举将释放超过30%的高层布线资源。从2026年到2035年,晶体管密度预计将向400 MTr/mm²及更高水平迈进。
与此同时,LogicFolding使Kirin能够大幅提升CPU核心频率,并为迈向4 GHz及更高频率铺平道路(见图4和表2)。该路线图是切实可行的,并且在成本方面具有经济可行性。


图4. 未来Kirin产品晶体管密度与性能核心频率预测
Highlight — LogicFolding核心指标一览
混合键合间距:低于2微米(Kirin 2026中为1.5微米;目标齿轮比≈1)
套刻精度:低于0.5微米
硅通孔临界尺寸/保持区:低于1.5微米;间距低于6微米;失效率低于100 ppm;修复率99.9%
良率:通过智能冗余设计接近100%
晶体管密度:单代从155 MTr/mm²跃升至238 MTr/mm²
能效/频率增益(SoC性能核心): 41% / 13%
SRAM工作频率:提升40%以上
代表性核心上的时钟缓冲器数量/时钟偏移/线长:-50% / -25% / -30%
五、从皮秒到微秒:AI数据中心中的τ缩放
一个自然的问题是:在毫瓦级智能手机领域发展出的原理,能否成功迁移至AI训练和推理所涉及的吉瓦级领域?AI工作负载占据了τ频谱的另一端:并非单颗芯片,而是数百或数千颗芯片如同一台机器般协同工作,其总算力在过去十年间增长了约六个数量级。
答案是肯定的——只要将τ视为一个系统级目标,并应用到整个链条中,而非仅限于单个加速器内部。
塑造AI领域τ论证的两个事实。首先,AI系统持续增长——从单芯片到数十颗、数百颗,并正增至数万颗。其次,现代AI系统的能源预算和物料预算主要由数据主导,而非计算。在一个大型AI集群中,超过80%的能源消耗于数据移动;超过70%的系统成本用于数据存储。其含义是直接的:减少数据在传输途中的时间——在芯片间、机架间以及封装内部——至少与减少计算本身所花费的时间同等重要。
τ缩放在AI规模上通过三个协同层实现:系统架构(统一总线)、近封装光学引擎(Hi-ONE)以及封装本身的拓扑重组(3D折叠)。这种全栈方法系统性地压缩了分布式AI系统固有的系统τ。具体而言,统一总线通过统一内存语义互连消除了多层协议开销,大幅降低了跨节点通信延迟。Hi-ONE利用近封装光学I/O直接压缩物理传输延迟。3D折叠通过将边缘受限资源转移到表面,克服了二次方到线性缩放差异,最大限度地减少了节点内寄生RC。总之,这套从电路到系统的优化堆栈实现了AI系统中τ缩放的终极目标:使大规模AI集群能够像一个单一逻辑实体一样协同运行。
1、统一总线——一种τ优先的系统架构
传统的多节点、多加速器架构通过多个堆叠协议传输数据:连接主机的PCIe、机箱内的NVLink或专有架构、机箱间的以太网或InfiniBand,以及其上的软件栈远程内存访问。每一层都涉及协议转换、额外的序列化、额外的DMA缓冲以及进一步的握手交互。每次转换都会增加延迟、降低可靠性并带来额外成本。
统一总线用一个统一的协议取代了这一堆栈,该协议在机箱内部和跨机箱运行——这是一个完全对等的架构,在整个系统中本地化地暴露内存语义(图5)。数据移动被简化为在内存语义层进行无需转换的点对点传输,并以硬件管理的缓存一致性取代了软件栈的消息传递。
其已测得的收益约为两个数量级:端到端的远程访问延迟从TCP/IP类协议栈典型的数十微秒降至约100纳秒——在主导的通信路径上实现了约500倍的系统τ缩减。在机架规模上,这使系统渐近地接近一台单一的、结构一致的机器——内部将其称为“系统即单芯片”(System-as-One-Chip)。

图5. (a) 统一总线原生支持内存访问语义、消息传递和统一远程过程调用(uRPC)。这使得多样化的计算资源能够无缝集成,实现高带宽和超低延迟,同时促进分布式系统中高效的资源池化;(b) 通过统一总线实现低开销内存访问的原理示意图。
2、Hi-ONE——封装级光学I/O
一旦通信延迟得到降低,下一个瓶颈便浮现出来。在单个机架内增加芯片密度会使功率密度和可靠性超出其极限——同时也使电气SerDes超出其能力范围。在每颗AI芯片400 Gb/s的速率下,铜缆布线仍是成熟且可靠的方案。但当速率达到每颗芯片数Tb/s时,铜缆在物理上变得不切实际:SerDes的传输距离缩短,线缆变得过于笨重,面板安装变得不可行,且热管理和供电裕度也被耗尽。
华为海思为此开发的方法是高密度光互连节点引擎(High-density Optical-interconnect-Node Engine, Hi-ONE)——一种近封装光学引擎,每个模块可提供8 Tb/s的带宽,在单一光学链路上与AI芯片的统一总线带宽相匹配(图6)。它将所需的SerDes传输距离从约100厘米缩短至约5厘米,消除了笨重的线缆,并将传输距离从不足1米扩展至100米——这使得分布式、吉瓦级数据中心的高密度互连在物理上成为可能。
Hi-ONE背后的设计理念本身就是一个τ缩放的论证。Hi-ONE并未采用用于高信号保真度的重型DSP,而是采用了一种线性方案——一种模拟均衡增强型驱动器和跨阻放大器——并允许统一总线协议容忍故意放宽的误码率。这种协议层与物理层之间的跨层权衡,降低了功耗、成本和集成复杂性,并体现了τ优先方法论所推崇的跨层折衷。

图6. Hi-ONE芯片示意图
3、N²-vs-N的困境,以及为什么3D折叠不可避免
AI加速器不会止步于2.5D扇出的最深层次原因是几何学的,这一点值得明确陈述,因为它决定了2030年后的路线图。
在传统的2.5D AI芯片中,逻辑芯片位于封装中心,HBM堆栈和SerDes排列在其边缘,电压调节器环绕封装。每一个存储器信号、每一个互连信号、每一安培的供电电流,都必须穿越芯片的边缘才能到达内部的计算资源。如果芯片的边长为N,那么:
●计算能力与N²成比例(面积),
●但内存带宽、互连和供电——所有这些都由2.5D扇出沿边缘承载——仅与N成比例(周长)。
这些二次方曲线与线性曲线之间日益扩大的差距构成了扇出困境,它解释了2.5D缩放的停滞,无论底层逻辑节点多么激进都无法解决。没有任何晶体管级的改进能够弥补这种拓扑缺陷。
3D折叠通过将受边缘限制的资源重新定位到表面上来解决这一困境。供电(通过背面供电和集成电压调节器)、高速内存(通过与逻辑的混合键合)和光学I/O(通过近封装Hi-ONE)都从周长迁移到垂直表面——一旦位于表面上,它们便按N²扩展,与计算能力的二次方增长速度相匹配。封装不再是一个被内存和SerDes周边带环绕的逻辑芯片;它变成了一个垂直集成的堆栈,其中内存、结构、供电和逻辑都同步扩展。
该路线图将这一演进置于一个明确的时间表上。大约到2030年,AI加速器(昇腾SuperPoD系列——2025年的昇腾910C、2026年的昇腾950,以及后续的990)依赖成熟技术的组合:芯粒、2.5D扇出,以及通过微凸点和标准间距混合键合实现的3D堆叠。大约在2030年,昇腾990将把LogicFolding引入AI加速器类别,从那时起,3D折叠将成为直到2035年的α的主要承载者。沿着这条路径,到2035年,硬件集成度预计将增加超过100倍,其中τ的缩减分布在堆栈的每一层,而非集中在器件层面。
亮点——AI系统规模的τ缩放
●统一总线远程访问延迟:数十微秒 → 约100纳秒(约500倍τ缩减)
●Hi-ONE单模块带宽:8 Tb/s(与单芯片统一总线带宽匹配)
●Hi-ONE SerDes传输距离:约100厘米 → 约5厘米;面板到面板传输距离:<1米 → 100米
●扇出困境:计算∝N²,受周长限制的带宽/I/O/供电∝N
●3D折叠:将带宽、光学I/O和供电从边缘重新定位到表面,恢复N²的对等性
●2026年→2035年预计硬件集成度增长:>100倍
六、逻辑与内存:从解耦到再融合
τ缩放的一个影响值得单独讨论,因为其后果既是产业性的,也是技术性的。
在8086时代,业界通过标准化的内存总线,有意地将处理器和内存解耦。这种解耦使得两个产业能够独立扩展:处理器性能沿着摩尔曲线快速进步,而内存供应商则在其旁边发展出一个庞大的、独立的市场。
AI时代正在逆转这种解耦。计算密度的持续扩展正将内存带宽、延迟、功耗和封装推向极限。HBM、混合键合和3D堆叠SRAM都是一个基本事实的症状:对于现代AI工作负载,数据移动与计算本身同等关键,逻辑和内存再次被推向紧密的物理集成。随着它们融合,供应链中的影响力平衡正在向内存和封装供应商转移。
技术方向是明确的,但经济上的解决方案尚未确定。在AI硬件时代持久的成功将属于那些能够技术上融合逻辑与内存,并建立一种经济伙伴关系,使两个行业都能长期分享这种融合收益的参与者。这不仅仅是一个研究问题;这是业界在未来十年需要解决的一个结构性问题。通过使每次分离的跨层成本变得可见,τ缩放确保这个问题无法被推迟。
七、开放挑战
将τ缩放描述为一个已完成的系统会具有误导性。几个实质性问题仍然悬而未决,在此指出是为了强调正在进行的工作并邀请合作。
工具链和方法论。当今的EDA是为这样一个时代开发的,在那个时代,面积、时序和功耗是沿着三条独立的轴进行优化的,系统τ是作为一个残余量出现的。全面的LogicFolding要求工具链将多个堆叠芯片视为一个单一连续的设计实体——以单元粒度而非模块粒度进行逻辑分区,在统一的成本函数下跨越整个三维空间进行布局,并在垂直互连寄生效应、保持区排除区和晶圆间工艺变化以传统二维训练工具无法充分处理的方式相互作用的跨芯片路径上完成时序收敛。已开发出能产生有用结果的初步内部工具,方法细节将在未来几个月内公布。一个τ原生的工具链——开放的、多物理场的、三维原生的——是未来十年最重要的赋能投资。
晶圆间工艺变化。LogicFolding键合可能来自不同批次的晶圆——在某些情况下甚至是不同节点的晶圆。晶圆间的阈值电压、驱动电流和互连RC的变化实质上大于晶圆内的变化,并且对时钟分配和保持时间裕度的影响最为严重。智能冗余、自适应补偿和τ感知的签核流程是应对方案的必要组成部分。
垂直互连开销。每一个混合键合和每一个硅通孔都会产生有限的电阻和电容代价,并且硅通孔的保持区会取代标准单元。因此,LogicFolding必须逐层地通过一个简单的不等式来证明其合理性:
对于移动关键路径和存储器,这个阈值已被跨越;该阈值是特定于工作负载的,并且边界将随着键合间距的缩小而移动。
功耗。τ是时间定律,而非焦耳定律。一个运行速度快10倍但功耗也高10倍的超级节点并不违反任何缩放原理,但却超出了电网容量。因此,τ缩放需要一个能源伴侣:消除堆栈开销的内存语义结构、将每比特皮焦耳能耗降低数个数量级的近封装/共封装光学、背面供电、存内/近存计算,以及将τ裕度换回功率的规范实践(数据中心规模的动态电压频率调整——与实现智能手机电池长寿的机制相同)。重要的是,τ裕度本身在按此方向分配时,也提供了能源裕度。
基准测试。行业当前的性能基准测试——Linpack、MLPerf、SPEC——是为一个每个工作负载只需一个标量值就足够的时代设计的。一个τ缩放的行业需要τ剖析基准测试——能够揭示系统每一层主导τ以及该层剩余裕度的向量。主导τ层,按定义,就是下一个投资方向。
八、六年回顾,十年展望
在2020年5月至2026年5月期间,华为海思设计并将381颗芯片投入量产,服务于移动、AI、汽车、工业和基础设施市场。在整个产品组合中,τ缩放的论点经受住了考验:
超越任何单个产品,更深层次的论断在于方法论层面。τ缩放是自邓纳德缩放以来,第一个为整个堆栈提供共享优化目标的缩放原理。它向工艺工程师、电路设计师、架构师、系统工程师和软件团队发出信号:这些群体现在正在用相同的单位优化相同的量,并且任何单层的改进都必须传播到系统τ才能算数。它也向行业战略家和资本配置者表明:下一美元应追随τ,而非节点——竞争性性能不再需要永远驻留在光刻的最前沿,封装、内存带宽和架构设计现在拥有了先前仅由前沿逻辑节点单独占据的战略权重。
对于一代接受“摩尔定律”即等同于“进步”教育的工程师来说,这是一个艰难的转变。几何时代实际上已经终结;否认这一事实并非可行的策略。通过微型化加速的时代,正在让位于通过多层电子系统中的τ优化来加速的时代——而那些在未来六到十年内采纳τ作为主要目标的企业、研究团队和生态系统,将决定此后十年计算的面貌。
未来十年的工作范围已经明确。许多开放问题仍然存在,没有任何一个组织能够独自解决它们——工具链、标准、基准测试、器件物理和经济模型都需要来自任何一家公司之外的贡献。因此,本文既是一份来自实践一线的报告,也是一份邀请。
前方的路线图要求很高,但方向是明确的。
作者简介
何庭波领导华为的半导体业务。她所领导的团队在2020年至2026年间,设计并将381颗芯片投入量产,产品覆盖移动、AI、汽车和基础设施市场,并是本文所述τ缩放方法论以及LogicFolding、统一总线和Hi-ONE技术的源头。
致谢
本文借鉴了华为海思及其晶圆厂、设备、EDA和系统合作伙伴生态系统中数千名工程师长达六年的工作成果。作者感谢那些以耐心使这项工作成为可能的客户。


VIP复盘网