国产TPU大突破:7nm已实验室回片
时间:2025-12-30 06:55
上述文章报告出品方/作者:电子发烧友网;仅供参考,投资者应独立决策并承担投资风险。
电子发烧友网报道(文/黄山明)如今,AI已被全球广泛认定为未来发展的核心驱动力,不仅是科技前沿,更是重塑经济、社会、产业乃至人类生活方式的关键力量。而在AI技术蓬勃发展的背后,依靠的是算法、数据、算力三大支柱,硬件则是算力的唯一载体,也是数据处理、算法落地的物理基础。在过去,AI的算法硬件主要依靠GPU与CPU,但随着AI技术的发展,传统GPU的弊端开始显现,市场需要一种更高能效比、更低延迟且部署成本更经济的大规模产品,此时TPU开始逐渐在市场中崭露头角。说起GPU,相信大多数人都不会陌生。作为专为图形渲染设计的芯片,它拥有数千个并行计算核心,能同时处理大量简单任务,这种特性与深度学习的海量矩阵运算需求完美契合。因此早在2011年,就有AI研究者发现英伟达的GPU能够处理深度学习的巨大计算需求,谷歌、斯坦福等企业与机构随即开始采用。而在此之前,AI发展的最大瓶颈并非算法,而是神经网络运算效率低下——训练一次模型需要数周甚至数月,模型稍大就“跑不动”。到了2012年,多伦多大学的Alex Krizhevsky用两块GTX 580 GPU训练出AlexNet,在ImageNet图像识别大赛中,将准确率从74%飙升至85%,震惊业界。这是深度学习首次碾压传统方法,以至于后来黄仁勋直言:“没有GTX 580,就没有今天的英伟达,也没有现代的AI。”不过在2013年,谷歌却面临了一场算力危机:若1亿安卓用户每天使用3分钟语音搜索,现有数据中心的算力将无法应对,需要翻倍扩建。传统CPU/GPU在处理神经网络的大规模矩阵运算时,效率极低且功耗极高。显然,GPU解决了“能否实现AI”的问题,但面对AI应用中成本过高、能耗过大以及难以规模化的痛点却无能为力。2015年,第一代TPU(v1)在谷歌数据中心悄然部署,2016年5月于Google I/O大会正式亮相,此时该芯片已内部使用一年多。TPU(Tensor Processing Unit,张量处理单元)并不像GPU那样追求通用性,而是专为神经网络运算设计,舍弃了所有多余功能的专用芯片。因此,TPU在AI发展中解决了上述核心痛点,在成本、能效与可预测性上均优于GPU。具体来说,TPU采用脉动阵列(systolic array)结构,将矩阵乘法/累加操作做成硬连线流水线,数据在阵列内部流动过程中完成计算,几乎省去了传统GPU需反复读写共享缓存或显存的步骤。谷歌第六代Trillium与第七代Ironwood的实测数据显示,在同等7nm工艺下,TPU的每瓦AI算力达到GPU的1.4–2.0倍;若与2018年的初代TPU相比,能效提升了近30倍。此外,由于片上高带宽内存(HBM)距离计算单元更近,且省去了图形渲染所需的大量控制逻辑,TPU在批量推理场景下的延迟普遍比GPU低15–40%;在谷歌搜索、推荐、Claude等线上业务中,相同模型下TPU的P99延迟显著优于GPU。成本优势更为显著:当部署到9000 芯片的Pod级别集群时,TPU配合光电路交换(OCS)可进一步降低30%的网络功耗,整机柜成本比同规模GPU集群低40–60%。Anthropic、Meta等企业选择与谷歌合作,正是看中其长期推理成本可比GPU方案低4倍以上。制造TPU并非易事。TPU并非单纯的芯片,而是一套包含专用架构设计、配套软件栈与编译器支持(例如谷歌的XLA、TensorFlow/JAX集成)、大规模互联和集群调度能力,以及针对深度学习训练与推理的整体工程解决方案。这种整体系统设计相比通用GPU更难拆解学习,需要跨领域的技术积累,绝非研发出单块芯片就能完成——TPU的背后,是谷歌多年针对AI任务优化的技术沉淀。在TPU领域,中国起步较晚。直到2019年,谷歌TPU核心架构师杨龚轶凡回国创办中昊芯英,国内才首次出现专注于研发真正意义上张量处理器的创业公司。2021年,在北京大学、清华大学等高校团队的配合下,中昊芯英完成了自研指令集、脉动阵列RTL设计和12nm物理设计,并在流片前夕获得10亿元融资。2023年,首颗训练级TPU“刹那®”一次流片成功,其算力可达A100的1.5倍,功耗降低30%,单位成本仅为A100的42%,且实现量产交付,这也让中国首次拥有了可商用的TPU芯片。2024年,基于“刹那”打造的千卡集群“泰则®”在长三角、京津冀两地区上线,实测可稳定训练千亿参数模型;太极股份、浙数文化、艾布鲁等上市公司先后入股,形成了“芯片 系统 云运营商”的小型生态。今年,天津移动TPU智算中心正式点亮,标志着国产TPU完成“单卡→整机柜→智算中心”的三级跳,开始对外提供商业化算力服务。官方数据显示,在同等精度下,其推理成本比GPU低40–60%。值得注意的是,除了具备与运营商、智算中心协同部署的能力,中昊芯英不仅专注于芯片研发,还在构建支撑国产大模型运行的软硬件栈,并在行业生态中逐步建立合作,推动产品从单一芯片向完整算力服务能力升级。此前,中昊芯英创始人杨龚轶凡表示,目前国内实现高性能TPU AI芯片量产与交付的企业主要是中昊芯英。同时,该公司也是少数已实现盈利的AI芯片企业,盈利主要源于国家对国产化进程的支持,以及创新带来的高性价比产品结构。据了解,中昊芯英保持着“一年一芯、一年两栈”的研发节奏,第二代7nm芯片已在实验室回片,配套软件栈同步开发,预计2026年Q2实现规模出货;软件侧则按季度滚动发版,持续新增PyTorch 2.x新算子与MoE并行策略支持。这不仅是中国在高性能AI处理器领域的突破性成果之一,更对减少国外AI算力产品依赖、增强自主可控能力具有战略意义,同时也为国内AI算力生态建设提供了实质性推动。TPU的发展历程,本质上是AI算力需求与硬件供给之间矛盾不断突破的过程。从最初解决算力危机的专用推理芯片,到支撑大模型训练的AI超算,再到如今面向生成式AI的推理引擎,TPU的发展始终围绕性能、能效与架构创新持续突破。正是TPU提供的超算级算力,让大语言模型、多模态生成等前沿AI技术成为可能,推动AI从实验室研究走向产业落地与消费级应用。随着中昊芯英等国内企业推出真正的高性能TPU芯片,其核心价值不在于短期能否完全超越英伟达或谷歌,而在于为国内AI算力提供了一条可自主掌控的高端发展路径,推动国产算力生态的完善——包括算力集群部署、模型适配、本地数据中心落地等。这种战略意义,远大于单纯的单项性能优势。