扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.5.3版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 国产TPU大突破:7nm已实验室回片

股市情报:上述文章报告出品方/作者:电子发烧友网;仅供参考,投资者应独立决策并承担投资风险。

国产TPU大突破:7nm已实验室回片

时间:2025-12-30 06:55
上述文章报告出品方/作者:电子发烧友网;仅供参考,投资者应独立决策并承担投资风险。
电子发烧友网报道(文/黄山明)如今,AI已被全球广泛认定为未来发展的核心驱动力,不仅是科技前沿,更是重塑经济、社会、产业乃至人类生活方式的关键力量。而在AI技术蓬勃发展的背后,依靠的是算法、数据、算力三大支柱,硬件则是算力的唯一载体,也是数据处理、算法落地的物理基础。

在过去,AI的算法硬件主要依靠GPU与CPU,但随着AI技术的发展,传统GPU的弊端开始显现,市场需要一种更高能效比、更低延迟且部署成本更经济的大规模产品,此时TPU开始逐渐在市场中崭露头角。

从GPU到TPU

说起GPU,相信大多数人都不会陌生。作为专为图形渲染设计的芯片,它拥有数千个并行计算核心,能同时处理大量简单任务,这种特性与深度学习的海量矩阵运算需求完美契合。因此早在2011年,就有AI研究者发现英伟达的GPU能够处理深度学习的巨大计算需求,谷歌、斯坦福等企业与机构随即开始采用。

而在此之前,AI发展的最大瓶颈并非算法,而是神经网络运算效率低下——训练一次模型需要数周甚至数月,模型稍大就“跑不动”。

到了2012年,多伦多大学的Alex Krizhevsky用两块GTX 580 GPU训练出AlexNet,在ImageNet图像识别大赛中,将准确率从74%飙升至85%,震惊业界。这是深度学习首次碾压传统方法,以至于后来黄仁勋直言:“没有GTX 580,就没有今天的英伟达,也没有现代的AI。”

不过在2013年,谷歌却面临了一场算力危机:若1亿安卓用户每天使用3分钟语音搜索,现有数据中心的算力将无法应对,需要翻倍扩建。传统CPU/GPU在处理神经网络的大规模矩阵运算时,效率极低且功耗极高。

显然,GPU解决了“能否实现AI”的问题,但面对AI应用中成本过高、能耗过大以及难以规模化的痛点却无能为力。2015年,第一代TPU(v1)在谷歌数据中心悄然部署,2016年5月于Google I/O大会正式亮相,此时该芯片已内部使用一年多。

TPU(Tensor Processing Unit,张量处理单元)并不像GPU那样追求通用性,而是专为神经网络运算设计,舍弃了所有多余功能的专用芯片。因此,TPU在AI发展中解决了上述核心痛点,在成本、能效与可预测性上均优于GPU。

具体来说,TPU采用脉动阵列(systolic array)结构,将矩阵乘法/累加操作做成硬连线流水线,数据在阵列内部流动过程中完成计算,几乎省去了传统GPU需反复读写共享缓存或显存的步骤。谷歌第六代Trillium与第七代Ironwood的实测数据显示,在同等7nm工艺下,TPU的每瓦AI算力达到GPU的1.4–2.0倍;若与2018年的初代TPU相比,能效提升了近30倍。

此外,由于片上高带宽内存(HBM)距离计算单元更近,且省去了图形渲染所需的大量控制逻辑,TPU在批量推理场景下的延迟普遍比GPU低15–40%;在谷歌搜索、推荐、Claude等线上业务中,相同模型下TPU的P99延迟显著优于GPU。

成本优势更为显著:当部署到9000 芯片的Pod级别集群时,TPU配合光电路交换(OCS)可进一步降低30%的网络功耗,整机柜成本比同规模GPU集群低40–60%。Anthropic、Meta等企业选择与谷歌合作,正是看中其长期推理成本可比GPU方案低4倍以上。

中国的TPU之路

制造TPU并非易事。TPU并非单纯的芯片,而是一套包含专用架构设计、配套软件栈与编译器支持(例如谷歌的XLA、TensorFlow/JAX集成)、大规模互联和集群调度能力,以及针对深度学习训练与推理的整体工程解决方案。

这种整体系统设计相比通用GPU更难拆解学习,需要跨领域的技术积累,绝非研发出单块芯片就能完成——TPU的背后,是谷歌多年针对AI任务优化的技术沉淀。

在TPU领域,中国起步较晚。直到2019年,谷歌TPU核心架构师杨龚轶凡回国创办中昊芯英,国内才首次出现专注于研发真正意义上张量处理器的创业公司。
2021年,在北京大学、清华大学等高校团队的配合下,中昊芯英完成了自研指令集、脉动阵列RTL设计和12nm物理设计,并在流片前夕获得10亿元融资。

2023年,首颗训练级TPU“刹那®”一次流片成功,其算力可达A100的1.5倍,功耗降低30%,单位成本仅为A100的42%,且实现量产交付,这也让中国首次拥有了可商用的TPU芯片。

2024年,基于“刹那”打造的千卡集群“泰则®”在长三角、京津冀两地区上线,实测可稳定训练千亿参数模型;太极股份浙数文化艾布鲁等上市公司先后入股,形成了“芯片 系统 云运营商”的小型生态。

今年,天津移动TPU智算中心正式点亮,标志着国产TPU完成“单卡→整机柜→智算中心”的三级跳,开始对外提供商业化算力服务。官方数据显示,在同等精度下,其推理成本比GPU低40–60%。

值得注意的是,除了具备与运营商、智算中心协同部署的能力,中昊芯英不仅专注于芯片研发,还在构建支撑国产大模型运行的软硬件栈,并在行业生态中逐步建立合作,推动产品从单一芯片向完整算力服务能力升级。

此前,中昊芯英创始人杨龚轶凡表示,目前国内实现高性能TPU AI芯片量产与交付的企业主要是中昊芯英。同时,该公司也是少数已实现盈利的AI芯片企业,盈利主要源于国家对国产化进程的支持,以及创新带来的高性价比产品结构。

据了解,中昊芯英保持着“一年一芯、一年两栈”的研发节奏,第二代7nm芯片已在实验室回片,配套软件栈同步开发,预计2026年Q2实现规模出货;软件侧则按季度滚动发版,持续新增PyTorch 2.x新算子与MoE并行策略支持。

这不仅是中国在高性能AI处理器领域的突破性成果之一,更对减少国外AI算力产品依赖、增强自主可控能力具有战略意义,同时也为国内AI算力生态建设提供了实质性推动。

总结

TPU的发展历程,本质上是AI算力需求与硬件供给之间矛盾不断突破的过程。从最初解决算力危机的专用推理芯片,到支撑大模型训练的AI超算,再到如今面向生成式AI的推理引擎,TPU的发展始终围绕性能、能效与架构创新持续突破。正是TPU提供的超算级算力,让大语言模型、多模态生成等前沿AI技术成为可能,推动AI从实验室研究走向产业落地与消费级应用。

随着中昊芯英等国内企业推出真正的高性能TPU芯片,其核心价值不在于短期能否完全超越英伟达或谷歌,而在于为国内AI算力提供了一条可自主掌控的高端发展路径,推动国产算力生态的完善——包括算力集群部署、模型适配、本地数据中心落地等。这种战略意义,远大于单纯的单项性能优势。

股票复盘网
当前版本:V3.0