英伟达今天凌晨发布的四季度业绩指引超预期，财报显示营收同比增长73%至681亿美元，超过市场预期的650亿美元。

另据Wccftech，英伟达主办的全球性技术大会GTC大会将于3月16日召开，GTC是AI领域的重要盛会和产业风向标。

黄仁勋早前表示，所有技术都已逼近极限，将有几款全新芯片在GTC大会上发布。

市场预计采用LPU方案的Feynman架构芯片有望在GTC发布，同时下方采用PCB板为高多层板。

英伟达早前与AI推理芯片先锋Groq达成约200亿美元技术授权合作，获得LPU架构非独家IP授权并整体吸纳创始人及核心团队。

LPU将大幅提升AI算力中的模型推理能力，全新增量将成为英伟达强化推理版图的重要补充。

本文重点聚焦LPU推理芯片产业链核心环节。

01 什么是LPU？

LPU（LanguageProcessingUnit，语言处理单元）是专为顺序处理的计算密集型任务设计新型芯片架构，其核心目标是通过架构创新优化语言模型的推理效率。

LPU舍弃了GPU中的大量冗余结构，仅专注于推理阶段（即基于预训练模型处理输入并生成输出），在推理任务中实现低延迟、高吞吐性能，进而大幅提升推理能力。

英伟达与Groq合作：2025年12月，英伟达与AI芯片初创公司Groq达成非独家许可协议，斥资200亿美元获其技术授权，并吸纳创始人JonathanRoss、总裁SunnyMadra等核心团队，共同推进授权技术的升级与Groq推理技术应用。

Groq是什么？Groq的核心产品正是LPU，是面向推理计算阶段专门设计的ASIC，其出发点并非追求更高的算力规模，而是解决通用GPU架构中长期存在的“时延-吞吐权衡”问题。Groq从设计开始即围绕实时、交互式推理场景进行设计，其核心价值主张在于Determinism（确定性）。

从技术层面来看，Groq第二代产品采用三星SF4X4nm工艺，能效比初代14nm产品提升15-20倍，单集群规模扩展至4,128颗芯片全互联。

从产业分工角度看，Groq与英伟达并非替代关系，而是高度互补。

英伟达将LPU架构中的确定性执行、低延迟通信等特性融入其Hopper/Blackwell架构GPU中，强化推理性能。此外，英伟达或计划将Groq的LPU硬件堆栈集成至Feynman芯片。

花旗分析师指出，LPU的引入将帮助英伟达应对推理需求爆发。

LPU的张量流处理器（TSP）的架构（右图）对比传统GPU采用多核布局（左图）：

资料来源：groq官网

LPU的积极影响

算力性价比提升，利好推理乃至整体AI产业：例如，Groq的LPU在MetaLlama2-70B推理任务中，相较于英伟达H100实现了10倍的性能提升，同时推理成本降低了80%。

提升高速互联需求，促进PCB升规升级：LPU架构强调功耗比等特性，对上游供应链要求不同于传统AI服务器。其与CoWoP封装结合，推动PCB升规升级，主板或采用超高多层 M9的PCB设计以满足要求。

优化AI投入结构，提高PCB在AIBoM中的占比：作为AI硬件重要组成部分的PCB，其在AI物料清单（BoM）中的占比也将持续提升，预计从当前的3-5%提升至未来的5-10%。

LPU之间的芯片间直连：

02 LPU产业链

LPU芯片产业链核心环节覆盖芯片设计、存储芯片SRAM、PCB、先进封装、边缘计算、液冷等领域。

芯片设计

适配大模型推理的定制化芯片设计是LPU产业链的起点和关键环节。

海外核心企业Groq是LPU架构开创者，由谷歌TPU核心团队创立的Groq公司推出的LPU，在MetaLlama2-70B推理任务中实现10倍性能提升，推理成本降低80%，成为行业标杆。

英伟达通过技术授权合作吸纳Groq团队，将LPU融入自身生态，强化推理版图。

谷歌和AMD通过TPU、MI系列芯片布局语言处理市场，尚未推出专用LPU。

国内企业如寒武纪思元系列芯片覆盖云端推理场景；海光信息DCU芯片基于AMDGCN架构授权，兼容ROCm生态；无问芯穹“无穹LPU”是全球首个基于FPGA的大模型处理器；芯原股份提供NPUIP授权服务，通过IP核被多款AI芯片采用，适配LPU的协同计算需求，其VIP9000系列NPUIP支持Transformer加速；燧原科技、登临科技、云天励飞等均涉足LPU相关领域。

半导体IC设计流程图：

资料来源：行行查

存储芯片SRAM

LPU核心在于采用SRAM作为主要内存，而非传统GPU与TPU依赖的HBM。

通过大面积SRAM的近存计算方案，LPU满足LLM愈发显著的Tokens需求。

GroqLPU搭载230MBSRAM：

资料来源：Groq

SRAM核心优势

SRAM带宽高达约80TB/s，且数据几乎都能在芯片内部完成访问与运算，大幅降低了数据迁移成本，使AI在推论阶段能以更低延迟、更高能效即时回应用户问题。

虽然容量小且成本高，但作为LPU关键存储介质，用于存储关键数据指令以支持高速推理。

例如，LPU处理大语言模型时，SRAM可实现每秒500个token的生成速度，比英伟达GPU快10倍。

据瑞银证券，LPU通过230MB片上SRAM和80TB/s带宽，解决了传统GPU因访问片外HBM导致的延迟问题，可实现推理吞吐量7.5倍以上的提升。

资料来源：行行查

SRAM竞争格局

海外SRAM市场中，英飞凌、瑞萨电子、赛普拉斯和微芯科技都是该领域的头部玩家。国内相关厂商中北京君正产品覆盖计算机、嵌入式设备及高性能芯片领域，市场占有率居全球前列；兆易创新覆盖SRAM到NAND全系列为LPU提供存储支持；恒烁股份研发存算一体AI芯片基于SRAM技术降本增效；后摩智能采用近存计算/统一内存架构，将片上SRAM与计算核心紧密集成。此外，昆仑万维和炬芯科技等厂商在创新型芯片fabless SRAM与3DDRAM堆叠有相关布局。

PCB

PCB承载CPU、GPU、LPU、存储芯片等所有电子元器件，提供物理支撑和电气连接。

LPU对PCB的技术要求远高于传统服务器，单块LPU平台PCB价值是传统服务器的5-7倍。

LPU3D堆叠封装大容量SRAM与GPU，对PCB互联要求更高，使用高多层PCB，目前多方案并行，包括30层与50层方案，进一步扩展PCB需求。此外或采用背面供电技术，带动嵌埋PCB需求，将用52层M9 Q增强方案。

新技术方向往往是PCB发展核心驱动力，如正交背板和CoWoP等技术都曾带动PCB产业提速。LPU作为英伟达推理端的重要布局，有望接力成为PCB新催化。

国内包括沪电股份、胜宏科技、景旺电子、深南电路以及广合科技、生益科技、鹏鼎控股、东山精密、兴森科技、崇达技术、中京电子等众多厂商在PCB相关业务上有所布局。

资料来源：行行查

电子布

电子布是PCB的核心基材，由超细电子级玻璃纤维纱织造而成，与树脂复合后形成覆铜板（CCL），再通过蚀刻、钻孔等工艺制成PCB。

随着PCB层数的增加和面积的扩大，单片AI服务器对Q布的消耗量呈现出数倍的增长态势。

当前技术发展的主流方向是将PCB材料升级至M9，并配套使用超低轮廓铜箔以及低介电石英布。

资料来源：行行查

第三代（Q布/石英电子布）：介电常数低至2.2-2.3，专为高频高速应用如AI服务器设计，同时Q布也是M9覆铜板的关键增强材料。

在算力硬件需求持续放量的背景下，Q布成为产业链中供应最为紧张的关键材料。

目前全球第三代电子布（Q布）产能高度集中，技术壁垒极高。全球Q布产能高度集中于日东纺、AGC、菲利华、中材科技等少数厂商，供给长期紧平衡。日东纺、AGC二者通过专利和客户绑定形成绝对优势；菲利华提供低介电常数（Dk<3.0）、低介电损耗（Df≤0.0007）的第三代石英布；中材科技旗下泰山玻纤提供低介电石英布；国际复材通过突破超细纱线生产技术，实现Q布的规模化量产；宏和科技是国内少数具备Low CTE（低热膨胀系数）电子布量产能力的企业之一。此外，海外旭化成和信越主要生产低介电玻纤（二代布原材料）。

M9材料：是英伟达针对下一代Rubin架构AI服务器开发的革命性高频高速覆铜板（CCL）材料。其其核心构成主要包括特种树脂、石英布（Q布）和高端铜箔（HVLP4/HVLP5）。

东材科技通过英伟达M9级碳氢树脂认证，提供超低介电损耗（Df≤0.0005）的封装树脂；菲利华实现“高纯石英砂-石英纤维-石英布”全链条自主可控；生益科技提供M9级覆铜板；德福科技、铜冠铜箔量产HVLP4铜箔；联瑞新材提供M9材料关键填料球形硅微粉。此外，鼎泰高科、大族数控、宏昌电子等提供配套材料及相关设备。

液冷技术

LPU等高性能芯片将使用数据中心功耗大幅增加，液冷技术成为关键。

从全球头部厂商液冷技术布局路线来看，目前冷板式液冷和浸没式液冷为数据中心两大主流液冷方案。当前正从冷板式到浸没式渐进式过渡，并探索混合方案。

海外Vicor与Groq深度绑定，Groq的LPU架构为追求极致推理速度，需芯片在0.7V-0.8V极低电压下承载极高瞬时电流，其是最早采用Vicor分比式电源架构（FPA）的芯片公司之一。

国内液冷相关英维克、高澜股份、浪潮信息、同飞股份、中科曙光、曙光数创、申菱环境、依米康、佳力图、科华数据、飞荣达、思泉新材等厂商在各大核心领域均有所布局。其中，部分企业提供全链条液冷解决方案，覆盖冷板、CDU、工质等核心环节，技术适配高功耗芯片需求，能将数据中心PUE降至1.1以内，远超国家1.25的标准。

先进封装

LPU芯片通过SRAM替代传统HBM，解决了内存带宽瓶颈问题，但其单芯片SRAM容量有限（如GroqLPU集成230MBSRAM）。

先进封装使LPU集群在处理超大规模模型时，能通过多芯片协同弥补SRAM容量不足，同时保持低延迟优势。

Chiplet和2.5D/3D封装等技术通过多芯片互联，扩展内存容量和带宽。

据Wcctech，英伟达Feynman架构芯片预计将采用3D封装的方式将LPU堆叠在主芯片上，将专为推理任务优化的LPU芯片直接集成在GPU计算核心之上，从而实现通用计算与专用计算在物理层面的深度融合。

全球先进封装厂商阵容庞大，包括中国台湾厂商台积电，海外英特尔和三星等国际巨头，以及中国大陆封测厂商长电科技、通富微电、华天科技、智路封测、盛合晶微、甬矽电子、深科技、晶方科技、佰维存储以及精测电子、键合设备拓荆科技、百傲化学等众多厂商。

资料来源：行行查

短期来看，随着英伟达GTC大会临近，LPU新架构将带来算力形态新变化。而随着全球AI应用广泛落地，AI推理对低延时的需求不断增强，GPU LPU的异构架构有望进一步大幅降低推理成本，从高端场景向消费级市场渗透并加速大规模商业化。

算力核心赛道：LPU推理芯片全景解析

01

什么是LPU？

02

LPU产业链

芯片设计

存储芯片SRAM

PCB

液冷技术

先进封装