中信建投：芯片产业链投资展望

2026国际电路与系统研讨会25日在上海举行，华为公司董事、半导体业务部总裁何庭波在题为《半导体新路径探索与实践》的主旨演讲中，正式发表“韬（τ）定律”。这是中国在全球半导体领域首次提出指导产业发展的新原则。基于该定律，华为过去六年已成功设计并量产了381款芯片。今年秋季，华为将发布新的麒麟手机芯片，完整采用逻辑折叠技术，大幅提升相关性能。“韬定律”提出以“时间缩微”替代“几何缩微”，以系统性降低时间常数（韬τ）为目标，通过逻辑折叠等创新技术，持续压缩信号传播时延，不断提升晶体管密度，实现半导体与电子系统的持续演进。“韬定律”构建了贯穿器件、电路、芯片到系统层面的多层级协同优化体系。预计到2031年，基于该定律的高端芯片晶体管密度将达到1.4纳米制程的同等水平。

海外：AI Agent普及下CPU配比提升，先进制程和先进封装需求旺盛

AI GPU/ASIC迭代稳步推进，Agentic需求驱动CPU:GPU配比提升

Rubin进入量产，迭代Feynman架构公布，AI需求如火如荼。在2026年3月召开的GTC 2026大会上, Nvidia首度公布Vera Rubin/Rubin Ultra平台的详细信息，同时对下一代Feynman架构进行了技术展望。其中正式公布的Vera Rubin平台主要由7款芯片组成，分别是Rubin GPU、Vera CPU、Groq LPU，以及配套的以太网交换机/Switch/DPU/NIC。

同时，黄仁勋进一步上调展望英伟达2027年的全年收入至超过1万亿美元，对AI服务器需求展现了高度乐观的预期。在此之后的2028年，下一代架构Feynman GPU有望搭配Rosa CPU正式登场，自身结构采用芯粒堆叠（Die Stacking），连接方式是在内部铜互连、机架间光纤互连的基础上引入CPO到NVLink 8互连技术中。

Rubin世代在芯片侧最大的亮点是引入LPU解决推理短板，将自身优势从芯片性能领先上升至架构领先。GPU在预填充阶段的计算处理能力超群，但在解码阶段内存与运算单元之间的带宽限制成为了主要的推理瓶颈，单一GPU架构下，解码阶段每次计算时运算单元都需要从HBM中获取数据，在执行高交互性和短响应时间要求的任务时有过高的端对端延迟。

通过引入LPU，能够实现在集成架构下实现对高吞吐训练与低延迟推理任务的精准分配，由Vera Rubin GPU（TSMC N3工艺）负责预填充和高吞吐训练；而Groq 3 LPU（SF4工艺）专门负责解码和低延迟推理，最终实现算力和响应速度的兼顾。

Vera Rubin机架设计迭代，引入新的LPU机架。从机架设计来看，本次GTC 2026主要公布了Vera Rubin NVL72 机架、Vera CPU机架、Groq 3 LPX机架三种主要的机架和BF-4 STX存储机架、Spectrum-6以太网交换机架两种配套机架。其中Vera Rubin NVL72搭载36个Vera CPU和72个Rubin GPU，采用NV Link 6 互连。Groq3 LPX机架搭载256个LPU和128GB的片上SRAM，采用全液冷设计，预计2026Q3开始出货。根据英伟达预计，未来在超高速令牌生成场景下，数据中心约25%的算力将分配给LPX机架。

除英伟达外，谷歌、亚马逊、Meta等厂商的AI ASIC亦在加速发展迭代中。自研ASIC芯片不仅能够降低功耗，还能帮助CSP掌握AI基础设施的成本与供应链，避免过度依赖英伟达，因此自研ASIC正成为CSP的竞争关键。目前谷歌、亚马逊、微软均已完成新一代AI ASIC的迭代或新发，Meta、高通、苹果、特斯拉等企业的AI ASIC芯片开发也在紧锣密鼓的进行中。

具体来看，AWS的Trainium 3芯片在2025年12月正式发布，下一代Trainium 4也进入研发设计阶段；微软也于2026年1月发布了在浮点运算性能上处于领先地位的MAIA 200（FP4算力10,145万亿次运算/秒、FP8算力达5,072万亿次运算/秒）；谷歌于2026年4月发布了TPU v8，分为面向训练的TPU 8t和面向推理的TPU 8i。而正处在研发阶段的包括Meta和博通联合研发的MTIA v2i（重视低延迟和高能效）、高通基于Hexagon NPU 构建的AI200和AI250等。

GTC 2026大会还展望了行业的另一重大发展趋势，即大模型对CPU的需求迎来陡增点，英伟达对Vera CPU的业务独立化即是直接体现。Vera CPU最初是搭配Rubin架构设计的CPU，本次会上发布的成品专为智能体AI（Agentic AI）设计，搭载88个定制ARM核心，其1.8 TB/s 的 NVLink-C2C 一致性内存互联带宽、1.2 TB/s 的 SO-DIMM LPDDR5X 内存带宽和1.5T内存容量均远超前代Grace CPU，通过与GPU的高速互连，整体效率是传统方案的2倍。英伟达明确表示，Vera CPU将独立成为一个数十亿美元量级的业务。这一趋势的实质是随着AI Agent的渗透率提升，CPU在服务器架构中的重要性也在显著提升。

AI Agent的指令分发和工作模式显著提高CPU运行负载。Agent工作流对CPU的需求带来两方面变化，一方面运行范式从传统的单次响应转变为循环推理，即Agent在执行任务时需要进行数十次甚至更多的大模型调用，用以执行观察-推理-决策-行动-反馈的循环计算工作；另一方面，Agent需要频繁交互外部数据库，带来大量的I/O访问量需求。随变化而来的是CPU需要耗费大量的运力进行工具调度、并发控制和中间结果评估，同时I/O负载也进一步提升，显著提高了CPU的总运行负载。

CPU配比有望持续提升。传统AI服务器1:4乃至1:8的CPU/GPU配比是基于CPU仅执行资源调度和管理、GPU负责高强度计算的工作模式制定的；AI Agent大幅增加了CPU负载下，CPU的调度耗时大幅提升，成为制约运算推理的新瓶颈，因此势必需要在硬件（数量）或软件（效能）端加以优化。但和GPU不同的是，CPU作为成熟系统组件，负载本质上是任务数量到工作时长的线性映射，很难像GPU一样通过降低精度、压缩技术和优化算法的方式来降低负载，因此提高CPU数量配比是最有效也最现实的解决方案。伴随Agent演进，CPU/GPU配比有望向1:2乃至1:1的方向发展，显著拉动CPU的需求。

晶圆制造和封测产能紧缺加剧CPU供给缺口，交期延长、废片降级使用，CPU涨价潮已现。目前受AI GPU/ASIC挤占先进制程和先进封装产能的影响，CPU已经由供需宽平衡转向供给不足。根据Intel在26Q1法说会上的说明，其2026年产能已经基本售罄，客户已经开始预订本该进行报废的晶圆边缘的低良率die（Low-yield edge bins）作为低端CPU来降级使用。从价格端印证，自2026年以来，Intel/AMD的CPU报价均已多次上调，平均涨幅达到10%-15%；援引TrendForce报道，Intel计划于26H2启动至少一轮幅度在 8%- 10%的调价，AMD也将在26Q2/26Q3各进行一轮调价，累计幅度达到 16%- 17%。从交期来看，CPU交期已经从原先的1-2周延长至8-12周。

先进制程晶圆制造供不应求，先进封装加速新技术落地

GTC 2026大会上，英伟达对AI服务器需求的乐观展望会沿产业链为上游制造环节带来大量需求。CPU/GPU/ASIC持续高景气下，全球先进制程晶圆代工和先进封装产能持续紧缺。在摩尔定律趋于失效的大前提下，代工端围绕2nm这个长节点，TSMC N2P工艺、Samsung SF2工艺、Intel A18工艺都扩张产能的同时良率快速爬坡；封测端对通过先进封装“弯道超车”提高性能的需求也在与日俱增，先进封装供给也开始趋于紧张，不论是CoWoS产能的快速扩张、CoPoS的中试线加速建设抑或是英特尔EMIB、三星X-Cube开始在非同一体系下客户进行验证导入都是这一趋势的反映。

1. 晶圆制造：先进制程供给紧张，端侧和算力厂商都开始多供应商布局

AI对最先进制程的需求与日俱增。伴随AI芯片的性能要求与日俱增，芯片尺寸已经对散热和片上供电存在较大约束，AI xPU/ASIC芯片的晶体管密度需要持续提升，因此需要从采用次先进制程演进至最先进制程（3nm→2nm→18A/A16），服务器需求和消费电子SoC共同成为先进制程最大的驱动力。根据TrendForce数据，目前已经有超过15家厂商正在台积电的N2节点平台上开展芯片设计，AI引领先进制程发展的新动力。

台积电的 N3 产能正日趋紧张，产能供给成为大模型公司发展的瓶颈。人工智能相关需求依然十分强劲。从生成式人工智能和查询模式向智能体人工智能和命令与行动模式的转变，正推动着Token消耗量的进一步增长。这进一步刺激了对计算能力的需求，从而支撑了对尖端芯片的强劲需求。目前，所有主流加速器产品路线图都已趋向于 N3 工艺节点，并计划在今年和明年推出。英伟达（Nvidia）、博通（Broadcom）、Annapurna、联发科（MediaTek）和 AMD 都在竞相争取从台积电获得更多的 N3 晶圆配额，以便为客户提供更强大的计算能力。像Anthropic这样的AI计算买家被迫进入英伟达的生态系统，因为像TPU和Trainium这样的替代产能同样受到上游的瓶颈限制。

台积电启动全球N3产能扩张计划，建造3座新的N3晶圆厂来满足市场需求。以往，台积电不会在一个制程节点达到目标产能后就增加产能。根据台积电的评估，为了满足人工智能应用领域的强劲需求，正在加大资本支出，以提升N3产能。公司将努力建造3座新的N3晶圆厂来满足市场需求。在台湾，台南科学园的GIGAFAB集群中新增一座3纳米晶圆厂，预计将于 2027年上半年开始量产。在亚利桑那州，台积电的第二座晶圆厂也将采用3纳米技术。该晶圆厂已竣工，将于2027年下半年开始量产。在日本，公司计划在第二座晶圆厂中采用3纳米技术，预计将于2028年开始量产。除了新建的晶圆厂，我们还在台湾持续改造5纳米制程设备，以支持3纳米制程产能。

在先进制程紧缺背景下，围绕2nm长节点，算力客户开始在台积电之外引入英特尔、三星等其它代工厂，实现供应链分散和抢占产能一举两得。

TSMC：N2是台积电首个采用GAAFET架构的节点，且2025Q4的生产良率已稳定在80%以上，为大规模、经济性的量产奠定了坚实基础。与上一代N3E工艺相比，N2在相同功耗下性能提升10-15%，或在相同性能下功耗降低25-30%。在此基础上台积电已规划了后续的N2P/N2E和A16等节点，下代迭代于2026年H2量产，以持续提升性能并引入背面供电等技术。

从需求端看，台积电N2的客户名单涵盖了几乎所有顶级的算力芯片厂商，且2026年产能已被抢占完毕。根据TrendForce报道，N2的首批客户将包括苹果、英伟达、AMD、高通，以及微软、亚马逊、谷歌等CSP的AI加速器芯片。由于AI芯片的die面积持续提升，随着AI芯片占先进制程比例提升，产能紧张持续加剧；根据媒体报道，N2及迭代产能排期可能已排产至2028年。台积电持续上调CapEX以应对需求，根据26Q1法说会，已将2026年资本支出大幅上调至520-560亿美元区间中的“高点”，其中70%-80%投向先进制程（2nm爬坡和3nm的全球扩产）

Intel：18A工艺基于RibbonFET（基于GAA技术），较Intel 3工艺平台的每瓦性能提高15%，芯片密度提高30%；同时18A集成了背部供电（PowerVia）。在2025年之前，18A工艺平台主要用于内部产品生产，包括构建Panther Lake CPU；借此机会Intel的 18A制程的良率持续快速爬升。下一代14A制程技术将于2027年进入风险试产阶段。

从需求侧看，受益于美国本土制造的政策支持，Intel从25H2开始积极推广其代工服务（IFS），且已经开始进行客户小批量流片测试。根据媒体报道，AI芯片端英伟达和博通正在用英特尔的18A制程芯片进行制造测试，消费电子端苹果可能考虑在2027年将部分入门级Mac芯片交由英特尔18A代工，以分散供应链风险。

Samsung：三星是最早引入GAA技术（三星称MBCFET）的晶圆制造厂商，其SF2平台搭载的第二代GAA平台的能效表现较第一代GAA的SF3显著更优，根据媒体报道约实现了5%的性能提升和8%的功耗降低。三星SF2工艺率先由三星自家手机SoC Exynos2600采用，目前已经进入稳定量产期，良率持续爬坡中（50% ）。迭代工艺SF2P目标在2026年开始放量，规划性能较SF2再提升12%、功耗降低25%。

从需求侧看，三星主要采用相对激进的价格策略来抢占市场份额，SF2晶圆单片报价约在20000美金/片，较台积电显著折价超过30%。目前三星已经收获特斯拉的框架协议订单，特斯拉法说会表示AI 5和AI 6芯片均将由台积电和三星共同代工。媒体报道特斯拉AI6代工合同约为22万亿韩元（约165亿美元）。除特斯拉外，由于台积电产能紧张，AMD正与三星讨论采用SF2P工艺生产其下一代服务器CPU，谷歌的TPU团队也考虑在三星位于美国德克萨斯州泰勒市的晶圆厂进行代工流片。

Rapidus：援引外媒报道，Rapidus 2025年已在北海道千岁的Fab IIM-1成功流片2nm GAA测试片，目标是2027年进入量产；Rapidus 2HP的逻辑密度达到237.31M Tr/mm²，与台积电N2的236.17 MTr/mm²基本持平。目前Rapidus正与IBM、Tenstorrent等公司接触。

2.先进封装：CoWoS产能快速扩张，CoPoS等前沿技术加速落地

纵观全球，先进封装行业的主要参与者包括从晶圆制造向后道延伸而来的企业和传统封测厂迭代而来的企业两类，其中前者占据技术和产能的主导地位，包括台积电、三星、英特尔等，后者主要包括安靠、日月光等。正如前文所述，先进封装较传统封装新增了TSV、RDL乃至TGV、热键合等与前道执行相近的工艺，因而呈现前道占据主导地位的趋势。

我们按照封装工艺拆分来看供需情况：

（1）CoWoS：算力芯片封装的基础方案，产能严重紧缺

其中CoWoS为HPC和AI计算领域广泛使用的先进封装技术。CoWoS是台积电推出的 2.5D封装技术，本质上是将多个芯片（如逻辑芯片 HBM）放置在一块硅中介层（interposer）上，再封装在基板上，2012年首先应用于赛灵思的FPGA上。后续Nvidia、AMD、Google等厂商的AI芯片均采用了CoWoS方案进行封装，例如B300、TPU v7等。如今CoWoS已成为HPC和AI计算领域的主流封装技术，绝大多数使用HBM的高性能芯片，包括大部分的AI训练芯片都应用CoWoS工艺进行了封装。

芯片设计迭代驱动CoWoS技术自身向着更灵活和更具经济性的方向发展，从而在单层硅的CoWoS-S方案基础上延伸出CoWoS-L和CoWoS-R两条技术路径——CoWoS-L使用局部硅互连芯片和全局重分布层，平衡灵活性与成本，是当前主流的封装方案；CoWoS-R将硅中介层替换为有机中介层，使用RDL（重布线层）来连接小芯片之间，支持弹性封装设计，适合对成本较为敏感的AI ASIC、网通设备或边缘AI。

从终端需求来看，CoWoS-L仍然将在中短期内占据主导地位。Nvidia的Blackwell架构放弃了单片Die设计，B200本质上是通过10 TB/s NV-HBI互连的两个Reticle极限尺寸的GPU Die，良率高度依赖台积电的CoWoS-L封装技术。根据TrendForce报道，Nvidia计划于2027年推出的下代GPU Rubin Ultra将继续采用TSMC N3P工艺，采用芯粒设计并使用CoWoS-L进行封装；基于制造效率和大规模生产可行性的考虑，当前Rubin Ultra的设计仍然趋向于双芯片共封装架构，不采用四芯片共封装设计。主要原因是四芯片的封装将把尺寸扩大到大约7.5-8倍的光罩极限，良率和封装成本存在不确定性。

截至2026Q1，台积电累计占据全球80%以上的CoWoS产能；目前产能严重紧缺，新建/改厂/外包多举并下，到26年底将产能扩张至12-13万片/月。截至2025年末，台积电位于南科园区的 AP8 厂及嘉义的 AP7 厂已经开始搬入设备；除去新建产能外，台积电已计划将用于成熟制程晶圆制造的6英寸和8英寸厂改建为封测厂房，快速改厂解决土建等时间。援引TrendForce报道数据，截至2026年末，台积电有望将CoWoS月产能由25年末的7.5-8万片拉高至12-13万片。进一步展望，预计台积电到2027和2028年末将拥有至少16.0/18.0万片/月的CoWoS产能。同时，随着Amkor、日月光和其他OSAT厂商扩产，预计非台积电的CoWoS产能将缓慢提升至2.5/3.5万片/月。

先进封装领域的CapEX快速提升。根据台积电2026年1月的法说会，2026-2027年台积电用于先进封装业务的资本开支有望以24%的CAGR快速增长，其中2026年的CapEX中，投入先进封装与光罩生产的金额占比预计有望达到10%-15%；同时表示先进封装的产线建设周期相对较长，且扩产节奏受设备交期制约，产能爬坡需要12至18个月。

从整体的产能预订情况看，Nvidia、博通、AMD瓜分台积电产能。根据下游预估，Nvidia在中期内持续预订台积电过半产能，2026年全年预订量达80万至85万片，占全球CoWoS总需求约63%，2027年比重保持不变。摩根士丹利预计，英伟达2026年CoWoS需求量高达59.5万片。紧随其后的是博通，2026年取得逾24万片产能，主要供应Meta与谷歌TPU等客户。AMD位居第三，其MI355和MI400芯片预计将消耗约80万片产能。联发科正式进入ASIC赛局，预订近2万片产能用于谷歌TPU项目。此外，AWS、xAI等ASIC芯片产能也将陆续开出。CoWoS客户群已从GPU扩展至整个AI计算生态。

（2）CoPoS：利用大尺寸Panel解决单片产出痛点，中试有序推进

CoPoS（Chip on Panel on Substrate）：结合CoWoS与FOPLP（Fan-Out Panel Level Packaging）的技术，在CoWoS基础上，用方形的面板RDL层（310mm*310mm—→510mm*510mm或600mm*600mm）取代原本的圆形硅中介层，用互联密度作为代价置换了更大的面板面积。与CoWoS相比，CoPoS技术落地的主要优势是Panel和Die同为方形下单位产出大幅提升，根据估算，在切换方形Panel后，单片面板产量最高能达到传统晶圆的5-6倍，能够大幅缓解CoWoS在量产时遇到的产能等问题，同时显著降低了单颗中介层成本。从下游应用来看，CoPoS技术将主要接替CoWoS技术，用于全球高端算力芯片的封装上。

根据SEMI的报道，TSMC已在2026年2月开始向研发团队交付CoPoS设备，整条中试线预计2026年6月完工，预计2028年至2029年在台积电嘉义AP7厂进入大规模量产。随着芯片尺寸越来越大，CoPoS/PLP则可能成为2028年及以后的产能扩张重点。从对上游产业链的带动效应来看，CoPoS对面板级直写光刻系统、切割设备（激光隐切）、键合设备、薄膜沉积设备以及量检测设备均能形成增量需求，预计将有效拉动相关产业扩产。

（3）EMIB：硅桥替代Interposer，提高灵活性、降低生产成本

EMIB（Embedded Multi-die Interconnect Bridge，嵌入式多芯片互连桥）是英特尔推出的2.5D先进封装技术，其核心创新在于使用小型硅桥（Bridge）嵌入有机基板，实现芯片间高密度互连，而无需使用大面积硅中介层。自2017年推出至今，EMIB已进入大规模量产阶段，广泛应用于服务器、网络与HPC领域。

历经三代迭代，目前EMIB 3.0已经进入量产阶段，用于Clearwater Forest和Panther Lake等产品的封装，且已量产应用至Intel自家的服务器CPU平台Sapphire Rapids和Granite Rapids等。根据更新路线图，Intel将于2026年年内发布EMIB 4.0，用于代号为Folsom Peak的GPU/AI加速器。技术规格方面，EMIB 4.0的Bump pitch缩小至3μm，较上一代显著提升互连密度，从而降低功耗并提高带宽。此外，为满足高功耗芯片对供电的严苛要求，英特尔进一步提出了EMIB-M、EMIB-T、EMIB-3.5D等方案：

EMIB-M：在硅桥内整合MIM电容，提高电源完整性；

EMIB-T：引入TSV实现低噪声垂直供电，便于终端客户从CoWoS等类似封装技术迁移到EMIB技术；

EMIB 3.5D：将EMIB与Foveros 2.5D/Foveros Direct 3D结合，在垂直堆叠Chiplet同时用硅桥完成水平互连，形成“3D 2.5D”的混合架构。（Foveros是Intel的堆栈解决方案，之前主要用于端侧的多芯粒封装。）

算力催动存储需求高增长，涨价周期被显著拉长

随着AI训练、推理需求的持续膨胀，存储已成为算力增长的主要瓶颈，HBM/DDR、SSD、HDD陆续成为服务器的最紧缺物料。除了HBM、DDR外，产业内还在开发AI SSD、CMX、HBF、SRAM等存储器（或方案），以满足AI训练和推理过程中数据吞吐的高要求。

1、内存仍然是AI算力核心卡口，HBM需求持续高景气

随着英伟达GPU的发布周期固定在每年一次，算力提升对内存容量和带宽提出了接近每年翻倍的高要求；根据TrendForce数据，GPU的计算能力在过去20年间增长了60000倍，但同期DRAM内存带宽仅提高了100倍——“内存墙”仍将长期存在，通过HBM路线实现低功耗高带宽趋势明确。以位元计算，目前HBM占整个DRAM市场比重仍在个位数，渗透率存在较大提升空间；TrendForce预计2026年HBM出货量将超过300亿Gb。

DRAM产能供给紧缺趋势不变，SK海力士等龙头厂商加速扩产。从供给端看，HBM供应仍然紧缺，相应持续挤占DRAM产能，25Q4-26Q1 DRAM厂商现货报价加速攀升；部分美国与国内厂商已经开始和晶圆厂签订2-3年的长期合同进行锁价。根据Trendforce援引The Bell报道，SK海力士计划通过清州DRAM工厂M15X和利川M16的扩产，在26H2将其DRAM晶圆产量提高到60万片/月，和三星的DRAM晶圆产能处于同一水平。具体来看，M15X在投产初期将保持在10000片/月的DRAM晶圆，到26Q4将爬坡至5万片/月。

HBM迭代周期随之显著缩短，HBM4开始大规模商用。2025年下半年，英伟达量产的GB300搭载的是12层24GB的HBM3e，2026年英伟达将发布的Rubin系列和AMD将发布的MI400系列均将搭载HBM4/4e。其中英伟达计划在26Q1完成HBM4的最终资格测试。从更新周期来看，JEDEC于2025年4月正式发布了JESD 270-4高带宽存储器(HBM4)标准，（接口宽度从HBM3/HBM3e的1024位翻倍至2048位；堆栈通道数从16个增加到32个，支持24Gb或32Gb芯片的4到16层堆栈配置），较HBM3规范发布晚约三年，计划落地时间较HBM3落地时点亦在三年左右。根据EETimes的预测，HBM的迭代周期从前期的每四年一代提高并稳定到每两年到两年半一代。

全球龙头存储厂商竞逐HBM4，SK海力士仍居领先地位，三星美光加速追赶。根据Trendforce预测，2025年SK海力士将以59%的HBM出货量保持行业领先地位，而三星和美光将各占20%左右份额。从时点上看，SK海力士于2025年3月交付了全球首批12层HBM4样品、6月小批量出货，计划10月快速进入量产；美光也在25Q2向主要客户交付了HBM4样品；三星的HBM4样品25Q2交付给英伟达，当前进入最终的预生产（PP）阶段。预计2026年，领先的GPGPU如Rubin将大范围采用HBM4，Yole预计2026年HBM4渗透率将达到51%。

从技术上看，SK海力士的HBM4拥有2048个I/O终端，带宽翻倍，引脚速度在6.4Gbps以上。美光目前交付HBM4样品超过2.8 TBps带宽和超过11 Gbps引脚速度，计划在2027年同时推出标准版和定制版的HBM4e。三星同样计划于2027年推出HBM4e产品，目标引脚速度超过13Gbps，目标最大吞吐量3.25TB/s，较当前HBM3e快2倍以上。

远期看，英伟达等厂商计划自研Base Die，将存算架构进一步整合。除传统晶圆厂外，为了进一步提高传输速率，AI算力芯片厂商也开始协同进行HBM设计。2025年8月，英伟达宣布计划自研HBM内存Base Die，采用3nm工艺，预计于2027年下半年开始小规模试产。英伟达此次自研HBM内存Base Die的计划，旨在优化AI芯片的内存带宽与能效匹配度；未来英伟达的HBM内存有望采用内存原厂DRAM Die与英伟达Base Die的组合模式，标志着其在高性能计算存储架构领域的垂直整合进一步深化。

2、为解决HBM高成本低容量的问题，HBF应运而生

HBM带宽大、延迟低，但容量低、成本高。随着AI大模型参数规模向万亿级迈进，推理部署环节的市场规模和应用场景变得极为广阔，但传统的存储体系正面临严峻的“内存墙”困境。HBM虽能提供极致的带宽和纳秒级访问延迟，但其容量有限（单堆栈通常为16-64GB），且成本高昂，难以线性扩展。与此同时，传统SSD虽然容量大、成本低，但带宽严重不足（如NVMe PCIe 4.0 SSD仅约7GB/s），无法满足大模型推理时对海量权重数据和键值缓存（KV Cache）的高速读取需求。在AI推理场景中，数据访问模式呈现出“读多写少”的特点，且需要单次加载的模型容量极高——例如运行405B参数的Llama 3.1模型时，仅权重存储就需要数百GB空间。HBM很快会被KV缓存占满，而依赖远端SSD或向量重计算又会引入显著延迟。

正是在这一供需失衡的背景下，HBF（High Band Flash，高带宽闪存）应运而生。HBF旨在填补HBM与SSD之间的巨大空白，以接近HBM的带宽和成本水平，提供其8至16倍的超大容量。SK海力士的仿真测试表明，在H3混合架构中引入HBF后，原本需要32颗GPU才能完成的工作负载，仅需2颗GPU即可实现，能效比提升最高达2.69倍。HBF的出现，不仅有望破解推理阶段的存储瓶颈，更可能从根本上改变AI算力集群的经济模型，成为衔接HBM与SSD的新一代核心存储方案。

HBF通过封装创新、3D堆叠和分布式控制，在容量、带宽和成本三个维度上实现了独特的再平衡，成为AI推理场景的理想存储载体。HBF是一种基于3D NAND闪存的高带宽堆叠存储技术，其设计理念借鉴了HBM的垂直堆叠架构，但将存储介质从易失性的DRAM替换为非易失性的NAND闪存。在物理结构上，HBF通过硅通孔（TSV）或CMOS直接键合阵列（CBA）工艺，将多层高性能NAND闪存芯片垂直堆叠起来，并通过逻辑芯片与中介层连接至GPU或处理器，形成密集互连的存储结构。单堆叠可达16层die，首代产品即可实现512GB的容量和1.6TB/s的读取带宽——这一带宽水平已接近HBM3e的性能，而容量则是同等物理空间下HBM的8至16倍。与传统SSD依赖单控制器串行调度不同，HBF采用分布式控制结构，每一组NAND die可独立并行访问，结合优化的控制器算法，将NAND固有延迟从毫秒级压缩至约5微秒级，匹配AI推理场景对高带宽读的需求。由于基于NAND闪存，HBF具备非易失特性，无需像HBM那样持续刷新供电，静态功耗仅为HBM的64%至80%。当然，HBF也存在先天短板：NAND的写入耐久性有限（约10万次擦写），访问延迟（微秒级）远高于DRAM的纳秒级，因此业界主流设计思路是将HBF用于只读数据或低频写入的键值缓存，而将频繁读写的动态数据留在HBM中。

目前，全球存储巨头已围绕HBF形成技术竞赛格局，标准化与量产进程正在加速推进：

闪迪是HBF概念的率先提出者，2025年2月在投资者日上正式介绍HBF技术，依托自家BiCS 3D NAND和CBA工艺构建核心架构，采用16层核心芯片堆叠。闪迪计划于2026年下半年交付首批HBF模块样品，目标2027年初推出首批集成HBF的AI推理服务器。

SK海力士是当前HBF研发最为积极的厂商之一，2025年8月与闪迪签署谅解备忘录，共同推进HBF技术标准化；同年10月在OCP全球峰会上正式发布包含HBF技术的“AIN B”系列存储器，并举办“HBF之夜”活动推动生态合作。SK海力士还提出了创新的H3混合架构（Hybrid HBM HBF），将HBM与HBF并列部署于GPU两侧，通过双存储层级协同工作，并已完成早期测试验证。公司目标在2026年推出第一代HBF样品，2027年实现量产。

三星电子虽态度相对审慎，但已启动HBF产品的早期概念设计工作，并依托其在逻辑代工领域的4nm至2nm工艺优势，探索自研控制逻辑与下一代NAND方案的能效优化。三星计划在2027年底至2028年初将HBF集成到英伟达、AMD及谷歌的实际产品中。

此外，主控芯片方面，HBF需要配套极高吞吐能力的控制器来驾驭其超高带宽，闪迪、SK海力士等厂商均在研发专用的分布式控制架构，确保NAND阵列的并行访问效率。行业标准方面，三大厂商已就HBF标准化展开合作，闪迪与SK海力士、三星正共同推动HBF成为行业通用标准，目标在2027年完成产业级标准落地。

3、AI服务器挤兑传统应用需求，传统存储缺货涨价，涨价周期显著拉长

复盘存储器历史，存储器周期大致4-5年，上行、下行周期大致2年上下。上轮周期起始于20Q1，21Q3存储器价格见顶，此后价格持续下滑，至2023Q2持续7个季度。本轮周期，存储器23Q3开始涨价，期间24Q2-24Q4因库存问题，价格有所回落。24Q4-25Q3，除了HBM，DRAM和NAND价格涨跌更多来自库存周期，直到25Q4，北美云厂商对于2026年的需求展望大幅提升，内存条、eSSD缺货涨价，存储随着产能被服务器占用，传统应用（手机、电脑等）开始缺存储器，涨价蔓延至非AI领域的存储器。

需求侧，对于DRAM而言，单GPU配置的HBM、DDR规格和容量提升，2023年以来需求跟随GPU持续强劲增长；对于NAND而言，推理侧的爆发和QLC NAND成本的下降加强了对高速率、低延迟SSD对HDD的优势，SSD需求跟随token爆发。

催动本轮存储上行的核心因素是AI，特别是推理需求的爆发。大模型训练阶段的存储需求主要来自预训练数据集和checkpoint（模型状态快照），原始数据集规模约10-30TB，而checkpoint存储量与模型参数量线性相关（如6000亿参数模型每个checkpoint约7TB，100个总计约700TB），这些数据主要存储在SSD和HDD中，因HBM容量不足而需从HBM经DRAM逐步offload至SSD。推理阶段的存储需求则主要来自KV Cache、RAG等，其规模比原始数据大1000倍左右（取决于向量维度），随着思维链发展和用户上下文增长，单次提问token数激增至上万，KV Cache需长期存储在SSD中，当用户30分钟未交互时自动从HBM存入SSD，后续提问时再加载回HBM。推理阶段的KV Cache存储策略采用精确匹配（用户历史对话）和向量空间模糊匹配（多用户共享问题），通过共享相同问题的KV Cache和将长期未使用数据转存至HDD来优化存储，而训练阶段的存储需求则随模型参数量增加而等比例上升。

其次是HDD（机械硬盘）供应短缺，eSSD需求爆发。SSD相比HDD的核心优势在于显著的读写速度和低延迟特性，SSD的读写速度可达十几GB级别，而HDD仅约几百兆，这使其在AI推理、高频数据访问等场景中具有明显优势。HDD被SSD替代的主要原因是AI应用爆发式增长，尤其是数据中心对高性能存储的刚性需求，同时HDD产能面临严重瓶颈，HDD厂商因行业处于"夕阳产业"状态普遍不愿扩产，而是致力于优化成本和增加单盘容量，导致HDD供应紧张。在AI应用推动下，大量新增存储需求从HDD转向SSD，特别是数据中心企业级存储中，HDD与SSD的容量比正从1：5-1：6向1：1转变，预计2026年将出现QLC SSD替代HDD的爆发式增长。

供给侧，存储IDM资本开支计划谨慎，且产能释放速度较慢。2023-2025年，大容量、小容量存储厂商资本开支维持低增长或者负增长状态，其中SK海力士资本开支增长较大，主要用于扩产前两年开始持续紧缺的HBM、DRAM。存储厂商的扩产意愿与供需缺口和盈利水平相关，目前各家DRAM和NAND的毛利率水平接近80%，存储厂商扩产动作开始变得频繁，但是存储器的扩产周期从购买设备到产能释放需要2年以上，因此新增的资本开支难以体现在2026年的供给上，预计产能释放的高峰期在2027年下半年及以后。

我们预计2026-2027年HBM、DRAM、NAND甚至小容量存储均会出现不同程度的供给紧缺，本轮存储涨价周期将不同于以往，涨价时间和涨价幅度将远超预期。供需缺口将催化价格大幅度上涨，根据Trendforce预测， DRAM 26Q2 的合约价在26Q1上涨93-96%的基础上继续上涨58-63%，NAND 26Q2的合约价在26Q1上涨85-90%的基础上继续上涨70-75%。

2026年，DRAM市场规模将增长至4570亿美元，同比 121%，预计NAND市场规模将增长至1420亿美元，同比 103%， NAND、DRAM的单GB价格均有大幅度提升。从市场结构看，服务器在存储市场的占比有望进一步提升，成为存储器的第一大应用。

重点关注PCB上游升级与通胀及mSAP工艺的投资机会

1、PCB材料全面升级，高速覆铜板材料拉动低介电玻璃布/石英布、低粗糙度铜箔与高性能树脂需求

AI服务器及高速交换机推动高阶CCL市场快速成长，M9方案即将落地。从需求端看，根据台光电法说会数据，2024-2027年全球CCL市场复合增速为18%，其中高端CCL市场增速高达40%；而在高端CCL市场中，主要增量来自AI服务器领域，高速交换机领域。供给格局侧，根据台光电法说会报告，2023年全球高速CCL市场中，台系厂占主导，市场份额依次为台光28%、联茂19%、台燿16%、松下11%、南亚塑胶5%、生益科技4%、建滔4%、斗山4%。2024年台光电份额继续提升至40%，生益科技提升至5.7%。随着对电性能要求越来越高，覆铜板规格从传统M2逐渐升级至M8，M8现阶段已经在NV体系服务器、海外AI服务器以及各类800G高速交换机上广泛应用，随着信号传输速率的进一步升级，下一代服务器的方案中会逐渐使用M9材料方案，从电学原理角度，高频高速覆铜板对电性能要求更严苛，其自身性能的提升，需要前端的树脂材料、玻纤、铜箔共同迭代。

树脂体系逐渐向碳氢、PTFE体系迭代。使用低介电常数和低损耗的基体树脂材料，有利于减小高频化和高速化的信号传输波动及损耗，是提升覆铜板性能的主要方法。PPO因其本身内部结构上的优势，具有很多优异的性能，如较高的Tg、优异的机械性能、抗冲击性、低温性和电气绝缘性等，在PCB中得到了广泛的应用，而目前M6 覆铜板主要树脂为PPO。在M6、M7、M7N级CCL领域，PPO、PI等树脂、改性BMI的Df值满足要求；在M8级CCL领域，PPO等树脂的Df值满足要求；在M9级及以上CCL领域，Df值要求在0.001以内，树脂材料或向碳氢、PTFE体系迭代。

电子玻纤布是覆铜板的基础材料。电子级玻璃纤维布由电子级玻璃纤维纱织造而成，可提供双向（或多向）增强效果，属于重要的基础性材料。电子布具有高强度、高耐热性、耐化性佳、耐燃性佳、电气特性佳及尺寸安定性佳等优点，起绝缘、增强、抗胀缩、支撑等作用，使印刷电路板具备优异的电气特性及机械强度等性能。

AI等新应用驱动电子布性能升级，低介电特种玻纤布需求爆发。（1）介电性能——高频高速传输：玻纤是高频高速PCB覆铜板的关键决定性原材料之一。介质损耗（Dielectric Loss）主要由以下材料参数决定：介电常数（Dk）、介电损耗因子（Df）、表面平整度，电子布的介电性能和结构直接影响损耗带宽与稳定性。（2）从国外主要低Dk 玻纤布生产厂商的LD布的Df 相对下降率看：Low-Dk布与常规E布相比，Low-Dk布比E布的Dk 与Df 分别下降了28.8%（Dk）、47.0%（Df）。

普通电子布产能受AI电子布挤压，涨价强势，关注普通电子布涨价机会。普通电子布2022年下半年以来价格底部承压，主要源于下游需求下滑及中国巨石大幅投产带来的供给释放，但2024-2025年需求上行且新增产能有限，加上布往更薄型号转，且部分织布机转产AI电子布（高阶电子布的高景气与高盈利驱动，许多厂商将原本用于生产普通布的织机转产特种布），带来普通电子布价格上行，以7628电子布为例，不含税从2025年初的3.4元/米已涨至年末的3.9元/米，2026年4月加速提价至5.5元/米。普通电子布2025-2026年景气度有望持续，价格筑底后上涨，涨价弹性和持续性有望超过以往轮次。

目前普通电子布大幅紧缺，布厂的库存，CCL厂的电子布备货库存均下降至历史最低水平，2025年缺口幅度约10%，2026Q1缺口幅度扩大，考虑中国巨石和建滔的投产节奏，尽管消费电子二季度预期仍在下滑，但是我们认为2026年底之前普通电子布都将维持大幅紧缺状态，且下游难以补上库存，因此建议重点关注普通电子布涨价带来的投资机会。

铜箔：高速场景下低Rz值的超低轮廓铜箔需求激增。低轮廓铜箔包括反转铜箔(RTF)及铜箔粗化面上进行了低轮廓处理的各种不同程度的低轮廓铜箔（VLP、HVLP系列）。为了追求高频高速电路具有更好信号完整性（Signal Integrity，缩写SI），覆铜板要在高频下实现更低的信号传输损耗性能。这需要覆铜板、多层PCB在制造中所采用的导体材料——铜箔，具有低轮廓度的特性，即覆铜板制造中采用铜箔是低Rz等品种。铜箔制造厂商通过改变、控制铜箔表面处理工艺，来控制铜箔的一侧面或两侧面的表面粗糙度。目前，常规RTF和高级别的RTF，主要应用于中损耗和低损耗类覆铜板中，HVLP（业界中也称为HVLP1）和HVLP2铜箔用于极低损耗和超低损耗的覆铜板，目前M8\M9覆铜板材料的快速渗透，已经用到了HVLP3/4/5级别的铜箔。大陆企业在低粗糙度铜箔领域均有不同程度的进展。

除新客户导入外，关注需求恢复推动铜箔涨价的投资机会。2023年下半年至2025年上半年，中国大陆的锂电铜箔行业产能集中释放、下游需求阶段性偏弱，铜箔企业陷入“保订单、压价格”的困境，加工费持续处于低位，部分企业出现亏损情况。2025年第四季度以来，供需关系逐步反转，头部企业凭借技术壁垒与产能优势，率先掌握议价主动权，推动加工费启动修复。从需求端看，AI和储能是铜箔行业增长核心引擎。从锂电侧看，2026年3月18日，德福科技在深交所互动易平台提到公司当前处于满产的高负荷运行状态。下游市场需求旺盛，景气度高，公司前期已对全球某头部覆铜板厂商所供应的包含THE（高温延伸型铜箔）、RTF（低轮廓铜箔）等在内的产品加工费启动提价，已对部分电池客户所供应的锂电铜箔各系列产品加工费启动提价。德福科技是2026年行业内领先确认对锂电客户直接提价的企业，标志着持续两年的锂电铜箔低价周期被打破，价格修复信号从隐性转向显性。本轮铜箔加工费上调不是短期阶段上浮，而是供需反转引发的市场反应。我们认为，铜箔重资产、长周期属性决定新增供给有限，叠加AI与锂电双需求共振，头部企业加工费上调具备可持续性。从AI侧看，高端PCB拉动高阶粗糙度铜箔需求，高阶铜箔产能吃紧，台湾金居开发、日本三井金属等铜箔企业自2025年起陆续提涨加工费，随着AI需求持续攀升，高阶铜箔供给侧产能释放幅度受到扩产时间，设备等多重因素影响，涨价趋势仍将延续，且中国大陆铜箔企业在加速导入高阶铜箔市场，大陆企业在AI方面的营收将进入量价双升的阶段。

2、PCB钻针：PCB总量逻辑外，窄线宽趋势 M9材料升级仍然量价齐升逻辑

PCB钻针主要用于PCB生产制程中打通孔工序，所有通孔板制作工艺均需要使用钻针，HDI的内层通孔工艺也需要用到钻针，是典型的PCB生产耗材。从量上看，除了PCB自身市场的扩容，钻针还有其更为独特的量级逻辑，从量上看，PCB线宽线距持续收窄，单平米PCB的孔数会变多，由于单枚钻针可使用的寿命有限，因此单平米PCB孔数的增加会显著提升钻针用量，其次因为AI 产品用的PCB对于信号低损耗要求更高，对孔壁的形貌要求更高，通常会用到分段钻孔的工序，单针可钻孔数量下降；价格逻辑：AI PCB会用到涂层钻针，PVD和TAC涂层针的价格会比传统白针高20-30%，部分甚至会高40-50%。此外，未来覆铜板升级到M9规格，内部用到的石英布本身硬度非常高，需要用到更为特殊的钻针，钻针整体ASP仍然会抬升，此外，单针的寿命缩短后，进一步拉动单平米PCB的用量。因此，钻针环节具有典型的量价双升的逻辑，且受益于覆铜板升级。

从行业格局来看，全球PCB钻针较大企业有四家。我们认为，PCB行业市场份额进一步向中国大陆集中，大陆PCB钻针企业将依托客户份额提升继续稳固龙头地位，未来产能释放节奏占优的企业将更为受益。

总结而言，我们认为此轮PCB大周期仍在上行，PCB全产业链均将受益，但需要持续跟踪终端厂商在自身服务器、高速交换机的设计逻辑，观察对PCB价值量的变化。PCB板厂侧可以持续跟踪各家板厂扩产进度；原材料覆铜板环节关注传统覆铜板涨价、高速CCL在海外客户进展；上游环节关注覆铜板升级带来的纤维布、铜箔、树脂同步升级的机会，以及钻针独特的量价齐升逻辑。

3、CoWoP及光通信推动SLP需求，mSAP工艺应用场景渐宽

mSAP工艺之所以比传统PCB制程所用到的减成法精细，是因为它初始的铜层极薄，所以后续蚀刻时的侧蚀影响也极小。但相比SAP，它多了一个“蚀刻掉多余薄铜”的步骤，无论铜层多薄，蚀刻总会带来一点点边缘的损耗，这使得它在极限精细度上可能略逊于纯粹的SAP。

mSAP(Modified Semi-Addictive Process) 改良型半加成工艺：将绝缘基材上的电解铜箔极薄化后，在其表面涂布光刻胶，经过曝光显影，露出导电图案，在其表面进行镀铜制程，后刻蚀其他在表面上的极薄电解铜箔，最小线宽可以做到30um以下，是类载板（SLP）当中的明星制程。mSAP工艺中需要使用到超薄可剥离铜箔，超薄可剥铜通常是在具有一定厚度的载体箔上采用电沉积的方式形成几微米的铜箔层，其关键在于如何解决载体箔与超薄铜箔剥离的问题，由于超薄铜箔的力学性能较差，制作时不易完整从阴极辊上剥离下来，采用传统的工艺方法难以生产，而且在运输过程中易出现引起卷曲、褶皱或撕裂等问题，影响到铜箔后续的使用。日本企业舍弃常规的铜箔制作工艺，发明了超薄载体铜箔的制作技术，采用具有一定厚度的金属箔作为阴极，同时起着载体支撑的作用，并在其表面电沉积超薄铜箔，然后将沉积的超薄铜箔连同载体铜箔和基板材料一起热压，再采用化学蚀刻或者机械剥离方式去除载体铜箔。

mSAP工艺过往主要的应用场景是高端智能手机的主板，也即是SLP，能够满足智能手机所需的高线路密度，轻薄的要求，但由于高阶智能手机出货量已经较为稳定，整体市场增长有限。展望未来，随着CoWoP工艺的渗透和高阶光模块市场的爆发性成长，mSAP工艺应用场景进一步拓宽，未来市场容量有迎来高增。

CoWoP：PCB与先进封装共生。CoWoP的本质是去除ABF载板，将芯片和硅中介层直接安装在SLP上，形成从芯片级到系统板级的直接连接。这种设计在理论上具有：a). 更短的信号路径和更低的插入损耗，此外VRM电源模块离GPU更近，电源完整性也更高。这对于NVLink、PCIe Gen6/7和HBM3/4等高速互连至关重要。b) 更高的热学和力学灵活性。裸片直接暴露在印刷电路板（PCB）上，使得直接接触式冷板或液冷的实施更加容易——这对千瓦级人工智能GPU尤其有利。

从CoWoS走向CoWoP缩短信号传输路径，但是同时也将面临非常多衍生的问题。成熟的CoWoS封装中硅中介层上的微凸点间距主要集中在几十微米（例如 40µm、35µm），并且随着技术发展持续向更小的尺寸迈进。CoWoP技术提出新的要求：a）PCB精度要求：系统板必须承担原封装基板的高密度布线功能，实现线宽/间距为15-20μm或更小，同时保持严格的平整度和尺寸稳定性。b）热机械可靠性：由于裸片和中介层直接安装在印刷电路板（PCB）上，热循环和热膨胀系数（CTE）不匹配可能会导致焊点疲劳和翘曲风险加剧。c）制造与良率挑战：传统印刷电路（PCB)工厂需要升级到接近先进封装的洁净室和工艺标准（ISO1-5级），并且组装后的良率必须几乎无缺陷。

光通信：光模块PCB是光模块中的关键组件，它承载着复杂的高速信号传输任务。根据中际旭创招股书披露，光模块成本主要光器件、电路芯片、PCB板以及外壳构成。其中，光器件占光模块成本最高，在70%,电路芯片15-20%，PCB成本占比在3-5%。

从结构上看，光模块PCB基本都可以分为四个区域，分别是接口区，信号传输区，电芯片BGA区与及光芯片邦定区。

1. 接口区：接口区也即是经常所说的“金手指”，PCB上为电连接口，作用为将光模块内电信号与外接设备电信号进行互换传输的区域。作为接口，它须与插入的设备进行适配，因而其在物理形态会因为数据传输特定的要求的有一定变化。

2. 速率传输区：速率传输区起到连接接口区和电芯片区域的作用，其是影响光模块传输速率极为重要的部分。通常来说，不同封装方式，调制方式的光模块（本质反应的是光模块的传输要求）对速率传输区内传输线的数量与单通道的传输速率均有特定的要求。以400G光模块为例，其主要采用QSFPDD或OSFP封装，8收8发，单通道传输50Gbps，采用PAM4调制，有效提高了信号传输效率。PCB基材选型与设计影响光模块传输速率，工艺走mSAP与SLP工艺。与速率传输区关联最大的是PCB基材的选型，不同协议下对应的材料等级案例。与速率传输关键的另一大重要因素即为信号传输线的设计，随着速率的提升，由于传输协议的限制，光模块的功能密度也在不断增加，因此PCB层数也在一直增加，同样由于板厚在协议中的规定，每层的厚度也在不断减少，由于匹配阻抗，传输线线宽也不断收窄。由于金手指互联与孔传输的反射要求，综合种种因素，导致高端光模块PCB必然走向任意层互联及SLP或mSAP工艺。

3. 芯片连接区。芯片连接区包含电芯片（DSP）封装区与光芯片邦定区。

光模块从800G向1.6T以上升级，对PCB的精度与损耗要求大幅提高，需要采用mSAP工艺。2026至2027年，1.6T光模块进入规模化上量阶段，mSAP工艺已成为突破技术瓶颈、支撑下一代光模块信号完整性的关键路径。在光模块应用中，PCB采用mSAP工艺后能够有效减小产品体积和损耗，完美匹配1.6T及以上光模块对小型化、高集成度的需求。随着速率快速迭代，光模块PCB正加速从传统高多层板向mSAP工艺板过渡，该工艺已成为支撑高速光模块量产的核心基础。

我们认为，高速光模块PCB玩家将呈马太效应，光模块PCB产品具有信号传输速率高，线路密度窄、散热要求高等特点，具有极高的壁垒，能够参与的厂商会逐渐变少，马太效应会逐渐显现。此外，在商业模式端，光模块厂商可以选择板厂，光模块企业市场格局相对集中，因此前期持续深耕头部光模块企业有望持续受益客户端产品的升级。

国内：国产算力进入爆发期，产业链业绩兑现可期

超节点方案落地加速，国产算力迈入业绩兑现拐点

国产算力芯片有望通过超节点的系统级能力弥补单芯片性能差距。所谓超节点，本质是基于高速互联（如高速SerDes/光互联）的算力集群架构，通过将数十至数千颗AI芯片进行高带宽、低时延连接，实现统一调度与近似共享内存的计算体系。随着模型规模与算力需求持续提升，行业对算力的衡量维度正由“单芯片性能”向“系统级有效算力”迁移，节点内部互联效率成为决定算力利用率的核心变量。在单卡性能受制于先进制程与架构差距的背景下，国产算力体系需通过提升节点规模与互联密度，实现以系统补芯片的路径，从而缩小与海外头部厂商的实际算力差距。

2026年有望成为国产超节点量产元年，国产算力竞争正式从“单卡比拼”进入“系统级竞争”。从产业进展看，国内头部厂商已密集推出超节点产品或方案。华为CloudMatrix 384超节点将384颗昇腾910C NPU与192颗鲲鹏CPU通过自研MatrixLink总线全对等互联，形成一台逻辑统一的超级AI服务器。最新的方案为Atlas 950/960 SuperPoD，Atlas 950支持8192张昇腾卡，Atlas 960 SuperPoD规划支持15488张昇腾卡。百度推出基于昆仑芯P800的“天池256/512”超级节点，分别规划于2026年上半年和下半年上市；阿里云发布磐久AI Infra 2.0 AL128超节点，采用整柜级高密度设计，支持128–144颗GPU，并匹配高供电、高散热能力；中科曙光则发布scaleX系列超节点方案，并推动国产万卡级AI集群落地。

华为Atlas 950超节点将是2026-2028年全球算力最强的AI超节点。虽然华为单片芯片的算力与英伟达存在差距，但徐直军表示：“华为有三十年在连接技术的积累，华为的超节点计算机，能做到世界上算力最强，满足全世界在AI训练推理上的巨大需求。” Atlas 950超节点支持8192卡规模，由128个计算柜和32个互联柜组成，占地面积约1000平方米，FP8算力达8 EFlops，FP4算力达16 EFlops，互联带宽高达16 PB/s，相当于当前全球互联网总带宽的10倍以上。Atlas 950超节点将于2026年第四季度上市，徐直军强调，Atlas 950超节点将是2026～2028年间全球算力最强的AI超节点。Atlas 960超节点，支持15488卡，由176个计算柜和44个互联柜组成，算力、内存和带宽在Atlas 950基础上再度翻番，计划于2027年四季度上市。

华为还公布了清晰的昇腾AI芯片路线图，昇腾950系列的性能相较前代大幅提升。面向未来，华为已规划三个系列的昇腾芯片，包括950、960和970系列。昇腾950PR与昇腾950DT将在2026年陆续上市。与上一代相比，昇腾950在多个方面实现根本性技术提升：新增支持FP8/MXFP8/HIF8、MXFP4等低精度数据格式，算力分别达到1 PFLOPS和2 PFLOPS，大幅提升训练与推理效率；大幅提升向量算力，支持更精细粒度内存访问；互联带宽提升2.5倍，达到2TB/s；并搭载自研HBM技术HIBL1.0和HIZQ2.0。

随着国产方案性能持续提升，国产算力芯片企业正逐步迈入业绩兑现期。过去两年行业仍处于高投入阶段，厂商围绕架构迭代、软件生态及系统适配持续加大研发力度，同时下游客户整体仍处于国产方案的导入验证阶段，项目以小规模测试为主，订单呈现碎片化特征，难以形成规模化收入确认。进入2026年，随着超节点方案加速部署，算力需求由此前的小规模验证转向集群级采购，订单规模与交付节奏同步提升，国产AI芯片开始由导入期迈向规模化出货阶段，业绩也呈现快速增长态势。

国产算力闭环有望大幅降低Token成本，拉动上游晶圆制造-封测-设备-材料需求全面发展

DeepSeek-V4首发适配华为昇腾芯片，实现纯国产算力闭环。 2026年4月24日，DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源，模型上下文处理长度由原有的128K显著扩展至1M，实现近10倍的容量提升，首次增加了KV Cache滑窗和压缩算法，大幅减少Attention计算和访存开销，并通过模型架构创新更好地支持了Agent和Coding场景。昇腾A2、A3及950全系列产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。昇腾本次通过双方芯模技术紧密协同，实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销，大幅提升推理性能，结合多种量化算法，实现了高吞吐、低时延的DeepSeek V4模型推理部署。昇腾A3超节点系列产品也全面适配，同时为便于用户快速微调，提供了基于昇腾A3超节点的训练参考实现。

DeepSeek-V4国产大模型突破，性能实现大飞跃。V4-Pro在Agent能力、世界知识、数学推理等多项评测中达到开源模型最佳水平，推理性能比肩顶尖闭源模型；V4-Flash则以更小的参数量提供更快速、更经济的API服务，适合轻量场景。华为昇腾950超节点，跑V4-Pro，8K输入场景，单卡Decode吞吐4700 TPS，延迟20毫秒。V4-Flash更猛，10毫秒延迟，1600 TPS。昇腾950 V4-Pro：TPOT约20ms，单卡4700 TPS；昇腾950 V4-Flash：TPOT约10ms，单卡1600 TPS。昇腾A3 64卡超节点 V4-Flash：单卡2000 TPS。

DeepSeek -V4的Token成本大幅降低，通过Flash与Pro版本分层给众多国产AI芯片带来更多的可能性。Flash版本冲量，Pro版本覆盖高端场景。Token 是模型用来表示自然语言文本的最小单位，可以是一个词、一个数字或一个标点符号等。以“百万 tokens”为单位，按照原价来看，V4-Flash的输入价1元（缓存命中0.2元），输出价2元；V4-Pro的输入价12元（缓存命中1元），输出价24元。

国产算力芯片的快速发展，全方位拉动了芯片制造、上游设备材料、供电配套（功率半导体）的发展，国内半导体产业链整体处于高景气。

1、晶圆制造：整体稼动率满载，成熟制程转单需求旺盛，先进制程快速发展

国内头部算力芯片实现商业化，带动先进制程发展。国产AI芯片已从技术验证迈入规模化商用阶段，其出货量的指数级增长为晶圆代工厂提供了明确的订单指引。互联网巨头与电信运营商2026年庞大的资本开支计划，构成了需求的坚实底座。根据媒体报道统计，2026年国内主要CSP算力硬件投入持续抬升，字节跳动预计全球算力采购投入超1600亿元，其中国内部分在600亿元以上，国产算力占比在50%以上；阿里巴巴预计投入超1200亿元，腾讯预计投入超800亿元并已启动首批国产算力采购。三大运营商也将在2026年加大采购力度。这些需求直接指向华为昇腾、寒武纪、海光信息等国产AI芯片，进而转化为对先进制程晶圆代工的订单。以SMIC为代表的先进制程晶圆代工厂得以快速发展。

与此同时，成熟制程代工成本优势显现，供给阶梯式发展。国内晶圆代工厂的重心长期放在突破制程技术和构建自主可控的供应链，目前已经进入成本优势显现的产业收获期。我国大陆地区与全球在成熟制程晶圆代工领域的差距全方位缩小，中芯国际和华虹两大代工厂28nm及更成熟制程的量产时间均在5年以上；美国自2020年开始实施的半导体产业制裁政策倒逼产业链提高国产化率，进而带动国内设备原厂和材料行业及相关技术人员发展，间接推动了成熟制程量产的技术外溢、降低了产线成本。国内规模处于第二至三梯队的晶圆厂如晶合集成、燕东微、青岛芯恩等也已相继推动28nm制程量产或产线建设。而与此相反，台积电为了扩张先进封装产能，主动将部分8英寸厂停产改建，致使全球成熟制程代工总供给呈现稳定甚至下降的趋势，国内成熟制程代工重要性进一步提升。

从需求端看，随着Local for Local持续演进，国内成熟制程需求也将长期旺盛。伴随美国对中国的半导体产业制裁烈度螺旋式提升，在供给和原产地认证的双重不确定性下，本土芯片设计厂商和面向中国大陆客户的海外设计厂商为规避客户风险，确保自身供应链和销售稳定性，与中国大陆的晶圆代工厂合作是大势所趋。包括英飞凌、ST、NXP在内的一批海外头部厂商从2025年开始将订单转移至国内，叠加成本优势，国内成熟制程代工长期满稼动率运转。

从产能端，中国大陆总晶圆产能占全球晶圆产能约20%，其中成熟制程产能占逻辑晶圆产能的98.3%，先进制程空间广阔、成熟制程亦有继续承载需求的空间。截至2025年，中国大陆地区拥有29座8英寸晶圆厂和50座12英寸晶圆厂（含逻辑晶圆存储晶圆），月产能累计达591.6万片（等效8英寸），在规划中总产能达986.5万片，占全球产能约20%。如果仅看逻辑晶圆代工部分，中芯国际、华虹集团和晶合集成分别位列前十大代工厂的第三、第五和第九位，合计市占率达7.9%。按尺寸拆分来看，当前8英寸月产能约148.1万片，12英寸月产能约197.1万片。按工艺拆分来看，110nm及以上制程占比约30%、90nm-28nm制程占比约68.3%，14nm及以下制程占比约1.7%。

参考亚洲五家半导体巨头的扩产节奏，其均持续投入巨额CapEX，扩产新产能，以支持客户增长，但是短期新增产能释放依然很慢。建一座新的晶圆厂需要2到3年时间，没有捷径可走。之后还需要1到2年才能达到产能高峰，这才是晶圆代工行业的根本。TrendForce的2月数据显示，2026年亚洲头部Foundry和IDM的资本开支合计的同比增长25%。三星今年的资本开支增加较少，主要用于生产用于HBM4的10nm第六代（1c nm）DRAM扩产。海力士和铠侠的投资扩大较多，新增产能也要到2027年才能体现。而台积电预计2026年的资本预算将接近 520亿美元至560亿美元区间的上限，超过过去三年总额的50%。

从行业整体规模看，根据SEMI等机构统计，2024年中国晶圆代工行业市场规模提升至143亿美元，同比增长20.17%；预计2029年将达到266亿美元，2024-2029年均CAGR预计为13.22%。未来，随着中国半导体产业链逐渐完善、产业内生性及国产替代需求增加，预计中国晶圆代工行业市场将持续保持较高速增长趋势。

2、封测：封测景气整体回升，先进封装需求强劲带动产业链价值量重估

通过先进封装提高芯片性能是后摩尔定律时代的共识。放眼全球市场，通过2.5D/3D封装技术持续提升高算力芯片的性能已经成为行业共识；而国内由于晶圆制造环节的技术迭代面临地缘政治等多种因素的限制，利用封装技术提高算力芯片性能也就同样成为了在自主集成电路工艺下加速追赶性能的关键。目前国内多家高算力芯片设计企业也均发布有使用相关技术方案的产品，进一步加速国内封装产业链发展。

先进封装的价值量可达到传统封装的数十倍甚至数百倍，带动产业链迎来价值量重估。伴随着半导体制造产业的驱动力由移动终端切换为HPC，封测行业的结构性转型，进一步带动了先进封装行业价值量的提升。目前Nvidia的算力芯片成本结构中，CoWoS及配套测试环节的合计价值量已经接近先进制程芯片制造环节。根据盛合晶微披露中援引Yole《Status of the Advanced Packaging Industry 2025》报告中的数据，2022年、2023年、2024年，基于硅转接板的2.5D产品的单颗封测成本约为207.5美元/颗、207.5美元/颗、206.3美元/颗；基于硅转接板的2.5D产品中单片晶圆对应的晶粒颗数通常在25-40颗，按照上述价格折算，则基于硅转接板的2.5D产品对应的单片晶圆封测价格为5150美元-8300美元，按照2024年度平均汇率折算，封测价格约为人民币36677元/片-59110元/片。

国内封测厂商加速先进封装布局，头部厂商积极融资扩产。2025年下半年以来，全球封测行业整体稼动率稳步抬升，至年底已上行至高位，其中与先进封装相关的晶圆级封装、Bumping等产能尤为紧张。在全球宏观波动引起原材料价格上涨叠加产能结构性紧缺的双重作用下，2026年封测厂有望延续高稼动率，同时封测行业有望持续涨价、价格上行的动力充分。与晶圆代工类似，国产算力芯片的快速起量直接带动国内先进封装产能需求，国内厂商相应加速布局，且有望快速完成业绩转化。

总体来看，先进封装已经成为国产算力的关键卡口，建议重点关注在先进封装技术上实现量产突破、产能扩张节奏明确、且已深度绑定国产算力龙头客户的封测厂商。2026年，在国产AI芯片放量、全球产能持续紧张、涨价周期启动的多重因素共振下，国内封测行业将维持高景气度。头部厂商凭借在2.5D、HBM、Chiplet等领域取得的技术突破和前瞻性产能布局，有望充分受益于“订单外溢”与“国产替代”的双重机遇，实现市场份额与盈利能力的同步飞跃。

3、半导体设备：逻辑存储封测扩产共舞，设备订单旺盛

伴随国产算力对代工封测的持续拉动，制造端加速扩产对设备形成有效拉动。与此同时，国产设备的技术水平持续突破，国产化率正迎来从“1到N”的大规模提升阶段。在沉积/刻蚀/CMP/清洗/检量测等关键环节，国内设备企业已经基本能够满足国内先进制程和先进封装的产业化应用，因此能够伴随下游晶圆厂扩产而实现份额提升下的二次放量。根据日本研究机构Global Net的统计，2025年国内已经有三家设备原厂进入全球前二十大半导体设备厂商（按销售额口径）之列，其中北方华创位居第五，仅次于ASML、AMAT、Lam和TEL。而相对地，ASML、AMAT对中国大陆的销售敞口在持续下降，根据相关设备原厂法说会，ASML 对中国大陆的销售金额占比预计将从2025年的33%下降至2026年的20%；AMAT销售金额敞口可能维持在20%上下。

两存上市扩产预期相对明确，存储拉高设备斜率。AI发展对HBM及大容量存储的爆炸性需求，引发了全球存储芯片的涨价与扩产周期。国内存储原厂抓住机遇积极扩产，成为驱动国内半导体设备需求的另一大核心力量，且其设备需求与逻辑芯片制造存在高度协同性。存储芯片制造与逻辑芯片制造在前道工艺设备上有大量共通之处，前期逻辑的工艺验证有助于国产设备快速导入存储产线。

而从需求侧看，国内存储原厂正处于技术追赶和市场份额提升的关键阶段，扩产动力强劲。根据Counterpoint数据，长鑫存储和长江存储在2025Q3（本轮存储高景气周期早期）的全球市场份额分别达到8%和13%，在全球性的存储短缺和国产化替代机遇下，国内存储原厂的扩产持续加速，长鑫存储于2025年年末披露了A股IPO招股说明书，长江存储的A股IPO也在推进中；未来如果两存完成募资，设备及配套零部件订单金额有望快速提升。

总体来看，国产算力发展通过“逻辑扩产”与“存储扩产”双轮驱动，为国内半导体设备行业构建了高度确定且持续的增长逻辑。在逻辑侧，国产算力芯片的放量直接拉动高端制造产能投资；在存储侧，AI服务器需求引爆的全球存储周期，与国内存储厂商的崛起战略形成共振，创造了巨大的设备需求。当前，国内半导体设备国产化率正进入快速提升的关键阶段，下游明确的扩产规划为设备企业提供了宝贵的市场窗口。具备核心技术、在逻辑和存储产线卡位良好的国产设备龙头，将最充分地受益于这一历史性机遇。

4、半导体材料：产能持续扩张下的终局受益品种，量价份额齐增趋势明确

晶圆制造和封装测试产能的扩张，是半导体材料起量的最直接动力源。半导体材料的需求与晶圆厂的总产能和稼动率高度正相关。在国产算力驱动的景气上行周期中，国内晶圆厂资本开支与稼动率有望维持高位，使得材料成为产能落地后的终局受益品种。

与此同时，先进制程带来“工艺通胀”，显著提升材料价值量。国产算力芯片追求更高性能，必然向更先进的工艺节点演进。而为了应对极紫外光刻、多重曝光、复杂互连等工艺挑战，部分关键材料的单片使用量会大幅上升，先进制程对材料的需求并非简单的量增，而是同时需要引入全新的材料品类以满足电学、物理特性要求的量价起升式“工艺通胀”。也即在晶圆产出数量增长之外，单位晶圆所消耗的材料价值和品类复杂度也在提升，为相关材料环节带来了更强的业绩弹性。

配套的先进存储也呈现类似趋势，存储扩产对材料驱动的特异性远大于普适性。HBM基于TSV技术将多个DRAM芯片堆叠，这一过程对电镀液、临时键合胶、保护膜等封装材料的性能要求极为苛刻。同时，3D NAND层数的不断堆叠对刻蚀工艺的均匀性、薄膜沉积的质量提出了更高要求，相应地拉动了特种气体、前驱体、ALD（原子层沉积）材料的需求。这些应用于先进存储制造的特种材料，技术壁垒高、附加值大，其市场增长与存储技术的迭代紧密绑定。

国产替代窗口期空前扩大，验证导入节奏加快。与扩产同步进行的是对供应链安全的再评估，在全球宏观环境波动、地缘政治引发的风险事件频发的大背景下，代工厂和封测厂对导入本土材料供应商的意愿显著增强。此前材料端占据主导地位的国家包括美国、日本、韩国等，目前对美日替代预期强化的背景下，光刻胶、前驱体、CMP抛光液/垫、光罩（掩模版）、电子特气/大宗气体等耗材的国产化导入均呈现明显加速，相关企业的业绩快速增长。

上述三条主要逻辑驱动下，国内半导体材料快速增长。援引弗若斯特沙利文数据，中国大陆的集成电路关键材料市场规模总体从2019年664.7亿元增长到2023年1,139.3亿元，年复合增长率为14.4%，预计2028年市场规模为2,589.6亿元。同时，基于晶圆制造技术节点不断升级及境内集成电路先进制程日趋成熟，光刻材料、前驱体材料以及靶材等制造材料用量均持续提升，预计前道工艺对应制造材料增长幅度将高于后道工艺封测材料增长幅度，预计2028年制造材料市场规模为1,853.8亿元，占关键材料市场规模比例超过70%。

5. 总结

总的来看，我国算力基础设施被境外厂商所主导，产业链国产替代潜力巨大。从全球范围来看，经过多年发展，已经基本形成了由英伟达和AMD组成的“一超一强”寡头垄断格局，两家企业在综合技术实力、销售规模、资金实力、人员数量等各方面优势明显；其中英伟达作为行业领导者，凭借其突出的产品性能、易用性以及完善的CUDA生态，构筑了坚实的竞争壁垒并持续扩大领先优势，占据超过80%的全球市场份额。

国内市场方面，受益于中美科技博弈和国产替代政策推动，近年来我国本土品牌AI芯片的市场渗透率已呈显著上升趋势，但总体上仍处于发展相对初期阶段，尚未形成较明朗的竞争格局。同时，随着AI芯片领域国产替代进程的不断加速，未来可能将有更多国内厂商进入到该市场参与竞争。

随着人工智能大模型算法的快速迭代以及模型参数量的指数级增长，对于底层算力持续提出新的需求，产业链也将持续得以发展。GPU芯片设计向更高算力密度、更大内存及通信带宽、更多元的混合精度等方向不断发展演进。然而相较于当前AI大模型平均3-6个月的高速迭代周期，芯片研发时间周期更长，从设计到量产一般需要2-3年，并且研发投入金额较大，短期很难满足国内的实际需求。在这一期限错配下，国产算力凭借优秀的需求响应速度和以超节点方案为代表的领先工程能力，未来有着极大的发展空间，自身业绩兑现可期，同时明确打开了上游的晶圆制造-芯片封装测试-设备-材料全产业链链条的成长空间。

1、未来中美贸易摩擦可能进一步加剧，存在美国政府将设置进出口限制条件或其他贸易壁垒风险；2、AI上游基础设施投入了大量资金做研发和建设，端侧尚未有杀手级应用和刚性需求出现，存在AI应用不及预期风险；3、宏观环境的不利因素将可能使得全球经济增速放缓，居民收入、购买力及消费意愿将受到影响，存在下游需求不及预期风险；4、大宗商品价格仍未企稳，不排除继续上涨的可能，存在原材料成本提高的风险； 5、全球政治局势复杂，主要经济体争端激化，国际贸易环境不确定性增大，可能使得全球经济增速放缓，从而影响市场需求结构，存在国际政治经济形势风险。