►【电子】王芳:AI系列之CPU:推理时代迎价值重估
王芳|中泰电子首席
S0740521120002
推理是未来AI算力的核心,CPU将迎来价值重估。
算力结构转型正从以训练为主转向以推理为核心——当前70%以上算力用于集中式训练,未来70%以上算力将用于分布式推理,推理需求规模有望达到训 练阶段的5-10倍。
训练与推理的底层差异决定CPU在训练场景是“辅助”,在推理场景可以成为"主力”——1)基于Little's Law(吞吐=并发数/延迟),CPU和GPU选择了 “压低延迟”和“堆高并发”的不同路线。2)训练以大规模稠密矩阵运算为主,大部分时间GPU在计算,CPU仅承担数据搬运 集群调度,时间占比10-30%; 推理具有碎片化、长尾化、延迟敏感特点,CPU在Decode、稀疏计算、长上下文管理、Embedding等多个任务中更具竞争力,可完成70%以上运行负载。
对硬件的不同要求推动推理时代CPU与GPU硬件结构配比发生重大转变:在AI数据中心的部署比例,CPU:GPU已从过去的1:8收紧至当前的1:4,并可能在 Agent时代进一步收敛至1:1甚至更低;当前市场端CPU缺货涨价潮充分印证该产业趋势,CPU增量逻辑确定。
服务器CPU在指令集、核心数、内存子系统三个维度发生根本性进化以适应AI需求,未来将继续演进。1)指令集从“通用向量”向“专用矩阵”演进, 引入AMX(tile计算)单核AI算力较前代提升24x。2)核心数由28/32提升至192/288,密度实现6-10倍提升,内存子系统容量和带宽也实现2.25倍增长。三 个维度的协同升级(1 1 1>3)对应AI推理的三大核心需求—矩阵运算能力、并发处理能力、内存容量与带宽,让CPU进化为"AI友好型硬件"。
Agentic AI是CPU爆发的核心驱动。传统LLM是大Batch吞吐,Agent是高频小请求,工作负载特征反转导致GPU算力闲余,CPU处理时间占比上升;工具 调用、沙箱运行、多智能体调度等环节天然依赖CPU架构,同时长上下文 RAG检索场景下,CPU 大DDR5方案具有突出性价比优势,且进行RAG检索时 主力算力在CPU,检索频率也翻倍提升,CPU需求同步放大。
行业格局与未来空间:当前x86和ARM占据市场主要份额,其中x86占比90%、ARM占比10%。长期看,受益于推理 Agent,CPU TAM结构性重估,据BofA Global Research预测,25-30年服务器CPU规模预计将由266亿美元增长至1252亿美元,CAGR约36%,出货量预计由2920万颗增长至9500万颗,单颗价值量也将明显提升,ASP预计由900多美元提升至1317美元;同时,x86将凭生态优势在云上仍占主要地位,ARM则凭能效、AI协同等优势在Agent、端侧场景发力,叠加Hyperscaler自研数据中 心ARM CPU放量,其渗透率将不断提升——至30年提升到44%,具有更强alpha的增速。
投资建议:推理底层驱动CPU硬件配比提升,Agent大趋势推动CPU核心数及总量需求增长,打开远期成长空间。
风险提示:行业需求不及预期;大陆厂商技术进步不及预期;中美贸易摩擦加剧;研报信息更新不及时;测算偏差风险;数据主观筛选风险。



VIP复盘网