人工智能革命势头强劲,丝毫没有减弱的迹象,有时看起来就像淘金热。关于新出现的稀缺资源,消息会迅速在社区中传播,人们会蜂拥抢购,引发一波抢购热潮。在 ChatGPT 时代的大部分时间里,想要买到一块 GPU 几乎是不可能的,无论付出多少都难,英伟达甚至需要自己管理候补名单,可见市场需求之大。
媒体的关注点和大量投资都集中在争相抢购GPU上;最近,内存成为了关注的焦点。
但近几个月来,人们的关注点集中在确保用户拥有与之匹配的CPU上。几十年来,CPU一直是硬件架构中默默无闻的主力军,运行操作系统、调度工作负载,维持着整个系统的正常运转,除非出现供应短缺或性能实现代际飞跃,否则很少登上新闻头条。
突然之间,它竟然和一文不值的GPU相提并论了。这是怎么回事?
Hitachi Vantara欧洲、中东和非洲首席技术官Jason Beckett在接受Tom's Hardware Premium采访时表示: “大规模部署人工智能迫使企业重新审视其背后的基础设施。”正如Beckett所指出的,虽然大部分注意力都集中在GPU上,因为它们运行着人工智能模型,但CPU也至关重要,因为它们处理着“其他一切”。
随着智能体人工智能逐渐成为主流,对CPU骨干网络的需求也日益增长,以确保系统正常运行。“持续运行的多步骤推理系统不会像GPU那样在工作负载方面进行短暂的协调,”贝克特说道,“它们需要高核心数的CPU持续高负载运行。这种基础设施需求一直存在,只是现在已不可避免。”
调整比率
在生成式人工智能革命初期,数据中心的设计旨在提供人工智能训练和推理能力,但当时的设计者却严重偏爱GPU。聊天机器人对话所需的GPU数量是CPU的四到八个,因为满足用户请求所需的并行方程式计算对GPU来说非常密集。
但随着人工智能的主要应用场景从聊天机器人转向智能代理,其需求也随之改变。过去,人工智能模型在进行深度推理时,允许存在轻微的延迟,这被认为是可接受的界面选择。然而,智能代理需要快速响应、流畅地协调工具调用等等,延迟可能会成为致命的缺陷。增加CPU数量有助于避免任何可能迅速演变成更严重问题的故障,甚至导致整个智能代理系统崩溃。
作为主要的CPU制造商之一,AMD亲身经历了这种转变。该公司此前预测CPU市场将以每年约18%的速度增长,但表示需求的变化已显著改变了市场格局。AMD声称,目前的增长率已翻了一番,达到每年35%,到本十年末,市场规模将达到1200亿美元。
PEAK:AIO 首席执行官 Roger Cummings 在接受Tom's Hardware Premium采访时表示:“AMD 和 Arm 的测试结果告诉我们,这是一种结构性需求,而非周期性需求。实际上,推动需求激增的两大结构性转变是:智能人工智能的兴起以及对机架级确定性、可预测性能的需求。”
超大规模数据中心运营商是推动CPU需求增长的主要力量,他们认识到CPU在构建未来几年可能驱动经济发展的AI集群中扮演着至关重要的角色。Aegis Cooling战略合作副总裁Jeff Moore在接受Tom's Hardware Premium采访时表示:“随着GPU集群规模的扩大,CPU在编排、内存管理、网络、存储协调和推理处理等方面发挥着越来越重要的作用。” Aegis Cooling是一家专注于为AI和高性能计算基础设施提供下一代液冷解决方案的公司。
摩尔表示,人工智能部署中CPU与GPU的比例正在上升,“尤其因为分布式人工智能工作负载对通用计算、内存带宽和东西向数据传输提出了巨大的需求。” TrendForce最近的一项分析指出,CPU造成的延迟——几乎占所有响应延迟的91%——是人工智能部署正在竭力抵消的问题。
设计变更
这种转变不仅体现在财务预测中,也体现在人工智能基础设施本身的物理设计中。在早期的生成式人工智能部署中,机架通常围绕高密度GPU配置构建,CPU实际上被视为辅助组件——足以维持系统运行,但不会成为瓶颈。现在情况正在发生变化。拥有超过15年经验的PCB制造商OurPCB的创始人赵浩(Hommer Zhao)在接受Tom's Hardware Premium采访时表示:“在媒体报道中,人工智能机架被描绘成一个巨大的GPU盒子。但从硬件设计的角度来看,GPU只是一个速度非常快但功能非常简单的引擎。它无法连接互联网或从硬盘驱动器读取数据。”
为了满足数据传输的需求,超大规模数据中心运营商不再采用单个主机 CPU 与多个 GPU 松散配对的配置,而是部署具有更多核心数 CPU、更多内存通道,并且在某些情况下每个节点配备多个 CPU 的配置。
机架的配置也受到散热和功耗方面的考虑。高核心数CPU,尤其是那些针对云工作负载优化的CPU,其选择不仅看重原始性能,更看重在持续负载下的能效。在液冷环境中,CPU越来越多地与GPU集成在同一散热设计方案中,而不是像以前那样单独用风冷散热。
财务成功迹象
AMD和Arm近期的业绩进一步印证了这并非短期调整,而是更深层次的架构变革。AMD的数据中心CPU业务实现了强劲增长,这主要得益于超大规模数据中心对其EPYC处理器的需求。EPYC处理器拥有高核心数和高内存带宽,非常适合人工智能编排任务。
与此同时,Arm正受益于超大规模数据中心运营商自行设计定制芯片。“到2025年,Arm将占据顶级超大规模数据中心近一半的计算资源,届时将部署超过10亿个Neoverse核心,”贝克特表示。“这些都是几年前就已制定的机架级架构决策。” AWS的Graviton、谷歌的Axion和微软的Cobalt芯片都体现了CPU架构向特定工作负载定制的趋势:高吞吐量、高能效,并与网络和存储紧密集成。Arm的授权模式使其处于这一趋势的核心,其近期的财务业绩也凸显了超大规模数据中心运营商驱动的需求已变得多么巨大。
两组结果都表明CPU的价值评估方式发生了变化。在传统的企业环境中,CPU硬件通常是通用且可互换的。而在超大规模数据中心环境中,CPU正逐渐成为一种专用的基础设施组件,针对人工智能系统中的特定角色进行优化,例如编排、边缘推理或数据预处理。
综合来看,机架设计和供应商性能的变化表明,CPU在人工智能基础设施规划中不再是次要考虑因素。相反,它们正成为决定系统整体效率和成本的关键因素。
贝克特说:“聚光灯并没有揭示什么新东西,它只是最终照亮了那些真正优秀的基建团队从未停止过建设的东西。”


VIP复盘网