2025
行业点评
事件
2025年4月10日,华为云生态大会上CloudMatrix 384超节点正式发布,并已在芜湖数据中心规模上线。
点评
华为发布CloudMatrix 384超节点,国产大规模算力集群商用落地。华为CloudMatrix 384超节点通过架构创新,在算力、互联带宽、内存带宽等方面实现全面领先,通过自主研发的UB统一通信协议,可实现最多1024张卡的直连。相比NVL72,通过384张算力卡的组网,CloudMatrix 384超节点的总算力高67%,网络互联总带宽高 107%,内存总带宽高 113%。采用CloudMatrix 384组网的集群,可以做到万卡线性度>95%,MFU达55%,长稳定训练40天不中断。这三个指标共同体现了CloudMatrix 384超节点在大规模算力效率与工程可靠性上的突破。在算力密度上,CloudMatrix384超节点将传统单节点8卡昇腾服务器,通过新型高速总线实现384张芯片的紧耦合互联。在互联带宽上,CloudMatrix384超节点通过超高带宽Scale-Up新型高速总线网络实现从“传统以太网”向”共享总线网络“演进,将资源互联带宽提升了10倍以上。
不拘泥单卡算力,华为系统性思维破局。从官方公布的数据反算,组成超节点的算力卡的参数分别如下:单卡算力约781.25 Tflops;单卡内存总带宽为3200 GB/s;384 卡全互联状态下,单卡GPU互联带宽为350GB/s。这是昇腾910C正式大规模商用落地的里程碑,CloudMatrix 384超节点方案体现了华为的系统级思维,在先进工艺受限的背景下,通过堆叠、拼接的方式来提升芯片性能,不拘泥于单点性能的高低,而是从系统层级出发,实现更好的系统体验。
Pod内全铜联接,最高1024张卡全互联。随着大规模语言模型的规模持续扩大,其所需的计算能力和带宽需求也在不断提升。为应对这一挑战,华为提出了UB-Mesh这一新颖的AI数据中心网络架构,以提升可扩展性、性能、成本效益以及可用性。通过分层局部化的n维全互连(nD-FullMesh)网络拓扑结构,最大限度地利用直接电线互连,从而减少对昂贵高带宽交换机和光模块的需求。通过全铜直连,可将64张算力卡组网形成2D全互联拓扑架构,再通过低带宽交换机的连接可将最多16个2D全互联拓扑架构组成4D全互联拓扑架构,即一个Pod内最多1024张卡直连,而CloudMatrix 384正是由6个64卡2D全互联拓扑架构互连构成。更进一步,基于千卡规模的UB-Mesh-Pod,可以进一步构建UB-Mesh-SuperPod,可容纳多个UB-Mesh-Pod,实现万卡级别大规模集群。
终结算力焦虑,AI训练集群国产替代。我们认为CloudMatrix 384超节点可对标英伟达的NVL72,而910C单卡则可对标NV H100,为国产AI GPU在纯训练端实现了突破!长期来看,华为AI GPU产品将按照“训推一体 纯训练”的组合,持续保持迭代,真正终结算力焦虑。建议重点关注昇腾产业链。
风险提示:技术迭代不及预期、地缘政治风险、下游需求不及预期
