【东北电子 · 点评】华为CloudMatrix 384超节点发布，国产大规模算力集群首秀

2025

行业点评

事件

2025年4月10日，华为云生态大会上CloudMatrix 384超节点正式发布，并已在芜湖数据中心规模上线。

点评

华为发布CloudMatrix 384超节点，国产大规模算力集群商用落地。华为CloudMatrix 384超节点通过架构创新，在算力、互联带宽、内存带宽等方面实现全面领先，通过自主研发的UB统一通信协议，可实现最多1024张卡的直连。相比NVL72，通过384张算力卡的组网，CloudMatrix 384超节点的总算力高67%，网络互联总带宽高 107%，内存总带宽高 113%。采用CloudMatrix 384组网的集群，可以做到万卡线性度＞95%，MFU达55%，长稳定训练40天不中断。这三个指标共同体现了CloudMatrix 384超节点在大规模算力效率与工程可靠性上的突破。在算力密度上，CloudMatrix384超节点将传统单节点8卡昇腾服务器，通过新型高速总线实现384张芯片的紧耦合互联。在互联带宽上，CloudMatrix384超节点通过超高带宽Scale-Up新型高速总线网络实现从“传统以太网”向”共享总线网络“演进，将资源互联带宽提升了10倍以上。

不拘泥单卡算力，华为系统性思维破局。从官方公布的数据反算，组成超节点的算力卡的参数分别如下：单卡算力约781.25 Tflops；单卡内存总带宽为3200 GB/s；384 卡全互联状态下，单卡GPU互联带宽为350GB/s。这是昇腾910C正式大规模商用落地的里程碑，CloudMatrix 384超节点方案体现了华为的系统级思维，在先进工艺受限的背景下，通过堆叠、拼接的方式来提升芯片性能，不拘泥于单点性能的高低，而是从系统层级出发，实现更好的系统体验。

Pod内全铜联接，最高1024张卡全互联。随着大规模语言模型的规模持续扩大，其所需的计算能力和带宽需求也在不断提升。为应对这一挑战，华为提出了UB-Mesh这一新颖的AI数据中心网络架构，以提升可扩展性、性能、成本效益以及可用性。通过分层局部化的n维全互连（nD-FullMesh）网络拓扑结构，最大限度地利用直接电线互连，从而减少对昂贵高带宽交换机和光模块的需求。通过全铜直连，可将64张算力卡组网形成2D全互联拓扑架构，再通过低带宽交换机的连接可将最多16个2D全互联拓扑架构组成4D全互联拓扑架构，即一个Pod内最多1024张卡直连，而CloudMatrix 384正是由6个64卡2D全互联拓扑架构互连构成。更进一步，基于千卡规模的UB-Mesh-Pod，可以进一步构建UB-Mesh-SuperPod，可容纳多个UB-Mesh-Pod，实现万卡级别大规模集群。

终结算力焦虑，AI训练集群国产替代。我们认为CloudMatrix 384超节点可对标英伟达的NVL72，而910C单卡则可对标NV H100，为国产AI GPU在纯训练端实现了突破！长期来看，华为AI GPU产品将按照“训推一体纯训练”的组合，持续保持迭代，真正终结算力焦虑。建议重点关注昇腾产业链。

风险提示：技术迭代不及预期、地缘政治风险、下游需求不及预期