全球AI算力大战变天！十万卡算力集群爆表，国产IB真香？

大模型竞赛进入万卡乃至十万卡时代，网络正在取代算力成为新的瓶颈。

当GPT-4的参数规模突破万亿，当Llama 3的训练集群规模达到数万卡，一个潜在问题浮出水面：通信耗时正在吞噬算力红利。

据统计，在大规模AI集群训练中，通信时间占比可达30%以上。且规模越大，占比越高。

「算力竞赛已进入网络决胜期。」这是近期产业界的普遍共识。

过去几年，RoCE（RDMA over Converged Ethernet）凭借「以太网兼容、成本可控」的优势，成为不少智算中心的选择。

但当集群规模从千卡向十万卡跃升时，RoCE的调优复杂度貌似已接近临界点。而曾被诟病「封闭昂贵」的IB（InfiniBand）架构，正迎来新的价值重估。

规模放大后的「网络尴尬」

RoCE的本质，是在标准以太网上「嫁接」RDMA能力。尽管这种方式很难做到高性能无损互联，但在中小规模计算主导期，RoCE一直是国产算力厂商的关键平替。

然而，随着计算集群规模扩张到万卡级别，RoCE与原生RDMA的差异被快速放大。

核心症结在于流控机制的根本性区别。

RoCE依赖基于优先级的流控机制（PFC）。这套机制的逻辑是：当接收端缓冲区紧张时，发送暂停帧通知上游暂停发送。问题在于，PFC是一种粗粒度、反应式的流控——当暂停帧发出时，意味着接收端已经面临压力，丢包风险已然存在。

更棘手的是，PFC的「刹车-油门」机制在多级网络中极易引发连锁反应。一旦某个节点出现拥塞，PFC暂停信号会逐级向上传导，形成所谓的「PFC风暴」，导致整个网络瘫痪。

某互联网大厂的内部数据显示，在万卡级RoCE集群中，PFC风暴导致的训练中断每月可达数次，每次恢复耗时数分钟到数十分钟。

为应对这一问题，RoCE厂商普遍要求开启拥塞控制，并持续调整「水线」参数。

但水线调整高度依赖经验和网络流量模型，调得太高，降速不及时导致丢包；调得太低，链路带宽无法充分利用。

这意味着，运维团队需要针对不同应用、不同流量特征进行持续的手动调优。

「在大型互联网公司，确实有专门的团队做这件事，但对于大多数用户而言，这种调优门槛几乎不可逾越。」一位资深网络架构师坦言。

原生架构的「规模红利」

面向「大算力」时代考验，以InfiniBand（IB）路线为主的原生RDMA网络，表现得比RoCE更加游刃有余

IB采用基于信用的精细化流控。发送端在发送数据前，必须确认接收端有足够的缓冲区空间。这种「先确认、后发送」的机制，从根源上杜绝了因资源不足导致的丢包，实现了真正意义上的无损网络。

这套机制带来的直接好处是：拥塞控制在IB网络中并非必需。用户无需像RoCE那样持续调整水线参数，也无需组建专门的网络优化团队。

当规模放大到万卡以上，网络技术细节中的反馈非常明显。

IB的集中式管理架构可以进行全网路规划，从根本上消除死锁风险；而RoCE的分布式管理依赖广播、协商和收敛，随着节点增加，路由收敛时间呈指数级上升，死锁概率随之暴增。

链路故障恢复能力是另一个分水岭。在大规模集群中，链路故障是常态而非例外。某头部厂商的统计显示，在数万卡规模下，日均链路故障可达数十次。

IB架构通过快速容错路由技术，可将故障恢复时间压缩至毫秒级，且这一时间不随网络规模增长而增加。这意味着，对于运行其上的大模型训练任务，底层链路故障几乎「无感」。

而RoCE的故障恢复通常需要秒级，足以触发训练中断和检查点回滚，造成数十分钟的算力浪费。

这种稳定性差异，已经开始呈现在TCO成本账单上。

被重新审视的「成本账」

长期以来，RoCE的核心吸引力在于成本。「IB太贵」几乎是行业共识。但当规模放大后，这笔账需要重新计算。

首先是运维成本的隐性膨胀。某智算服务商的测算显示，在万卡级RoCE集群中，专职网络优化团队的人力成本、因网络问题导致的算力闲置成本、故障排查时间成本，综合下来已接近甚至超过IB方案的硬件差价。

其次是组网效率的规模效应。IB的协议地址空间原本被诟病为扩展性瓶颈，但新一代国产IB方案已在单子网层面支持超过11万卡，较传统方案提升133%。更高的端口密度意味着更少的交换机层级、更低的光模块成本和功耗。

更重要的是，对于真正的高端计算场景，RoCE存在难以逾越的性能天花板。

传统HPC业务中包含大量小消息通信，对延迟极为敏感。RoCE的「存储-转发」交换机制导致动态时延易受网络拥堵影响，而IB的VCT交换可实现边收边转，交换时延控制在300ns以内——这是物理层面的代差。

在追求效率成本的AI训练中，这笔账已足以撼动头部用户的选型决策。

市场格局的微妙变化

市场数据正在印证这一趋势。Dell'Oro Group在《数据中心长期预测报告》中指出，尽管以太网在整体市场占据不小，但在AI后端网络领域，InfiniBand长期占据头部份额。

「这并非偶然。」一位行业观察人士指出，「AI训练对网络丢包是零容忍的，而IB是唯一从设计之初就为此场景优化的原生方案。RoCE本质是用通用网络跑专用负载，能跑和跑好是两回事。」

在国内市场，这一认知也在加速落地。随着大模型竞赛从「拼参数」转向「拼落地」，从「千卡试点」走向「万卡标配」，用户对网络稳定性的权重正在上升。

「去年我们还在讨论RoCE能不能用，今年客户问得更多的是：万卡以上到底稳不稳？」

一位网络设备厂商的销售总监表示，「当训练任务动辄跑几十天，一次网络抖动带来的损失就足以覆盖IB的差价。这时候，原生架构的稳定性就变成了硬通货。」

国产化技术的新变量

过去，讨论IB与RoCE的路线选择，很大程度上是在「性能」与「自主可控」之间做取舍——IB性能强但依赖海外，RoCE触手可及但性能妥协。

这一局面正在迎来变数。

今天，中科曙光推出首款国产原生无损RDMA高速网络scaleFabric。据说该产品实现了从112G SerDes IP、交换芯片、网卡到软件平台的100%全栈自研

核心指标非常抢眼：scaleFabric端到端时延低于1微秒，转发时延260纳秒，单子网支持超11万卡扩展，性能对标国际顶尖IB产品NVIDIA NDR。

「这不是简单的国产替代，而是从技术路线层面给出了新的选项。」有分析认为，国产IB方案的落地，意味着用户可以不再在「性能」与「安全」之间二选一，而是可以兼得。

更重要的是，这套方案已在国家超算互联网郑州核心节点实现3万卡商用部署，累计运行作业超10万项，完成了国产最大规模的真实负载验证。

「以前选RoCE，多少有点无奈——想要国产，只能选它。现在有了真正能打的国产IB，路线选择的逻辑也将发生变化。」一位智算中心规划负责人表示

网络成为算力竞争「胜负手」

当大模型进入万卡时代，网络已不再是算力的配角，而是决定集群效率的核心变量。

中国工程院院士邬贺铨指出，大模型训练、智算集群规模化部署，对网络提出「超低延迟、超高带宽、全程无损」的严苛要求，RDMA高速网络已成为智算集群的「算力大动脉」

RoCE在过去几年功不可没，它以较低门槛推动了RDMA技术的普及。但当规模从千卡放大到十万卡，嫁接式架构的运维复杂度大幅上升。这条「动脉」的韧性和宽广度都迎来挑战。

IB作为原生RDMA方案，凭借基于信用的精确流控、集中式管理架构、毫秒级故障恢复等技术特性，在极限规模下展现出不可替代的稳定性优势，但此前长期受制于海外供应。

国产IB方案的突破，显然正在消除自主可控层面的顾虑。

「scaleFabric是国内首款全栈自主研发的400G原生RDMA高速网络系统，性能对标国际主流，且经规模化实践验证」。邬院士认为，这将打破国外技术垄断，补齐国产高速网络短板

今年两会期间，高层提出要着眼高水平科技自立自强，加强原始创新和关键核心技术攻关。并且部署了超大规模智算集群等新基建工程。未来的万卡级算力基础设施将成为新常态。

可以预见，随着智算集群向十万卡乃至更大规模演进，RDMA技术路线的选择或将跳出安全考量和成本计算，真正锚定未来集群「能否真正跑起来」的需求做出战略决策。

无论如何，在这场算力规模化竞速中，网络已经成为新的胜负手