扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.56版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 全球AI算力大战变天!十万卡算力集群爆表,国产IB真香?

股市情报:上述文章报告出品方/作者:新智元;仅供参考,投资者应独立决策并承担投资风险。

全球AI算力大战变天!十万卡算力集群爆表,国产IB真香?

时间:2026-03-12 16:25
上述文章报告出品方/作者:新智元;仅供参考,投资者应独立决策并承担投资风险。


大模型竞赛进入万卡乃至十万卡时代,网络正在取代算力成为新的瓶颈。

当GPT-4的参数规模突破万亿,当Llama 3的训练集群规模达到数万卡,一个潜在问题浮出水面:通信耗时正在吞噬算力红利。

据统计,在大规模AI集群训练中,通信时间占比可达30%以上。且规模越大,占比越高。

「算力竞赛已进入网络决胜期。」这是近期产业界的普遍共识。

过去几年,RoCE(RDMA over Converged Ethernet)凭借「以太网兼容、成本可控」的优势,成为不少智算中心的选择。

但当集群规模从千卡向十万卡跃升时,RoCE的调优复杂度貌似已接近临界点。而曾被诟病「封闭昂贵」的IB(InfiniBand)架构,正迎来新的价值重估。


规模放大后的「网络尴尬」

RoCE的本质,是在标准以太网上「嫁接」RDMA能力。尽管这种方式很难做到高性能无损互联,但在中小规模计算主导期,RoCE一直是国产算力厂商的关键平替。

然而,随着计算集群规模扩张到万卡级别,RoCE与原生RDMA的差异被快速放大。

核心症结在于流控机制的根本性区别。

RoCE依赖基于优先级的流控机制(PFC)。这套机制的逻辑是:当接收端缓冲区紧张时,发送暂停帧通知上游暂停发送。问题在于,PFC是一种粗粒度、反应式的流控——当暂停帧发出时,意味着接收端已经面临压力,丢包风险已然存在。

更棘手的是,PFC的「刹车-油门」机制在多级网络中极易引发连锁反应。一旦某个节点出现拥塞,PFC暂停信号会逐级向上传导,形成所谓的「PFC风暴」,导致整个网络瘫痪。

某互联网大厂的内部数据显示,在万卡级RoCE集群中,PFC风暴导致的训练中断每月可达数次,每次恢复耗时数分钟到数十分钟。

为应对这一问题,RoCE厂商普遍要求开启拥塞控制,并持续调整「水线」参数

但水线调整高度依赖经验和网络流量模型,调得太高,降速不及时导致丢包;调得太低,链路带宽无法充分利用。

这意味着,运维团队需要针对不同应用、不同流量特征进行持续的手动调优。

「在大型互联网公司,确实有专门的团队做这件事,但对于大多数用户而言,这种调优门槛几乎不可逾越。」一位资深网络架构师坦言。

原生架构的「规模红利」

面向「大算力」时代考验,以InfiniBand(IB)路线为主的原生RDMA网络,表现得比RoCE更加游刃有余

IB采用基于信用的精细化流控发送端在发送数据前,必须确认接收端有足够的缓冲区空间。这种「先确认、后发送」的机制,从根源上杜绝了因资源不足导致的丢包,实现了真正意义上的无损网络。

这套机制带来的直接好处是:拥塞控制在IB网络中并非必需用户无需像RoCE那样持续调整水线参数,也无需组建专门的网络优化团队。

当规模放大到万卡以上,网络技术细节中的反馈非常明显。

IB的集中式管理架构可以进行全网路规划,从根本上消除死锁风险;而RoCE的分布式管理依赖广播、协商和收敛,随着节点增加,路由收敛时间呈指数级上升,死锁概率随之暴增。

链路故障恢复能力是另一个分水岭在大规模集群中,链路故障是常态而非例外。某头部厂商的统计显示,在数万卡规模下,日均链路故障可达数十次。

IB架构通过快速容错路由技术,可将故障恢复时间压缩至毫秒级,且这一时间不随网络规模增长而增加。这意味着,对于运行其上的大模型训练任务,底层链路故障几乎「无感」。

而RoCE的故障恢复通常需要秒级,足以触发训练中断和检查点回滚,造成数十分钟的算力浪费。

这种稳定性差异,已经开始呈现在TCO成本账单上。

被重新审视的「成本账」

长期以来,RoCE的核心吸引力在于成本。「IB太贵」几乎是行业共识。但当规模放大后,这笔账需要重新计算。

首先是运维成本的隐性膨胀。某智算服务商的测算显示,在万卡级RoCE集群中,专职网络优化团队的人力成本、因网络问题导致的算力闲置成本、故障排查时间成本,综合下来已接近甚至超过IB方案的硬件差价。

其次是组网效率的规模效应。IB的协议地址空间原本被诟病为扩展性瓶颈,但新一代国产IB方案已在单子网层面支持超过11万卡,较传统方案提升133%。更高的端口密度意味着更少的交换机层级、更低的光模块成本和功耗。

更重要的是,对于真正的高端计算场景,RoCE存在难以逾越的性能天花板

传统HPC业务中包含大量小消息通信,对延迟极为敏感。RoCE的「存储-转发」交换机制导致动态时延易受网络拥堵影响,而IB的VCT交换可实现边收边转,交换时延控制在300ns以内——这是物理层面的代差。

在追求效率成本的AI训练中,这笔账已足以撼动头部用户的选型决策。

市场格局的微妙变化

市场数据正在印证这一趋势。Dell'Oro Group在《数据中心长期预测报告》中指出,尽管以太网在整体市场占据不小,但在AI后端网络领域,InfiniBand长期占据头部份额。

「这并非偶然。」一位行业观察人士指出,「AI训练对网络丢包是零容忍的,而IB是唯一从设计之初就为此场景优化的原生方案。RoCE本质是用通用网络跑专用负载,能跑和跑好是两回事。」

在国内市场,这一认知也在加速落地。随着大模型竞赛从「拼参数」转向「拼落地」,从「千卡试点」走向「万卡标配」,用户对网络稳定性的权重正在上升。

「去年我们还在讨论RoCE能不能用,今年客户问得更多的是:万卡以上到底稳不稳?」

一位网络设备厂商的销售总监表示,「当训练任务动辄跑几十天,一次网络抖动带来的损失就足以覆盖IB的差价。这时候,原生架构的稳定性就变成了硬通货。」

国产化技术的新变量

过去,讨论IB与RoCE的路线选择,很大程度上是在「性能」与「自主可控」之间做取舍——IB性能强但依赖海外,RoCE触手可及但性能妥协。

这一局面正在迎来变数。

今天,中科曙光推出首款国产原生无损RDMA高速网络scaleFabric。据说该产品实现了从112G SerDes IP、交换芯片、网卡到软件平台的100%全栈自研

核心指标非常抢眼:scaleFabric端到端时延低于1微秒,转发时延260纳秒,单子网支持超11万卡扩展,性能对标国际顶尖IB产品NVIDIA NDR。

「这不是简单的国产替代,而是从技术路线层面给出了新的选项。」有分析认为,国产IB方案的落地,意味着用户可以不再在「性能」与「安全」之间二选一,而是可以兼得。

更重要的是,这套方案已在国家超算互联网郑州核心节点实现3万卡商用部署,累计运行作业超10万项,完成了国产最大规模的真实负载验证

「以前选RoCE,多少有点无奈——想要国产,只能选它。现在有了真正能打的国产IB,路线选择的逻辑也将发生变化。」一位智算中心规划负责人表示


网络成为算力竞争「胜负手」

当大模型进入万卡时代,网络已不再是算力的配角,而是决定集群效率的核心变量。

中国工程院院士邬贺铨指出,大模型训练、智算集群规模化部署,对网络提出「超低延迟、超高带宽、全程无损」的严苛要求,RDMA高速网络已成为智算集群的「算力大动脉」

RoCE在过去几年功不可没,它以较低门槛推动了RDMA技术的普及。但当规模从千卡放大到十万卡,嫁接式架构的运维复杂度大幅上升。这条「动脉」的韧性和宽广度都迎来挑战。

IB作为原生RDMA方案,凭借基于信用的精确流控、集中式管理架构、毫秒级故障恢复等技术特性,在极限规模下展现出不可替代的稳定性优势,但此前长期受制于海外供应。

国产IB方案的突破,显然正在消除自主可控层面的顾虑。

「scaleFabric是国内首款全栈自主研发的400G原生RDMA高速网络系统,性能对标国际主流,且经规模化实践验证」。邬院士认为,这将打破国外技术垄断,补齐国产高速网络短板

今年两会期间,高层提出要着眼高水平科技自立自强,加强原始创新和关键核心技术攻关。并且部署了超大规模智算集群等新基建工程。未来的万卡级算力基础设施将成为新常态。

可以预见,随着智算集群向十万卡乃至更大规模演进,RDMA技术路线的选择或将跳出安全考量和成本计算,真正锚定未来集群「能否真正跑起来」的需求做出战略决策。

无论如何,在这场算力规模化竞速中,网络已经成为新的胜负手


股票复盘网
当前版本:V3.0