日前,首届光合组织人工智能创新大会(HAIC2025)在江苏昆山隆重开幕。全产业链超2500家企业代表、专家学者及行业领袖,通过200余场高密度分享与5000余平方米实景展区,全景呈现中国AI计算开放架构的创新实践与生态繁荣。
中科曙光高级副总裁李斌先生在演讲中也指出,随着大模型技术的持续地迭代发展,对计算装备提出了前所未有的新要求和新挑战。在他看来,这些挑战主要集中在内存的容量和带宽、线间互联的带宽和延迟、节点间的互联带宽和延迟、系统的能耗和能源效率、系统的稳定性以及应用生态的兼容性这几个方面。
面对这些挑战,李斌认为,我们需要从两个方面突破:一是要从单点突破到系统工程;二是要合作开放。“在此基础上,我们把系统的冷却供电和管理这些方面也进一步耦合来提效,同时在这个过程中,我们开放共享,去促进跨层的软硬件的协同和产业链的合作共赢。”李斌接着说。
从这次的大会分享中,我们看到了一个属于中国AI的新时代,正在缓缓走来。
摩尔定律放缓下的取舍
熟悉人工智能的读者对Scaling Law、Scale Up和Scale Out等概念应该非常了解。在笔者看来,这些概念背后,其实隐藏着两层深意:一是大模型对算力的需求依然火爆;一是在摩尔定律实际上失效的当下,单节点已经不能满足人工智能的算力需求。
诚然,在过去数十年的发展中,芯片行业一直遵循一条被称为“摩尔定律”的规则,其核心就是在固定周期内,芯片的性能会随着工艺的演进而获得倍数增长。然而,在工艺走到了7nm之后,这个行业的金规玉律似乎逐渐失效。哪怕行业探讨用先进封装去弥补制造的缺失,但依然追不上过去的增长步伐。
换而言之,通过迭代单芯片,使其满足爆炸的大模型训练需求,已经不可能了。这也正是行业在系统上花了很多心思的原因之一。
海光信息总裁沙超群在同期演讲中也直言,人工智能发展的背后依托着算力芯片,算力芯片的发展,同时也在推动着人工智能产业,两者相辅相成。一方面,Scaling Law在没有失效的情况下,我们会持续为客户提供更强大的芯片和系统级能力。另一方面,海量的垂类模型和智能体应用涌现,算力芯片也需要具备优秀的生态和场景适用性。
“同时,我们看到今年MOE已经成为主流的模型架构,对通讯的效率和性能要求持续提升。KV Cache等技术,使得CPU和AI芯片正在融合,在架构上协同软硬,在软件上统一编程,共同构建异构算力的超级大脑。”沙超群表示。
“十五五”规划将人工智能提升至战略高度,顺应国家发展与产业升级需求,海光在本届大会上也正式推出“双芯战略”,围绕HSL总线互联协议、共建AI软件栈体系等两大举措,为千行百业拥抱智能化提供“源”动力。
一方面海光保持每年迭代一代芯片,实现性能翻一番,缩短与国际巨头的差距,并尽快实现并跑、甚至局部的领跑。另一方面海光还将通过开源开放,来协同光合组织6000多家合作伙伴,共建“人工智能 ”产业生态系统,为数字中国提供核心计算引擎。
据海光信息副总裁吴宗友介绍,“双芯战略”拥有多方面的优势:一是国内的AI产品种类比国际更丰富;二是本土产品的生态连接比国际上更深入。“现在客户非常看重系统性的能力,对上游生态的连接聚合也非常关注。海光能够针对主流应用实现定制化、应用化、深入化和适配化,这是“C86 GPGPU”技术路线具备的独特优势。”吴宗友说。

超集群的进击之路
从上面的介绍可以看到,系统是成为了当前算力困境下的必经之路。于是,聚焦就落在了如何实现这个系统上。承接文章开头提出的那些挑战和应对之策,李斌介绍了中科曙光的应对之道。
李斌表示,和过往的小系统不同,现在的超大规模集群动则要把几万个芯片甚至十万个芯片组成一个紧耦合的系统,这就意味我们不但要注重其扩展性,还要关注其可靠性以及系统能耗和能效等问题。此外,我们还需要一点点打磨且克服过往看来很小的问题,并要保障整个巨型系统内的软硬件都是协同的,因为只有这样,才能打造出一个适合现代AI应用的基础设施。
“具体到人工智能应用中,随着算力的大幅提升,我们还要数据速度跟上,这就使得带来的挑战是前所未来的。”李斌告诉半导体行业观察。
在这些见解的基础上,中科曙光在上个月发布了全球首个在单机柜实现640卡全互联的超节点——曙光scalex640。据介绍,之所以曙光能领先全球竞争对手实现这个,核心原因是来自公司先进的系统硬件架构的设计和工程的几点创新:
首先,通过全球最领先的浸没式液体相变冷却的技术,中科曙光超节点可以全年自然冷却,能在超低PUE的前提下解决超高热流密度的挑战,实现单机柜640卡的安装密度和冷却能力;
其次,通过高压直流供电技术,曙光能简化整个超节点的供电链路,优化电源效率,解决超高功率密度的挑战;
第三,通过一个超高速的先进的架构的硬件的设计,中科曙光能实现单机柜640卡的全电的互联。通过其极高集成度,展现了曙光超节点的优势。
在scalex640的基础上,中科曙光在HAIC 2025上展出了全球领先的大规模智能计算系统——scaleX万卡超集群。值得一提的是,这也是国产万卡级AI集群系统首次以真机形式亮相。

据介绍,scaleX万卡超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops。作为世界首个单机柜级640卡超节点,scaleX640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04。
其中,曙光scaleFabric网络是基于国内首款400G 类InfiniBand的原生RDMA网卡与交换芯片自主研发的原生RDMA高速网络,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,超节点间的通信性能达到业内领先水平,充分释放万卡超集群算力,并可将超集群规模轻松扩展至10 万卡以上,相比传统IB网络提升2.33倍,同时网络总体成本降低 30%。
在这个万卡超集群中,还有另一个重要优势,那就是存、算、传紧耦合深度优化。据介绍,通过“超级隧道”、AI数据加速等设计,该系统实现了从芯片级、系统级到应用级的三级数据传输协同优化,使存力平台高效应对大模型训练时万卡并发读写带宽极致需求挑战,提升高通量AI推理时的响应速度与结果精准度,并可将AI加速卡资源利用率提高55%。
最后,借助物理集群数字孪生,曙光在这个系统上实现了故障定位、修复等全流程可视化智能管理。得益于这个智能化运维平台,曙光可支撑集群长期可用性达99.99%。而智能调度引擎的引入,则可帮助管理万级节点、服务十万级用户,支持每秒万级作业调度。
在介绍这个万卡超集群的时候,李斌重申了曙光打造AI开放架构的决心。
他解析说,从芯片到系统到应用,人工智能的整体链条非常长,但现在整体的趋势又需要这些东西紧耦合在一起的,而不是仅仅做好一个点就能解决。正因如此,就导致整个产业链参与者都在相互抱团,形成了多个小生态,给开发者带来痛苦。
“我们希望通过一个开放架构,把公司过去在各个链条积累的技术开放,让我们的产业链合作伙伴都能在这个生态中专注自己最擅长的领域,大家协力做好这件事。”李斌强调。
写在最后
毋庸置疑,作为国内算力芯片和算力系统的两个重要参与者,海光和曙光在过去已经用他们的产品在AI市场证明了自己。现在,他们高举AI开放生态的大旗,力争推动中国AI产业再上一个新台阶。
与此同时,他们还在深耕各自擅长的领域,为这个生态带来更好的支撑。
据介绍,海光未来会致力于两件事:一方面,更大力度开放系统总线互联协议(HSL),既实现各家AI芯片厂商与海光CPU的“紧耦合”,更帮助外设芯片、OEM、系统及应用厂商快速搭建高性能系统,与产业界共享技术红利;另一方面,携手国产AI芯片厂商共建高效开放的软件栈生态标准,为开发者提供统一映射接口(UPTK)与环境,逐步打造“中国版CUDA”。
来到中科曙光,为了打造更具竞争力的集群,公司在计算、网络、存储、管理等多个方面花了很多的心思。例如,为了打造高速可靠的网络,中科曙光选择了从头自研112G SerDes。正是因为研发出了中国最好的112G的 SerDes,曙光让Scale Fabric有了从容应对各种复杂硬件环境下可靠性风险的底气。
回看国内这波人工智能热潮,虽然备受国际竞争态势影响,但中国人工智能生态链从业者依然迎难而上,让中国的AI芯片、AI基础设施和大模型以及AI应用在国际上大放异彩。展望未来,在这个AI开放架构的支持下,本土AI生态定能给全球书写一篇精彩的中国AI故事。
让我们静待这一天的到来。


VIP复盘网