DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

henry 发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek V4发布，比模型本身更受关注的，是一个根本性的转变：

国产算力生态正在从过去“芯片被动适配模型”的单向奔赴，迈向“芯模协同”的新阶段。

之前，昇腾与不少模型进行过协同探索，但V4是第一次在大规模、高强度、工程化的尺度上，验证了这种“芯模协同”的可行性与效率。

而这，恰恰是过去CUDA 英伟达体系最深的一层护城河——

模型、框架、芯片在长周期中的共同演化。

昇腾正在补的，不是某一行代码，而是这十多年的时间。

但与此同时，更大的变化也正在鲲鹏昇腾开发者生态里发生。

过去一年，金融、科研、AI训练等领域，越来越多团队开始把核心业务迁移到鲲鹏昇腾上；越来越多开发者开始参与到底层能力、框架适配和社区共建里。

这些案例或许没有V4那样的传播声量，却和V4一起，共同构成了鲲鹏昇腾生态真正的变化。它们最终都在指向同一件事：

鲲鹏昇腾，正在慢慢越过“能用”那条线。

而这一点，在刚刚结束的鲲鹏昇腾开发者大会2026开发者圆桌上，也被不少一线开发者反复提到。

圆桌上，中科院计算所副研究员、B站UP主石侃（老石谈芯），与来自各个领域的开发者团队，共同分享了各自在鲲鹏昇腾上的实战经验。

他们做的方向虽然并不相同，但最后，几乎所有人的结论都指向以下几个方向：

鲲鹏、昇腾让我们看到，中国自己的算力平台，已经可以成为业务首选。
CANN在2024年初还是幼儿期，现在已经更像青年期了。
国产算力是潮流，先用起来。

CANN生态迈向好用易用

过去一年，鲲鹏昇腾生态进入了一轮高密度迭代。

用论坛上陈秋武老师的话理解，就是CANN以前是幼儿期，现在是青年期了。

所谓“青年期”，不是说生态已经成熟，而是开发者开始脱离“厂商保姆式支持”，能自己解决问题、贡献代码、推动迭代。

目前为止，65个源码仓完成分层解耦，超节点架构正式落地，70余款主流大模型做到发布即适配。

对很多开发者来说，CANN也开始从“厂商工具链”变成一个真正可参与、共创的开源生态。

上个月DeepSeek V4发布时的芯模协同，就是这一轮变化最集中的一次展示。

而在刚刚结束的圆桌上，开发者们给出的反馈则更直接：

在鲲鹏昇腾上干活的体感，确实变了。

变在哪？圆桌上大家指向了三件事：适配效率、性能天花板、生产级信任。

适配效率

众所周知，芯片决定的是算力上限，生态决定的，才是算力能不能真正释放出来。

没有生态，再强的硬件也只是能点亮。开发者依然会卡在算子不支持、框架迁移困难、集群调度复杂这些细节里。

这也是此前很多开发者不愿迁移、或者迁不动的原因。

而这件事，正在发生变化。

AIGCode分享了自己加入昇腾生态的原因。创始人陈秋武在圆桌上没藏着：

说实话，一开始是因为穷。2024年初没有卡，我们是创业小公司。

但用起来之后，变化来得比预想快。

早期在昇腾上做MoE预训练，适配自研网络结构给华为提工单，排期需要三到四个月。

到下一代上，同样的问题自己就能动手解决，不用排队了。

更让陈秋武感到震惊的，是CANN生态补齐的速度。

他回忆，2024年初团队第一次在昇腾硬件上做7B级预训练时，整个生态“几乎是一片荒漠”，很多基础能力都还缺着。

但仅仅过了8个月，再回头看时，整个CANN生态的覆盖率已经做到80%到90%。

从“很多东西都没有”，到主流能力基本补齐，速度快得让他都觉得意外。

类似的变化，也出现在其他团队身上。

清华的王一鸣把气象模型迁移到鲲鹏，Load几个库就能跑基线版本，他表示：

开源以后，我们能更充分地学习业界的优秀实践，在此基础上进行适配和优化，也能将一些好的经验应用到自己的项目中。

中科大团队迁移高性能计算求解器到鲲鹏，编译层面不到一周搞定。

团队的陈俊仕说，碰到的问题更多是编译器版本、环境配置这类工程细节，跟架构本身关系不大。

这其实是一个很重要的信号。

四个团队，四种完全不同的场景，呈现出同一种趋势：开发过程中问题的解决已经不依赖厂商贴身服务了。

这就意味着，国产算力最难的阶段，可能已经过去了。

性能天花板

适配只是第一步。真正决定开发者会不会留下来的，还是性能。

AIGCode在昇腾上，把MoE模型预训练的MFU（算力利用率）做到了65%。这个数字，已经接近行业平均水平的两倍。

换句话说，同样一张卡，真正干活的时间更多了。

陈秋武在圆桌上的说法很直接：

一张卡，能顶两张用。

而支撑这一效率的关键之一，是昇腾超节点。

预训练进入千卡时代后，真正困难的已经不再只是单卡性能，而是大规模集群下的通信与调度效率。

昇腾超节点通过统一内存编址和高速互联，把原本复杂的异构通信进一步抽象化，降低了大规模训练的系统复杂度。

AIGCode能做到65%的MFU，背后一个重要支撑就在这里。

开源降低了底层开发门槛，同构架构减少了迁移复杂度，而超节点则进一步解决了大规模扩展的问题。

它把通信与计算之间的并行掩盖做得更深，让流水线尽可能保持满载运行，减少不同设备之间的等待和空耗。

最终，在千卡级集群场景下，整体负载率被拉到很高，用相对有限的算力，完成了更多有效计算。

另一边，中科大团队则基于鲲鹏研发了面向高性能计算的新型LU求解器。

LU分解是最基础的矩阵操作，所有涉及矩阵的科学计算场景都离不开它，优化LU分解就是在底层优化所有科学计算问题。

通过算法与硬件协同设计，把原本不规则的计算重构为规则稠密计算，优化后求解器相比传统方法实现平均40多倍加速，部分场景接近200倍。

65%、40倍、200倍。

几个看似分散的数据背后，其实对应的是同一件事：鲲鹏昇腾正在从“能跑”走向“好用”，生产级能力开始成型。

生产级信任

比性能更难跨过去的，其实是信任。

这次，一家头部股份制银行已经把AI直接推进了核心风控流程。大模型与小模型混合架构，开始介入资金流转和风险决策。

现场公布的数据也很硬：

首Token响应500毫秒、日均260亿Token、可用性99.999%、全年故障时间不超过1分钟，四项金融级指标全部达标。

但比性能指标更重要的是，他们开始愿意把核心业务真正放上去了。

而背后的关键变化之一，是CANN开源之后，整个系统终于不再是黑盒。

开发者不再只能“提需求、等适配”，而是可以真正参与到底层能力建设里。甚至连金融行业这样的传统非算子开发者，也开始向社区贡献特性。

郑老师在现场提到一句很关键的话：

开源之后，小问题我们自己随时能修，大问题可以和社区一起讨论。对整个方案更有把握，而不是在用一个黑盒子。

对于很多企业来说，性能从来不是唯一门槛。

真正决定他们敢不敢上生产环境的，是系统是否可见、可控、可维护。

打造开源开放的开发者生态

开发者的这些体感变化不是凭空而来的，背后是华为在开源开放上的一次关键选择。

去年8月，CANN启动全面开源；12月底，编译器、运行时等核心代码全量上线。

过去，开发者遇到问题，很多时候只能提工单、等版本更新。

而开源之后，运行时、算子编译等核心模块逐步解耦，开发者开始能真正参与到底层迭代里。

AIGCode从“排队三个月”到“自己动手解决”，背后的变化就在这里。

股份制银行这类非典型算力开发者愿意参与的原因，也在这里。

更关键的是，CANN开始逐步兼容主流AI生态。70余款主流大模型做到发布即适配，开发者不用改变原有开发习惯，就能直接调用昇腾的硬件能力。

这正如会上石侃谈到的，向上，兼容主流计算框架；向下，屏蔽硬件的复杂度和差异性。

而这种兼容的背后，是CANN在底层做了大量重构——

提供丰富的算子库、敏捷的开发工具链，以及全方位的开发者支持，大幅降低了算力使用门槛。

当然，生态不能只靠一方使劲。

开发者每一次正向反馈、每一个优化结果、每一个创新应用，都能通过昇腾和华为的生态快速走向产业界，形成技术、商业、生态的完整闭环。

还有个有趣的细节是，Agent也在降低生态的门槛，陈秋武提到：

过去很多重复性的适配工作，现在已经开始被Agent自动完成。生成代码、给出示例、自动搭建环境，很多过去需要啃文档的流程，被压缩到了半小时以内。

工具链在变化，开发方式本身也在变化。

飞轮转起来了

说到底，比性能和适配更重要的变化，可能是生态方向开始变了。

在鲲鹏昇腾社区里，开发者不再只是“被动适配”，而是开始主动贡献。

圆桌上，某头部股份制银行分享其已经向多个社区累计贡献上百个特性，其中仅向vLLM-Ascend就贡献了34项优化，而且不限于金融场景，全行业都能复用。

作为较早投入昇腾生态的创业团队，AIGCode则从2024年起便持续参与社区共建，并贡献了不少核心代码。

一家十几人的创业公司，愿意长期往别人的生态里投入研发资源，背后的逻辑其实很简单：

他们开始相信，这条路会成为主流，而这些贡献，又反过来加速了整个生态闭环。

硬件托住模型，模型落进产品，产品再反哺生态。

AIGCode在昇腾上做出65%的预训练效率后，很快推出了自己的智能编程工具，用户只需要输入提示词，15分钟就能生成一套完整系统。

清华则联合其他高校和科研单位在鲲鹏上跑出了戈登贝尔级别的科研成果。

这条闭环，已经不局限于来分享的几个明星团队身上。

今年2月，智谱GLM-5开源，昇腾完成Day 0适配；4月，DeepSeek V4发布，不仅是Day 0适配，更是更深入的芯模协同。

截至目前，鲲鹏开发者已经超过415万，昇腾开发者超过410万，openEuler装机量超过1600万套。

数字当然重要，但比数字更值得关注的，是生态开始出现“自增长”。

当创业公司开始主动贡献代码，当银行愿意把核心风控放上去，当高校开始把关键科研项目跑在上面，飞轮就已经不再只靠华为一家推动了。

当被问及用昇腾一年多最大的感受时，陈秋武提到：

参与进来的，已经不只是科技公司了。

高校、金融、AI大模型行业，以及越来越多不同领域的团队，都开始进入这个生态，从用户变成生态贡献者。这些“非典型”开发者的加入是国产算力走向“易用好用”最直观的信号。

而中科大的陈俊仕，则给了现场开发者一句非常直接的建议：

赶紧用。

可以说，从“能跑”到“有人长期建设”，从“厂商推动”到“生态自增长”，华为算力生态，正在进入新的阶段——

一个成熟的国产算力生态正在成型。