1.本周观点
AI发展进入加速阶段,“打破内存墙”成为确定的技术趋势。据TrendForce,算力性能的增长远远超过内存带宽和数据传输能力时,大量处理时间会花在等待内存数据上,而不是执行计算;当系统性能受限于数据传输速度时,就会出现典型的“内存墙”问题。近年来,GPU等AI芯片的计算能力增长速度远超内存带宽和数据传输效率,AI芯片计算能力提升了3倍以上,而内存带宽仅增加了1.6倍,通信带宽增加了约1.4倍。因此,大多数计算受限于内存访问和通信效率。


在训练侧,CheckPoint可以保障模型训练的可持续性,却因低速存入造成算力闲置。据华为《AI-Native技术与实践白皮书》,大模型的参数数量呈指数级增长,导致模型大小急剧增加,模型参数量越大,CheckPoint文件越大,由于CheckPoint中除了包含模型参数权重信息,还包含优化器、配置等训练任务信息,膨胀系数一般按6倍计算。例如,GPT-4的参数数量为1.76万亿。若使用FP16格式存储模型参数,GPT-4模型参数约为3.52TB,在模型训练过程中,模型的CheckPoint大小是21.12TB。按1min完成CheckPoint保存,5min完成CheckPoint恢复,数据并行度 DP为30,则对存储系统的写带宽需求352GBps/s,读带宽需求为2112GBps/s。总之,大模型CheckPoint检查点管理涉及繁重的存储和作业恢复时间开销,频繁的CheckPoint检查点保存,加上从最近可用的CheckPoint检查点快速恢复训练作业,成为一项巨大的挑战。

大模型训练AI集群故障概率高,故障影响大,故障发生后任务恢复耗时长,浪费大量AI算力和时间。据华为《AI-Native技术与实践白皮书》,检查点CheckPoint通过在给定时间定期保存完整模型状态的快照来帮助缓解训练的模型状态丢失问题。如果发生故障,可以使用之前保存的CheckPoint快照将模型重建到快照时的状态,以从该点恢复训练。但是,根据CheckPoint检查点保存频率,通常会导致几个小时的计算时间损失。此外,保存和恢复CheckPoint过程本身会产生大量开销,恢复时所有节点都需要并发读取CheckPoint千亿大模型TB级大小的CheckPoint文件保存和恢复通常会成为训练过程中的瓶颈,CheckPoint保存和恢复过程中会长时间中断训练任务,浪费大量算力和时间,考虑到大模型使用的GPU/NPU规模,以1万卡为例,故障损失将会是数万个卡的时间。
在推理侧,影响计算效率的核心是访存,提高访存效率极为关键。大模型的推理主要包括Prefill和Decode两个阶段,据中国电信官网,Prefill和Decode两者计算类型不同:Prefill为计算密集型,时延主要由算力决定;Decode为访存带宽密集型,时延主要由访存带宽决定。PD混合部署时,两者互相干扰:Prefill时,Decode等待;Decode时,Prefill时延增加,P/D时延不稳定,资源需求更大;中国电信天翼云携手昇腾围绕大EP与PD分离技术进行深度创新,将DeepSeek 671B满血版大模型按专家维度切分到不同的NPU上,使得单卡权重占用内存比例大幅降低,权重加载耗时大幅减少,且可用于KV数据计算的内存显著增加,实现高并发、高吞吐、低时延的推理性能。


全球持续探索“打破内存墙”技术路径,目前主要分为算法压缩、存内计算/存算一体、系统级互连与池化、以存换算等不同技术路径。

投资建议:AI发展进入加速阶段,“打破内存墙”成为确定的技术趋势:1)在训练侧,CheckPoint可以保障模型训练的可持续性,却因低速存入造成算力闲置;2)在推理侧,影响计算效率的核心是访存,提高访存效率极为关键。全球持续探索“打破内存墙”技术路径,目前主要分为算法压缩、存内计算/存算一体、系统级互连与池化、以存换算等不同技术路径;伴随内存技术升级,AI训练端和推理端或迎来加速发展,推理端的快速成长有望进一步显著提升内存需求。
我们建议一方面聚焦存储产业链美光、海力士、闪迪、三星、铠侠等全球龙头,另一方面建议关注: 信测标准(投资锋行致远布局AI存算加速)、星环科技(布局AI原生数据库)、澜起科技等布局AI原生存算加速体系的稀缺标的。
2.行业新闻
OpenAI 永久关停Sora 视频生成项目,战略转向 AI 代理
3.公司新闻
麦迪科技: 3月23日,公司发布《股东减持股份计划公告》,股东傅洪、汪建华计划自2026年3月26日起的三个月内,分别减持不超过573978股和533075股,占公司总股本的比例分别不超过0.1874%和0.1740%。减持原因为个人资金需求及偿还债务和改善生活需求。截至本次减持计划实施之前,苏州麦迪斯顿医疗科技股份有限公司(以下简称“公司”)股东傅洪先生持有公司股份2,295,914股,占公司股本总数的0.7496%。汪建华先生持有公司股份2,132,300股,占公司股本总数的0.6962%。傅洪先生、汪建华先生系公司特定股东,已不在公司担任任何职务。傅洪先生拟在本计划公告三个交易日后的三个月内,以大宗交易、集中竞价交易方式择机减持其所持公司股份不超过573,978股,即不超过其持有公司股份总数的25%,不超过公司总股本的0.1874%。若减持计划期间公司有送股、资本公积金转增股本等股份变动事项,本次拟减持股份数量将相应进行调整。汪建华先生拟在本计划公告三个交易日后的三个月内,以大宗交易、集中竞价交易方式择机减持其所持公司股份不超过533,075股,即不超过其持有公司股份总数的25%,不超过公司总股本的0.1740%。若减持计划期间公司有送股、资本公积金转增股本等股份变动事项,本次拟减持股份数量将相应进行调整。
4.本周市场回顾
本周(03.23-03.27)沪深300指数下跌1.41%,中小板指数下跌0.61%,创业板指数下跌1.68%,计算机(中信)板块下跌3.22%。板块个股涨幅前五名分别为:*ST汇科、渤海化学、天玑科技、优博讯、运达科技;跌幅前五名分别为:朗科科技、同有科技、GQY视讯、神州信息、浩云科技。


5.风险提示
1)人工智能政策不及预期:如果在未来一段时间内,人工智能相关政策落地进度缓慢或存在变化,都有可能导致产业发展不及预期。
2)行业竞争加剧:AI领域存在大量竞争者,未来为了在细分领域获取更大份额,可能存在市场、技术等方面竞争持续加剧的情况。


VIP复盘网