SK海力士发布了“StreamDQ”,将其作为应对即将到来的定制化HBM(高带宽内存)时代的利器。其理念是利用HBM执行以往由GPU处理、导致推理过程出现瓶颈的任务,从而提升数据处理性能。
从GPU厂商的角度来看,将部分功能迁移到HBM显存能够为芯片设计提供更大的灵活性。SK海力士预计将与包括NVIDIA在内的主要客户探讨这项技术。
6日(当地时间),SK海力士在美国拉斯维加斯威尼斯人酒店举办的“CES 2026”展会上开设了一个私人展厅,并发布了其定制的HBM技术。
预计从下一代版本HBM4E(第七代HBM)开始,定制HBM将得到全面应用。虽然现有的HBM是按照标准制造的,但定制HBM的关键区别在于在基础芯片上添加了客户特定的功能。
基础芯片是一颗负责核心芯片内存控制器功能的芯片,它与HBM堆叠在一起,并通过PHY(物理层)将HBM连接到GPU等系统半导体。以前,内存厂商会自行生产这颗芯片,但随着各种逻辑功能的加入(从HBM4开始),大规模生产主要依靠代工厂代工。
SK海力士正向客户推介名为StreamDQ的技术,以实现定制化HBM的商业化。鉴于近期落幕的CES 2026展会以客户为中心,预计该公司将积极向NVIDIA等全球科技巨头推广其产品。
SK 海力士的一位官员解释说:“StreamDQ 是定制 HBM 的一个例子,SK 海力士甚至还发表了一篇关于这项技术的论文。”他补充道:“客户有时会向我们提出与定制 HBM 相关的技术,但 SK 海力士也会提出这些技术。”
StreamDQ技术主要将现有GPU中的部分控制器功能转移到HBM基片上。这使得GPU制造商能够利用更多的芯片内部空间,从而有可能提高系统半导体的性能和效率。
SK 海力士在基础芯片上添加 GPU 控制器和其他组件时不会面临重大挑战,因为它利用了台湾主要晶圆代工厂台积电的先进工艺。
SK海力士还通过在芯片基体上应用UCIe接口提高了芯片集成度。UCIe 是一种尖端技术,它将芯片分割成功能单元,然后再将这些单元连接起来进行制造。
人工智能加速器的数据处理性能也得到了显著提升。大规模语言模型(LLM)会经历一个称为“量化”的过程,该过程将数据压缩成低位整数,从而有效降低内存占用。然后在实际计算过程中,数据会通过“反量化”再次解压缩。
传统上,反量化任务由GPU处理。然而,执行反量化的GPU一直受到内存瓶颈的困扰,这会消耗高达LLM整体推理时间的80%。
相比之下,StreamDQ 会在数据流经 HBM 时实时进行反量化,而不是将量化后的信息直接发送到 GPU。 这使得 GPU 可以立即开始计算,无需额外的工作。StreamDQ 的名称就来源于这种在数据流中实时进行反量化 (DQ) 的方法。
SK海力士解释说,这将使之前一直处于瓶颈的LLM推理处理速度提升约7倍。整个AI加速器的推理速度预计也将显著提升。
SK海力士的一位官员表示:“如果我们把处理大量数据的系统半导体放在内存附近,只接收数据结果,那么从系统角度来看,效率会非常高。”他补充说:“这可以看作是内存附近处理(PNM)的概念。”


VIP复盘网