这类芯片，大有可为？

大型语言模型（LLM）的最新进展已将人工智能硬件的主要瓶颈从计算能力转移到内存容量和数据传输。模拟内存计算（AIMC：Analog in-memory computing）通过在内存阵列中直接进行矩阵向量乘法，显著减少了与模型权重相关的数据传输，为应对这一挑战提供了一条很有前景的途径。

本文从整体系统的角度探讨了AIMC在LLM推理工作负载中的作用。我们分析了现代LLM的架构，并确定了哪些操作非常适合AIMC。此外，我们还讨论了内存技术、算法、系统架构和异构系统组成方面的关键挑战和机遇，这些挑战和机遇必须得到解决，才能使AIMC成为未来人工智能推理基础设施的实用加速器。

引言

人工智能的快速发展主要得益于大型语言模型（LLM）的成功，而这又很大程度上得益于计算硬件的进步，特别是专用人工智能加速器的发展。这些进步涵盖了计算和内存系统，包括低精度运算、稀疏感知执行以及日益复杂的内存层次结构，例如配备大型片上缓存和高带宽内存（HBM）的内存架构。然而，内存和计算之间的数据传输仍然是LLM工作负载的主要瓶颈，无论是在延迟还是能耗方面。

LLM的结构也在不断演进以缓解这一问题。基于Transformer的架构是当前LLM的主流，并发展出了混合专家（MoE）变体。然而，Transformer 模型在内存中占用空间会随着序列长度的增加而显著增加，其计算量在预填充阶段呈二次方增长，在生成阶段呈线性增长。这种计算量与内存需求密切相关，导致中间状态数据量庞大，必须存储在系统内存中，通常称为键值缓存（KV 缓存）。新兴架构，例如状态空间模型（SSM：state-space models）和混合 Transformer-SSM 架构，旨在提高效率和可扩展性。尽管这些模型各不相同，但它们都具有共同的计算结构：它们由大量的参数化静态计算（涉及模型权重的矩阵向量乘法 (MVM)）和动态的序列相关操作（例如注意力机制或状态更新）组成。图 1 展示了这种分解结构以及每种操作类型的示例。

这些组件的相对重要性因架构和推理的不同阶段而异，例如，它们会随序列长度而变化，但两者都会导致系统整体的瓶颈。这种分解结构对硬件设计具有重要意义。静态权重计算主要依赖于重复的 MVM 操作，且模型权重在不同标记间具有很高的复用率；而动态组件通常需要频繁且大量的数据移动，且复用率极低。

为了缓解现代加速器中存在的上述内存瓶颈，研究重点转向了新兴的计算范式，以减少或绕过这一瓶颈。模拟内存计算 (AIMC：Analog in-memory computing ) 是一种特别有前景的非冯·诺依曼方法，它利用存储设备的物理特性，直接在数据存储的内存阵列中执行操作。通常，这些操作仅限于 MVM，而 MVM 在现代 LLM 的计算中占据主导地位。然而，现代网络中静态计算和动态计算的二分性引发了一个关于 AIMC 在 LLM 推理中作用的重要问题。本文将探讨AIMC芯片的最新进展、它们在现代LLM推理中的作用，以及将AIMC定位到未来LLM推理基础设施中仍面临的挑战和机遇。

AIMC 的最新进展

近年来，在存储技术和系统架构进步的推动下，AIMC 取得了显著进展。总体而言，根据底层存储技术，AIMC 可分为易失性和非易失性两种方法。图 2 展示了 AIMC 单元的基本结构。

基于易失性存储器的 AIMC 主要采用静态随机存取存储器 (SRAM) 阵列进行演示，利用了成熟的 CMOS 工艺及其高速运行特性。这些方法通常在电荷域或电压域进行计算，利用沿位线的电容累积（见图 2）。这些芯片可以灵活地重新编程权重，并支持各种工作负载和精度。然而，基于SRAM的AIMC从根本上受限于其较大的位单元面积和二进制权重存储方式，这限制了可实现的存储密度，进而限制了无需依赖外部系统存储器进行权重重载即可在片上映射的模型规模。诸如基于增益单元的设计等新兴替代方案旨在提高相对于SRAM的密度，同时保持重编程的灵活性，但目前仍处于早期发展阶段，尚未展示大规模AIMC系统。这种灵活性使其能够支持动态或频繁变化的操作数，但由于重复重载，会带来显著的数据移动开销。

基于非易失性存储器（NVM）的AIMC提供了一种互补的方法，由于其纳米级器件尺寸和固有的多级存储能力，能够实现更高的片上权重密度。针对AIMC，人们探索了多种器件，包括相变存储器（PCM）、电阻式随机存取存储器（RRAM）、磁阻式随机存取存储器（MRAM）和闪存，这些器件在计算密度和效率方面都展现出了良好的前景。然而，基于非易失性存储器（NVM）的AIMC的一个关键特性是读写操作之间存在显著的不对称性。虽然读取操作可以在大型阵列上高效并行地执行，但将存储单元编程为模拟状态通常需要迭代的读写验证过程，这会导致更高的能耗和延迟成本。

因此，基于NVM的AIMC架构天然适用于权重静态操作，其中模型参数在推理过程中被广泛重用。另一方面，基于易失性存储器的AIMC允许频繁的权重更新和重新加载，从而实现更灵活的执行，但代价是计算密度降低。这些互补特性凸显了当前AIMC系统中密度和可编程性之间的根本权衡，这直接决定了它们对LLM工作负载不同组成部分的适用性。

AIMC 在 LLM 推理中的作用

在 LLM 推理的背景下，静态操作和动态操作的分解自然地对应于易失性和非易失性 AIMC 实现的特性。静态计算由推理过程中权重固定的大型 MVM 组成，这些计算在所有 token 之间共享，并具有很高的重用性。这使得它们非常适合基于 NVM 的 AIMC，因为权重可以编程一次并在多次推理中重用。基于易失性存储器的 AIMC 在这方面也具有优势，但它受到片上存储空间的限制——即使是小规模的 LLM 也需要 GB 级的权重——并且通常依赖于从外部存储器重新加载权重，类似于传统数字加速器中的缓存层次结构。

相比之下，LLM 推理的动态组件对 AIMC 提出了重大挑战。在基于 Transformer 的模型中，注意力机制涉及操作数动态变化的操作。在预填充阶段，这对应于矩阵矩阵乘法；而在解码阶段，则对应于查询向量与键值缓存之间的矩阵向量乘法。在这两种情况下，操作数都依赖于输入序列，因此无法预先编程到非易失性存储器（NVM）数组中。此外，键值缓存(kv cache)在不同token和用户之间的重用性有限，使得将矩阵编程到存储设备的成本难以摊销。重要的是，键值缓存的大小会随着序列长度的增加而增长，导致工作负载的动态部分也相应扩展，而静态权重计算保持不变。因此，随着序列长度的增加，能够被AIMC有效加速的操作比例会下降，因为动态注意力计算变得越来越重要。

原则上，基于易失性存储器的AIMC可以通过频繁的权重重载来支持这些动态操作。然而，动态数据（尤其是键值缓存）的低重用性导致了一种运行模型，其中数据移动主导了执行时间和能耗，实际上使系统退化为类似冯·诺依曼模型的行为。

对于基于SSM的架构，动态计算的性质有所不同。这些模型不依赖注意力机制，而是依赖于状态更新和类似扫描的操作，这些操作并非以密集MVM的形式表达，因此不太适合使用当前的AIMC原语进行加速。然而，与注意力机制相比，这些操作通常具有更好的序列长度扩展性，随着序列长度的增加，它们对整体工作负载的相对贡献会降低。

这些观察结果突显了在LLM推理中有效利用AIMC的两个关键要求。首先，工作负载必须主要由静态的、高重用性的MVM构成，这样才能充分利用内存计算的优势。其次，需要足够的片上内存密度来存储这些权重，而无需频繁地重新加载或重新编程。这些条件共同定义了AIMC能够提供显著系统级优势的适用范围。

挑战与机遇

如前所述，片上存储密度是释放AIMC效率的关键要求。这是基于NVM（非易失性存储器）方法的根本优势，它结合了小尺寸器件和多级存储，并具备三维扩展能力。特别是，如图3所示，过去十年中，3D集成技术实现了存储密度的持续增长。

虽然3D存储技术显著提高了存储容量（Gb/mm²），但它们并不能直接提升计算密度（TOPS/mm²），因为计算通常在单个二维切片内进行。然而，密度提升的优势仍然体现在系统层面。通过将模型参数映射到多个层级，可以以最小的数据移动顺序访问模型的不同部分，从而有效地实现一种低成本的权重重载，而无需依赖外部存储器传输。从这个意义上讲，3D AIMC架构可以被视为结合了非易失性存储器的密度优势和易失性方法的灵活性。

这种能力对于现代LLM模型尤为有利，因为模型规模超过了传统片上存储器的容量。此前，我们研究了3D AIMC硬件上的LLM推理，并观察到显著的能效提升，特别是对于基于MoE的架构——能效提升高达3个数量级——这些架构可以在不成比例增加计算量的情况下利用更大的容量。

AIMC系统的另一个长期问题是可达到的推理精度。在易失性和非易失性方法中，可以通过将更多设备汇集在一起表示单个权重来提高精度。然而，对于基于NVM的方法，理想情况下，目标是将权重直接以模拟形式存储，并将每个权重映射到单个设备（或一对差分设备）。但是，来自设备和模拟计算的噪声会降低精度，并产生随机执行模型。在近期的研究中，我们已证明，模拟硬件感知训练和训练后自适应能够有效缓解这些影响，这表明精度并非将AIMC应用于LLM推理的根本障碍。

然而，即使拥有足够的内存密度和可接受的精度，AIMC的系统级优势仍然从根本上受到LLM推理动态组件的限制。如图4所示，随着序列长度的增加，与静态操作相关的计算比例逐渐降低，最终动态计算占据主导地位。这一观察结果对系统设计具有直接意义。与其尝试使用单一架构加速整个工作负载，不如采用异构架构可能更为有效：AIMC加速器负责处理静态、高复用性的组件，而数字处理器则负责处理动态的、与序列相关的操作。

以往关于异构架构的研究通常将模拟和数字计算单片集成在同一芯片上，这往往会带来权衡，限制模型规模或支持的序列长度。相比之下，解耦这些组件使得每个组件都能独立优化。AIMC 加速器可以设计成最大化存储密度并高效执行大型静态模型模型 (MVM)，而数字加速器则可以定制以处理目标应用程序序列长度下的注意力机制和键值缓存操作。

这种分离使得跨应用领域的灵活部署成为可能。在序列长度较短的边缘场景中，AIMC 加速器可以与轻量级数字处理器配合使用，以处理动态操作。在数据中心环境中，多个用户可以在 AIMC 硬件上共享静态编程的权重，而高性能数字加速器则负责管理动态工作负载，例如注意力机制和键值缓存更新。更广泛地说，将模型参数从传统内存层次结构卸载到 AIMC，可以提高数字加速器上动态工作负载的执行效率，同时提升推理静态组件的效率。

结论

AIMC 通过高效加速静态、高复用性的模型向量 (MVM：high-reuse MVMs)，为解决现代 LLM 推理的内存瓶颈提供了一条极具吸引力的途径。然而，其优势本质上受到这些工作负载中动态组件的限制，而这些动态组件在更长的序列长度下会变得越来越重要。因此，AIMC 不太可能作为独立的 LLM 推理解决方案，而更适合作为异构推理系统中的专用协处理器。

在数据中心部署中，这种分离使得推理效率更高：一方面，高效的 AIMC 用于静态计算；另一方面，通过将参数存储与动态数据解耦，更好地利用数字加速器。在边缘端，AIMC 通过提供密集的片上权重存储，能够在有限的功耗和面积预算内实现更大的模型。3D 内存集成和模拟感知训练技术的最新进展，通过解决密度和精度方面的关键挑战，进一步增强了该方法的可行性。

然而，要充分发挥 AIMC 的潜力，需要继续在设备、架构和系统的交叉领域进行研究，特别是量化其系统级价值主张，并确定最适合大规模部署的存储技术。