我们正在用一辆跑车运沙子,然后抱怨它跑得不够快。

这句话是 GPU 做 LLM 推理的最好隐喻。但要真正理解为什么,需要从计算机体系结构里一个被长期忽视的模型说起。


Roofline:一个揭穿浪费的分析框架

计算机体系结构领域有一个叫做 Roofline Model 的性能分析框架,1990 年代就已成熟,但直到 LLM 时代才真正进入大众视野。它的核心思想是:任何计算任务的实际性能,受限于两条"屋顶线"中较低的那一条——要么是芯片的峰值算力(Ops/s),要么是内存带宽乘以程序的算术强度(Arithmetic Intensity × Bandwidth)。

算术强度是这个框架的关键参数,定义是:完成一个计算任务,每从内存读取 1 字节数据,能做多少次浮点运算(Ops/Byte)。算术强度高的任务(比如大矩阵乘矩阵)是计算密集型(compute-bound),芯片算力是瓶颈;算术强度低的任务(比如矩阵向量乘)是内存密集型(memory-bound),内存带宽是瓶颈。

A100 GPU 的"屋顶拐点"在 312 TFLOPS / 2 TB/s = 156 Ops/Byte——只有算术强度超过 156 的任务,才能真正把 A100 的算力喂饱。低于这个值的任务,芯片在等数据,算力白白浪费。

LLM 的推理过程分两个截然不同的阶段,Roofline 视角下完全是两个世界。

Prefill 阶段:处理用户输入的全部 prompt,把 N 个 token 的序列一次性并行处理,生成每个 token 的 Key 和 Value(KV Cache)。核心操作是矩阵乘矩阵(GEMM,General Matrix-Matrix Multiplication)。对于一个序列长度为 L、隐层维度为 D 的输入,计算量是 $O(L \cdot D^2)$,而权重只需要读一次($O(D^2)$),算术强度随序列长度线性提升,Prefill 阶段算术强度可以达到数百 Ops/Byte,GPU 是合适的硬件。

Decode 阶段:一个 token 一个 token 地自回归生成答案。每步只有 1 个新 token(batch size = 1 时),核心操作退化为矩阵向量乘(GEMV,General Matrix-Vector Multiplication)。整个模型的权重(几十到几百 GB)必须完整地从 HBM 读出来,而有效计算量只有 $2D^2$ 次乘加(其中 D 是隐层维度)。算术强度 ≈ $\frac{2D^2}{2D^2 \times \text{bytes_per_param}}$,对于 FP16 参数(2 字节)结果是 1 Ops/Byte 量级;加上 batch 和 KV Cache 的读写,Llama 2 7B 在实际 Decode 场景的综合算术强度约 16 Ops/Byte

把这两个数字放在一起:A100 需要 156 Ops/Byte 才能吃饱,LLM Decode 只给 16 Ops/Byte。GPU 实际利用率不到 10%,其余 90% 的算力在等内存数据搬运。这不是软件优化能解决的问题——无论 FlashAttention 还是 vLLM 的 PagedAttention,都无法从根本上改变 GEMV 的算术强度特性。这是 GPU 架构和 LLM Decode 工作负载之间的结构性错配

有人会说,增大 batch size 不就可以了?从 Roofline 的角度,batch size B 的 GEMV 是 batch GEMV,算术强度从 16 提升到 16B,当 B 超过某个阈值(约等于 156/16 ≈ 10),就能从 memory-bound 进入 compute-bound 区间。但这里有一个来自 KV Cache 的硬约束:每个用户的对话有独立的 KV Cache,其大小正比于上下文长度。128K token 的上下文,单个请求的 KV Cache 在 LLaMA-3 70B(head dim 128,32 heads,80 layers)下约为 2 × 128K × 80 × 32 × 128 × 2 bytes ≈ 85 GB——已经超过一张 H100 的全部 HBM。多个请求并发时显存很快耗尽,实际在线服务的 batch size 往往被压缩到个位数,GPU 永远无法脱离 memory-bound 状态。

这个矛盾,就是过去三年推理硬件创新的真正起点。


硬件创新的六条赛道

清楚了根本矛盾,就能理解为什么当前的推理硬件创新呈现出"百花齐放"的格局——不同的团队,从不同的角度攻击同一个问题。

第一条路:算力专用化。 Groq 的 LPU(Language Processing Unit)彻底抛弃了 GPU 的乱序执行和动态调度,用确定性的静态数据流(类似 VLIW)代替,所有操作在编译期排布好,运行时零调度开销。代价是灵活性——算子融合和内存访问模式必须在编译时固定。好处是在 Decode 这种完全静态的计算图上,内存访问节奏可以精确预测,带宽利用率接近理论峰值,实测小 batch 推理可达 500+ tokens/s/用户,是 GPU 的数倍。Etched 的 Sohu 走得更激进,把 Transformer 的 attention 矩阵维度直接烧进 ASIC 硅片,每个 attention head 有专属的计算通路,这意味着换一个不同 head size 的模型,芯片就废了,但在特定配置下效率极致。Cerebras 的 WSE-3(Wafer Scale Engine 3)用 900 亿个晶体管覆盖整片 12 英寸晶圆,消灭芯片间通信——模型权重常驻片上 SRAM(44 GB),不再需要 HBM,从源头切断了内存带宽瓶颈。

第二条路:光互联。 当模型大到需要跨机并行推理,铜线 NVLink 和 InfiniBand 的功耗和延迟就成了新瓶颈。Silicon Photonics 和 Co-Packaged Optics(CPO)把光收发器做进芯片封装,100 Gbps 以上的光通道功耗只有铜线的 1/5 到 1/10。Nvidia 在 GB200 的 NVLink 互联上已经引入了部分光通道,Intel 的 Falcon Shores 规划了大规模 CPO 部署,2026-2027 年这条路会有更多量产落地。

第三条路:量化与稀疏化的硬件协同。 降低每个参数的位宽是最直接的带宽削减手段:FP16 → FP8,带宽压力减半,H100 原生支持 FP8 GEMM,吞吐是 BF16 的 2 倍。FP4 进一步将参数压缩到 4 位,理论带宽消耗是 FP16 的四分之一。模拟内存计算(Analog In-Memory Computing,AIMC)走得更极端——用 PCM(相变存储器)或 RRAM 的器件电导值存储权重,读操作直接触发模拟乘法(电流 = 电压 × 电导),整列的乘加操作在一次读操作中完成,原理上每次内存访问的有效算术强度接近无穷大。主要挑战是模拟器件的精度噪声(通常只有 4-6 bit 有效位),以及写入寿命问题。

第四条路:异构内存层级。 这是本文要重点展开的方向,也是当前最接近规模落地的路径。核心主张是:与其假装单一 HBM 能解决一切,不如构建 SRAM → HBM → LPDDR/CXL DRAM → Flash → 网络存储的多级体系,让合适的数据住在合适的层级上,冷热分离,各取所需。这条路又分叉出两种截然不同的哲学——Nvidia 的"存储服务算力"路线,和 PIM 阵营的"计算服务数据"路线。


PIM 的技术本质与落地现实

Processing-In-Memory 这个词已经被用了三十年,但不同时期指的其实不是同一件事,有必要先把技术层次理清楚。

从制造工艺的角度,PIM 有三种实现路径,性能和成本差异极大。

第一种:近存计算(Processing-Near-Memory,PNM)。 计算单元在内存芯片的外侧,用标准 CMOS 逻辑工艺制造,通过内存控制器总线访问数据。三星在 HBM-PIM(Aquabolt-XL)里的做法接近这个路线——在 HBM 堆叠封装内部的逻辑基底层(Logic Die)上集成了 SIMD 计算单元。逻辑基底本来就是用逻辑工艺制造的,所以加计算单元不影响内存制程。代价是逻辑基底面积有限,能放下的计算单元数量受约束。

第二种:近 Bank 计算(Processing-In-Memory,狭义 PIM)。 计算单元直接挨着每个 DRAM Bank 放置,数据不需要离开 Bank 就能被处理。UPMEM 的 DPU 和 SK 海力士 GDDR6-AiM 的 MAC 单元都属于这个类别。问题是 DRAM Bank 用的是 DRAM 工艺(6T SRAM 或更简单的 1T1C 结构),这种工艺的晶体管密度很低,每个 Bank 旁边只够放非常简单的计算逻辑。另外在 DRAM 阵列中集成计算单元会降低内存密度——用于计算的面积本来可以放更多存储单元。这是一个根本性的设计权衡:计算能力越强,每单位面积能存的数据就越少,内存容量越低。

第三种:模拟计算(Compute-in-Memory,CiM)。 利用内存器件(PCM、RRAM、SRAM)本身的物理特性做计算,读操作触发模拟乘法,完全无需数据移动。原理上效率最高,但精度控制和工艺成熟度是工程挑战。

理解了这三种路径,再看各家产品就清晰很多。

UPMEM 是目前全球唯一大规模商用的通用 PIM 产品。他们把处理器核(DPU)嵌入标准 DDR4 DIMM 模组,每根 DIMM 含 16 颗内存芯片,每颗芯片 8 个 DPU,共 128 个 DPU,每个 DPU 直接访问旁边 64 MB 的 DRAM Bank,不走内存总线。DPU 是一个简单的 RISC 核,有 24 个硬件线程,时钟频率约 450 MHz,运算能力大约相当于一颗 2005 年的单核 CPU。听起来不强,但它的关键优势是数量位置——单机 20 根 DIMM 就有 2560 个 DPU,每个 DPU 旁边就是它处理的数据,内存带宽从主机侧看是约 50 GB/s,但 DPU 内部的有效带宽接近 1 TB/s(2560 个 DPU 各自的本地带宽之和)。

UPMEM 主要落地场景是数据库扫描、基因组序列比对、向量搜索(ANN),这些场景的共同特征是:读取大量数据,每字节数据只做极简单的运算(比较、哈希、距离计算),算术强度极低,正是 PIM 的甜区。2025 年预计收入约 3000 万美元,算是真正意义上的商用了,但规模还很小。

SK 海力士 AiMX 走的是 GDDR6-AiM 路线,在 GDDR6 显存芯片内部的每个 Bank Group 旁边集成了 MAC(乘累加)单元,专门加速 FP16 的向量-矩阵乘法。和通用 DPU 不同,AiM 的计算单元是固定功能的 SIMD 阵列,不可编程,只会做 MAC。这意味着它能做的事情很集中:LLM Decode 阶段的 GEMV,以及 Attention Score 的计算。做成加速卡(AiMX)后,定位是 GPU 推理系统的 Attention 卸载搭档,而不是 GPU 的替代品。截至 2025 年底,AiMX 仍处于客户验证阶段,没有进入数据中心大规模部署。

三星 HBM-PIM(Aquabolt-XL) 是另一条 HBM 内集成计算单元的路线。2022 年与 Xilinx 合作验证,在 Transformer 推理上实测能效提升约 2.5 倍。但随着三星战略重心转向 HBM3E/HBM4,HBM-PIM 的推进明显放缓,相关团队重组,产品化时间表不明确。

落地慢的根本原因有三层。编程模型碎片化是最表层的阻碍:现有的推理框架(PyTorch、vLLM、SGLang)完全不认识 PIM 设备,要集成进去需要在框架层新增一套算子分发逻辑,工作量不亚于支持一个新的硬件后端。UPMEM 为此开发了一整套 SDK 和 DPU 专用编译器,但开发者需要手动管理 Host 和 DPU 之间的数据传输,心智模型和 CUDA 完全不同。内存一致性是中层的系统挑战:当 PIM 内部计算还在进行时,Host CPU 或 GPU 同时访问同一块内存,谁的视图是"正确"的?在多个 PIM 设备通过 CXL 互联的场景下,维护缓存一致性的协议开销可能反而抵消了 PIM 的带宽优势,需要精心的系统级设计。商业生态的路径依赖是最深层的阻力:CUDA 的编程模型已经有数千个算子库、十几年的优化积累,没有一个推理服务商会在没有生产压力的情况下主动引入一套新的硬件抽象。


GPU-free 推理:三种系统设计的演进

理解了上述背景,学术界三个主要 GPU-free PIM 推理系统的设计选择就有了明确的技术逻辑。

CENT:层次化 PIM-PNM 的完整架构

CENT(CXL-ENabled GPU-Free sysTem)是密歇根大学 Reetuparna Das 团队在 ASPLOS 2025 发表的工作,是迄今学术界最完整的 GPU-free PIM 推理系统。

系统采用三层层次化结构,每一层对应一种计算粒度。

最底层是 GDDR6-PIM 芯片(对应 SK 海力士 AiM 的同类结构),每颗芯片内每个 Bank Group 旁边有一个近 Bank 处理单元(NBP,Near-Bank Processor)。NBP 用内存工艺制造,只能做简单的 FP16/INT8 MAC 运算,但离数据极近,内部带宽是外部带宽的数十倍。16 颗这样的芯片组成一个 CXL 设备,设备内部的 16 颗芯片通过一条高带宽 Shared Buffer 互联,Buffer 旁边挂着 PNM 单元(Processing-Near-Memory Unit),用标准 CMOS 逻辑工艺制造,可以做 Softmax、LayerNorm 等 NBP 做不了的复杂运算,以及跨芯片的 All-Reduce 规约。整个 CXL 设备通过 CXL 3.x 协议对外暴露为一块内存设备,Host CPU 通过 CXL Switch 连接多个这样的设备。

这里有必要解释一下 CXL 协议在这里的作用。CXL(Compute Express Link)是一套建立在 PCIe 物理层之上的高速互联协议,核心能力是让 CPU 和 CXL 设备之间共享一个统一的内存地址空间(这是 CXL 2.0 的内存扩展功能,Type 3 设备)。更重要的是,CXL 3.0 引入了 P2P(Peer-to-Peer)通信,允许 CXL 设备之间直接传数据,不需要通过 Host CPU 中转——这对于 Transformer 的跨设备 All-Reduce 非常关键,否则每次层间同步都要绕一大圈。CENT 的整个多设备通信层就建立在 CXL P2P 之上。

工作负载映射是 CENT 设计的精髓。Transformer 的每一个 decoder block 被切片分配到所有 CXL 设备(张量并行,Tensor Parallelism):权重矩阵按列或行切分,每台设备持有一份分片,权重常驻在自己的 PIM 芯片里,推理期间不再搬运。Decode 阶段的 GEMV 就在持有对应权重分片的 PIM NBP 上完成,中间结果在 PNM 单元做规约后经 CXL P2P 传递给邻居设备,继续下一层的计算。KV Cache 同样就近存储在每个 CXL 设备上,按请求的 ID 哈希分配,Host CPU 负责全局的调度和 KV Cache 的生命周期管理。

实测结果对比同等功耗预算的 A100 GPU:吞吐量 2.3×、能耗 2.3× 更低、TCO(总拥有成本,即每花一美元能生成的 token 数)5.2× 更高。TCO 这个指标是最有商业说服力的——它意味着在相同的推理服务账单下,CENT 可以服务五倍多的用户请求。

AttAcc:异构协同的工程务实主义

首尔大学团队在 ASPLOS 2024 发表的 AttAcc 选择了一条工程阻力更小的路:不全部替换 GPU,而是让 GPU 和 PIM 各自做自己算术强度匹配的那部分。

Transformer block 的计算可以按算术强度自然分成两类。FFN 层(Feed-Forward Network,两个线性变换加激活函数)的权重矩阵形状是 [D, 4D][4D, D],在 batch size B 的情况下,输入是 [B, D],GEMM 的算术强度是 2D × B / 2D = B,即算术强度随 batch size 线性增长,当 B 足够大时 GPU 利用率尚可。Attention 层的情况完全不同——每个用户的对话有独立的 KV Cache,KV Cache 的维度是 [ctx_len, num_heads, head_dim],对每个请求的注意力计算是独立的,无法在 batch 维度上共享内存读取。无论 batch size 多大,Attention 层读取 KV Cache 的操作算术强度都约为 1 Ops/Byte(每读一个 KV 向量,只做一次点积),永远是 memory-bound,GPU 永远低效。

AttAcc 的切分策略:GPU 负责 FFN 层(batch 大时尚可),PIM 负责 Decode 阶段的 Attention(无论如何都是 memory-bound,是 PIM 的甜区)。两者通过高带宽互联传递 Attention 的输入向量和输出结果。这个设计的优雅之处是:即使 PIM 硬件出问题,可以退回全 GPU,系统不会崩溃;而且对现有 GPU 推理框架的侵入最小,只需要把 Attention 算子路由到 PIM 设备即可。实测:性能 2.81×、能耗降低 2.67×

SK 海力士 AiMX 的"Attention 卸载"方案,从系统设计角度看就是 AttAcc 的商业化。这也是目前最接近近期可落地的 PIM 推理路径——不需要颠覆整个推理栈,只需要在 Attention 算子层面做一次硬件替换。

HALO:用 2.5D Chiplet 同时解决 Prefill 和 Decode

2025 年 10 月,一篇预印版论文 HALO(Heterogeneous Architecture for Low-latency LLM Offloading)把问题推进了一步:CENT 全部用数字 PIM 处理两个阶段,在 Prefill 阶段其实不够高效(Prefill 是计算密集型,数字 PIM 的 MAC 单元密度不如专用计算芯片);AttAcc 只处理了 Decode 阶段,Prefill 仍跑在 GPU 上。HALO 试图用一个封装同时优化两个阶段。

HALO 的结构是一个 2.5D Chiplet 封装,把两类截然不同的计算单元通过 Silicon Interposer 集成在同一个封装基板上:模拟 CiM 芯粒(Analog Compute-in-Memory die)处理 Prefill 阶段的 GEMM,利用 SRAM 的位线模拟乘法,单位面积的乘加密度远超数字逻辑,且 Prefill 的数据复用率高(权重矩阵只需加载一次就能服务整个输入序列),功耗极低;数字 CiD 芯粒(Digital Compute-in-DRAM die)处理 Decode 阶段的 GEMV,保持数字精度,避免模拟噪声的精度损失。两类芯粒通过 Silicon Interposer 上的高带宽互联交换中间结果。

相比 CENT,HALO 的推理能耗再降低 1.8×,主要来自 Prefill 阶段在模拟 CiM 上的数据复用优化。模拟 CiM 面临的挑战依然是精度控制——大多数 Analog CiM 实现只有等效 4-6 bit 的计算精度,用于 LLM 推理时需要额外的误差补偿机制,IBM Research 和 ETH Zürich 的相关团队正在这个方向努力。如果精度问题被解决,HALO 的架构方向可能代表着 LLM 推理专用芯片的最终形态:Prefill 走模拟高效,Decode 走数字近存。


Nvidia 的应对:不做 PIM,构建更深的内存层级

Nvidia 对上述研究方向心知肚明——Jensen Huang 团队持续关注 ASPLOS/ISCA/MICRO 的相关论文。但他们的选择是不跟这条路走,而是用另一套体系应对同样的挑战。理解 Nvidia 的选择,需要同时看三层:架构层、商业层、和生态层。

Grace Hopper GH200 是 Nvidia 在内存架构上最早的大动作。GH200 把 Grace ARM CPU(72 核 Neoverse V2)和 Hopper H100 GPU 通过 NVLink-C2C 封装在同一个 MCM 基板上,CPU 侧配备 480 GB LPDDR5X(带宽 512 GB/s),GPU 侧 96 GB HBM3(带宽 4 TB/s),两者通过 900 GB/s 的 NVLink-C2C 互联,实现统一的内存地址空间(ATS,Address Translation Services),GPU 可以直接用指针访问 CPU 侧的 LPDDR5X 数据,无需显式 cudaMemcpy。

这个设计的实际效果:对于 70B 参数模型(FP16 约 140 GB),H100 的 80 GB HBM 装不下整个模型,需要多卡张量并行,带来通信开销;GH200 的有效内存是 96 + 480 = 576 GB(GPU 访问 LPDDR5X 有带宽损耗,但可以装更大的 KV Cache),实测推理吞吐比 H100 高约 1.8×,主要来自更高的有效 batch size 和更少的多卡通信开销。GH200 的逻辑是"用 LPDDR5X 的大容量换 HBM 的高带宽",CPU 侧内存作为热 KV Cache 的临时暂存区,而不是做计算的地方。本质上还是"存储服务算力"。

Dynamo 推理框架是软件层面把 GH200 的内存层级优势系统化的产品。Dynamo 在 KV Cache 管理上实现了分层卸载:活跃的 KV Cache 留在 HBM,近期不用的卸载到 LPDDR5X(GH200 上)或 Host DRAM,更冷的序列化到本地 NVMe SSD,最终通过 ICMS 层(下文)卸载到 Pod 级闪存。Prefill 和 Decode 被调度到不同的 GPU 节点——这在软件层模拟了 AttAcc 的思路,但代价是需要在 Prefill 节点和 Decode 节点之间传递 KV Cache,有网络开销。Dynamo 还集成了 Continuous Batching、Speculative Decoding 和 Chunked Prefill 等若干优化,是目前 Nvidia 生态最完整的推理框架。

ICMS(Inference Context Memory Storage)是 Jensen Huang 在 CES 2026 主题演讲宣布的,是 Nvidia 对 KV Cache 内存压力的最新架构级回应。ICMS 定义了一个新的内存层级,叫 G3.5——位于 HBM(G1)、DRAM(G2)、本地 SSD(G3)之后,是一个Pod 级共享的闪存层。每个 GPU Pod(通常是 8 卡或 16 卡节点)里部署一台专用的 ICMS 服务器,硬件核心是 BlueField-4 DPU,搭配高速 PCIe 5.0 SSD。所有 GPU 节点通过 RDMA(RoCE 或 InfiniBand)直接访问 ICMS 的 KV Cache,BlueField-4 的 DPU 核负责索引查询和数据路由,GPU 无需通过 CPU 中转。官方宣称 tokens/s 和每 token 能效各提升 (相比没有 ICMS 的基线)。

ICMS 的设计精妙之处在于它解决了 KV Cache 跨请求复用的问题。两个用户发出了相同的系统 prompt(比如都在用同一个 RAG 应用),他们的 KV Cache 前缀完全相同,如果两者都存在 ICMS 里,第二个请求可以直接复用第一个请求的前缀 KV Cache,跳过对应的 Prefill 计算,显著降低 TTFT(Time to First Token)。这个场景在 B2B SaaS 推理服务里尤为常见,是 ICMS 最有力的商业论据。

为什么 Nvidia 不做 PIM 本身? 这个问题有三层答案,每层都很重要。

商业层:如果 Nvidia 要求 HBM 内部集成计算单元,意味着内存厂商(SK 海力士、三星)的 HBM 设计必须满足 Nvidia 的计算接口规格。谁的 PIM 设计更好,谁的 HBM 就更受 Nvidia 欢迎,内存厂商就有了对抗 Nvidia 的议价筹码。更糟糕的是,如果 PIM 的接口标准化(比如 JEDEC 制定 HBM-PIM 标准),AMD 和 Intel 也能用同样的 PIM HBM,Nvidia 的硬件护城河就被削平了。Nvidia 宁愿让 HBM 保持"哑内存",靠 NVLink 互联体系和 CUDA 生态维持差异化。

技术层:CUDA 的编程模型建立在一个假设上:内存是被动的,计算发生在 GPU 核心上。如果 HBM 内部有可编程的计算单元,CUDA 就需要新增一套 API 来感知和调度这些单元,不同 HBM 制造商的 PIM 架构还可能不同,CUDA 的可移植性承诺就成了空话。Nvidia 花了二十年建立的 CUDA 生态,不会为了 PIM 的性能增益而引入碎片化。

哲学层:Nvidia 始终认为,随着 HBM 带宽不断提升(HBM3E 是 1.2 TB/s,HBM4 预计达 2.4 TB/s),memory wall 问题会被带宽的提升所缓解。这个判断在训练场景基本成立,在 Decode 场景则是错的——因为 Decode 的 memory-bound 来自 KV Cache 的个性化(无法共享),不是带宽本身的绝对值问题,哪怕带宽翻倍,算术强度还是 16 Ops/Byte,Roofline 的 "屋顶" 依然没有被触碰到。


两种哲学的本质差异

到这里,我们可以把 Nvidia 路线和 PIM 路线的核心分歧表述得更精确一些。

Nvidia 的路线是延伸计算臂的触达范围:GPU 是大脑,内存层级是它的延伸,无论 HBM、LPDDR5X、ICMS 闪存,都是 GPU 伸出去拿数据的手,只是手臂长短和速度不同。这套范式的极限是:当 KV Cache 大到 Flash 也放不下(或 Flash 延迟太高满足不了在线推理 SLA),整个体系就遇到天花板。

PIM 的路线是让计算去找数据:数据在哪里,计算就在哪里发生,不搬数据,只搬指令和极小的中间结果。这套范式的极限是:编程模型太复杂,异构设备太多,现有软件栈难以驾驭。

这两种哲学不是谁对谁错的关系,而是对不同规模和场景的不同取舍。Nvidia 的路线在现有生态下阻力最小,短期是赢家;PIM 路线在 KV Cache 规模继续膨胀的趋势下有结构性优势,长期有空间。

一个值得关注的细节是:两条路线正在悄悄靠近。Dynamo 的 Prefill/Decode 分离调度,其实在软件层实现了 AttAcc 的核心思想——让 Decode 在更"靠近内存"的节点上运行(比如 GH200 这种内存容量大的节点)。ICMS 的 BlueField-4 DPU 上有 ARM 核,理论上可以做一些 KV Cache 的预计算(比如 prefix 匹配、压缩解压),这是一种受限的 PNM。两者在某个未来交汇点上,可能出现一种既有 Nvidia 生态优势又有 PIM 带宽优势的混合架构。Samsung 和 SK 海力士也在联合推进 LPDDR6-PIM 标准化(JEDEC),如果标准落地,Nvidia 被迫支持也不是不可能。


未来三年的走势判断

有几件事可以说得比较确定。

Prefill/Decode 分离会在 2026-2027 年成为推理系统部署的标准形态,无论是 Nvidia Dynamo 的软件分离,还是物理上把 Decode 任务卸载到 AiMX 类设备。这一点几乎没有争议——两个阶段的计算特性差异太大,用同一套资源服务两种截然不同的工作负载是低效的妥协。

KV Cache 的内存压力会在 2026-2027 年达到临界点。 当前的 Agent 系统和长上下文应用(百万 token 上下文)已经在把 HBM → DRAM → SSD 的多级卸载逼到极限。ICMS 是一个应急方案,但闪存的延迟(微秒级)和 HBM 的延迟(纳秒级)之间有三个数量级的差距,对于在线推理服务,这个差距在上下文非常长时会变成明显的 TTFT 劣化。这个压力会逐渐打开 CXL PNM 方案的市场空间。

不太确定的有两件事。AiMX 类 PIM 加速卡的真正落地时间线,最大的卡点不是硬件,是 vLLM/SGLang 的适配——这取决于 SK 海力士的生态投入力度。我估计 2027 年会有第一批生产级部署,2028-2029 年才可能规模化。CXL 3.0 设备的实际延迟表现是另一个未知数——学术论文里的 CXL 延迟模型普遍乐观,实际硅片上的延迟往往有 1.5-2 倍的惩罚,这直接影响 CENT 类系统的实际 tokens/s 和在线推理 SLA 的合规性。2026-2027 年的生产级 CXL 3.0 设备会给出这个问题的真实答案。

最值得警惕的是一个技术之外的变量:模型架构的演变方向。如果未来的主流模型走向更激进的稀疏化(比如 MoE 的极端形式,每次推理只激活参数的 5%),算术强度会进一步降低,memory-bound 问题更严重,PIM 的优势窗口进一步打开。反过来,如果量化技术(FP4/INT4 甚至 INT2)足够成熟,模型在 HBM 里放得下更大的 batch,算术强度提升,memory wall 被缓解,Nvidia 的路线更有利。

从更大的尺度看,整个行业正在经历一次范式切换——从"算力为中心"转向"内存为中心"的计算架构观。这种切换不会是突然发生的,就像 PCIe 被 NVLink 取代一样,是在若干关键节点上悄悄完成的。理解这个转变背后的物理约束(算术强度、Roofline、内存带宽)和商业约束(CUDA 生态、供应链话语权、编程模型迁移成本),是接下来几年做系统架构决策的最重要背景知识。


参考

  • Gu et al., PIM Is All You Need: A CXL-Enabled GPU-Free System for LLM Inference, ASPLOS 2025
  • Ham et al., AttAcc! Unleashing the Power of PIM for Batched Transformer-based Generative Model Inference, ASPLOS 2024
  • Negi et al., HALO: Memory-Centric Heterogeneous Accelerator with 2.5D Integration for Low-Batch LLM Inference, arXiv 2025
  • Williams et al., Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures, CACM 2009
  • NVIDIA, Introducing NVIDIA BlueField-4-Powered Inference Context Memory Storage Platform, developer.nvidia.com, 2026
  • UPMEM, Scale Big Data & AI with PIM-DRAM, ICOS 2023