扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.56版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 Kimi新论文:把KVCache玩成新商业模式了

股市情报:上述文章报告出品方/作者:量子位;仅供参考,投资者应独立决策并承担投资风险。

Kimi新论文:把KVCache玩成新商业模式了

时间:2026-04-19 15:52
上述文章报告出品方/作者:量子位;仅供参考,投资者应独立决策并承担投资风险。


把长上下文做到极致的Kimi又发新成果!

这一次瞄准的是大模型推理架构跨机房调度沉疴。

他们提出了一套全新范式,Prefill-as-a-Service(简称PrFaaS),预填充即服务。

其核心突破是让KV Cache可以跨数据中心传输,把Prefill和Decode彻底解耦到不同的异构集群。

有了PrFaaS,Prefill和Decode之间可以跨越城市、跨地域调度。

而且,面对长文本场景,上下文越长,它的优势越明显。

可以说是长上下文场景天生圣体(doge)!

这项工作由月之暗面和清华大学清华大学郑纬民院士、武永卫教授团队联合推出

在内部1T参数混合注意力模型的实测验证下,这套PrFaaS-PD架构交出了极具说服力的数据。

相比传统同构PD部署,吞吐量提升54%,P90延迟大幅降低64%;即便对比未做智能调度的朴素异构方案,吞吐量依然提升32%。

而跨数据中心传输仅占用13Gbps带宽,远低于100Gbps的以太网上限,也就是说普通商用以太网即可稳定承载

这背后是怎么做到的?

为什么必须跨数据中心?

Prefill-Decode分离是大模型推理服务的行业标配。

但这让KV Cache传输高度依赖RDMA网络,牢牢地把Prefill和Decode两个阶段强行绑定在单一集群内

解绑单飞不了,压根儿解绑单飞不了。

于是,如果最适合做Prefill的算力芯片和最适合做Decode的带宽芯片不在一个机房,是异地恋的状态,就根本没办法一起用。

但强行把异构硬件塞到一起,必然导致资源配比完全僵死。

大家都知道流量是波动的。配比如果定死,很容易出现一边忙到飞起,一边闲成狗的情况出现,算力利用率大打折扣。

导致这个情况的“病灶”,就是就是KV Cache的带宽墙

研究团队在这项工作中给出了量化数据。

以MiniMax-M2.5这款典型的dense GQA架构模型为例——

在32K上下文时,单实例产生KV Cache的速率达到60Gbps,而跨数据中心以太网带宽通常只有10-100Gbps,相当于后者试图用家用小水管来扛消防水带的流量,根本带不动。

因此,为了保证推理不被卡住、不出现等待延迟,Prefill与Decode 之间必须使用高带宽、低时延的RDMA网络进行通信。

这就是传统PD分离架构只能被限制在RDMA域内的根本原因。

不过,新一代混合注意力架构带来了转机

近期,Kimi Linear、Qwen 3.5、MiMo-V2-Flash、Ring-2.5等模型齐刷刷用上 了线性注意力 全注意力混合架构。

在这种混合架构下,线性层只产出固定大小的循环状态,不随上下文变长而膨胀;只有全注意力层才会生成和长度相关的KV Cache。

它带来了喜人的效果。在32K上下文下:

  • MiMo-V2-Flash的KV吞吐量仅4.66Gbps,比起MiniMax-M2.5来降了13倍;
  • Qwen3.5-397B的8.25Gbps相比同规dense模型的33.35Gbps,降低4倍;
  • Ring-2.5-1T的MLA压缩叠加7:1混合比例,整体KV内存节省约36倍。

“线性注意力 全注意力”混合架构把KV吞吐量从RDMA级别降到了以太网级别。

跨数据中心做PD分离,终于从不可能变成了可能。

推出破局方案“PrFaaS ”

光有模型架构还不够,想真正落地跨数据中心推理,还需要一套能把 “有可能” 变成 “能用” 的系统架构。

针对这一点,清华联合月之暗面团队推出了PrFaas

PrFaaS即Prefill-as-a-Service,翻译过来叫预填充即服务。

它是一种跨数据中心的大模型推理服务架构,核心是将长上下文请求的Prefill计算,选择性卸载到独立的、算力密集型的专用集群完成,再把生成的KV Cache通过普通以太网传输到本地PD集群执行Decode。

具体来说,系统会设一个动态长度阈值t。

如果是短请求(未缓存长度≤t),就老老实实留在本地PD集群跑完整个流程。

只有长请求(未缓存长度 > t)才会被送到专门的PrFaaS集群做Prefill,生成的KV Cache再通过以太网传回本地做 Decode。

值得注意的是,阈值t会跟着实时带宽、请求长度分布自动调整。

整套架构由三大子系统紧密配合。

第一,计算层。

PrFaaS集群上,H200这类高端芯片,只啃长上下文Prefill硬骨头;而本地PD集群去用H20这类带宽优化芯片,专心做Decode、处理短请求。

术业有专攻,两类硬件各自独立扩容,不再强行配对。

第二,网络层。

集群内部用RDMA保证低延迟,跨数据中心就用VPC或专线,走通用以太网传KV Cache,以此大幅降低部署难度和成本。

研究人员表示实测环境是100Gbps VPC。这虽然远低于RDMA的800Gbps,但足够用了。

第三,存储层,这也是最有意思的子系统。

团队设计了一个混合前缀缓存池,把KV Cache分成两类。

一类是prefix-cache块,另一类是transfer-cache块。

prefix-cache块在集群内复用,必须块对齐才能命中;transfer-cache块则专门用于跨集群传输,传完即弃,不占用长期存储。

为什么这样设计?

因为混合模型的KV Cache是heterogeneous的。

线性层的recurrent state是request-level,大小固定,必须完全匹配才能复用;全注意力层的KV Cache是block-level,支持部分前缀匹配。

而统一池化管理,既能高效复用本地缓存,又能灵活支持跨集群传输。

此外,为了稳住生产环境,PrFaaS还设计了双时间尺度调度算法

简单理解一下,就是短期毫秒级做带宽 缓存感知路由,长期分钟级做流量驱动的资源重分配。

短期调度监控PrFaaS出口利用率,接近阈值时提高t、减少跨中心流量。

对于带前缀缓存的请求,调度器会权衡缓存命中位置和带宽可用性。如果带宽紧张,优先用本地缓存;如果带宽充裕,可以从远程集群拉缓存来减少重复计算。

长期调度观察各阶段的队列深度和利用率。

当Prefill成为瓶颈时,把PD集群的节点从Decode角色转为Prefill角色;当Decode成为瓶颈时,反向调整。

这种动态重分配让系统能适应流量模式的缓慢变化。

理论可行,同时工程可用

为了验证跨数据中心 KV Cache传输与PrFaaS架构的真实落地能力,研究团队基于生产级配置开展了严格的对照实验,完整还原了异构硬件、跨域网络与真实长上下文流量的组合场景,让方案从架构设想变为可量化、可复用的工程实践。

实验选用团队内部自研的1T参数混合注意力架构模型,整体设计对齐Kimi Linear架构,采用线性注意力层与全注意力层7:1的混合配比。

此外,在保持模型能力的同时实现KV Cache的高效压缩,为跨数据中心传输奠定基础

硬件层面,团队采用了典型异构组合。

专门负责长上下文Prefill的PrFaaS集群配备32张H200,凭借更强算力吞吐处理高负载计算;本地PD集群配备64张H20 GPU,面向Decode阶段优化内存带宽,兼顾短请求Prefill与全流程推理。

网络层面,团队采用跨数据中心通用方案,通过VPC对等连接提供约100Gbps的跨集群带宽,完全贴合主流云厂商与多数据中心部署环境。

实验workload采用截断对数正态分布的请求长度,均值约27K tokens,高度贴近线上长上下文服务的真实流量特征。

实验结果证明了PrFaaS-PD架构的工程有效性。

在核心性能指标上,相比同等硬件规模的同构PD集群,PrFaaS-PD架构将服务吞吐量提升54%;相比未做智能调度的简单异构部署,吞吐量仍有32%的提升。

在端到端延迟上,PrFaaS-PD架构带来的优化效果更为显著,P90 TTFT(首词时延)降低幅度达64%,长请求不再与短请求争抢本地Prefill资源,排队阻塞与计算拥堵问题大幅缓解。

更关键的是工程可行性指标。

PrFaaS集群的平均出口带宽仅13Gbps,在100Gbps的跨集群链路中占比仅13%,留有充足的带宽冗余,完全不会出现拥塞与链路抢占。

实验结果证实,在混合模型与PrFaaS调度的协同下,KV Cache传输可以不再依赖 RDMA,普通商用以太网即可稳定支撑。

论文团队成员介绍

这项研究由月之暗面与清华大学联合完成

作者包括Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu、Yongwei Wu、Weimin Zheng、Mingxing Zhang(通讯作者)

其中,研究团队成员中来自月之暗面的,有Ruoyu Qin、Weiran He、Yaoyu Wang、Zheming Li、Xinran Xu五位。

一作Ruoyu Qin(秦若愚),是清华大学计算机科学与技术系MADSys实验室在读博士生,师从本文通讯作者、清华大学计算机系副教授Mingxing Zhang(章明星),后者长期面向KV Cache架构与分布式推理。

同时,Qin也在月之暗面工作,还是Mooncake分布式推理系统的一作。

月之暗面工程副总裁Xinran Xu(许欣然)也在作者名单之列。

量子位发现,作者名单中月之暗面的五位,同样也是Mooncake架构的核心贡献者。

除上述的教授章明星外,研究团队中来自清华大学的作者还有Yongwei Wu和Weimin Zheng。

Weimin Zheng(郑纬民),中国工程院院士,清华大学计算机系教授,长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作

Yongwei Wu(武永卫)是清华大学计算机科学与技术系副主任、教授、博士生导师,此外还担任AI Infra公司趋境科技的首席科学家。

此前,月之暗面与清华大学MADSys实验室联合主导研发并开源了Mooncake项目,趋境科技是该项目核心共建单位与深度贡献者

股票复盘网
当前版本:V3.0