简介:百度百舸构建了 KV Cache 分布式缓存管理体系 AttentionStore
2026 开年,OpenClaw 的现象级爆发使大模型迅速迈入「超长上下文」时代。在几乎人人手捧「龙虾」穿梭于代码、搜索、办公自动化的当下,Token(词元)消耗成本正在迅速累积。据 OpenRouter 平台数据,2026 年 3 月单周 OpenClaw Token 消耗量占平台总量的 20%。用户实测单个会话的上下文可膨胀至 23 万 Token;重度使用场景的月成本甚至高达 800-1500 美元。
这背后,是 Agent 架构的全量记忆策略——每一轮对话请求都必须携带历史上下文,导致 Token 消耗随轮次呈滚雪球式增长。
此时,KV Cache 的管理方式便成为影响推理效率与成本的关键变量。若无法有效复用历史 KV Cache,系统将重复执行 Prefill 计算——不仅带来了不必要的 Token 成本花销,也会显著拉长首 Token 时延(TTFT)。因此,通过提升上下文缓存命中率来降低用户使用成本以及通过减少重复 Prefill 计算来降低 TTFT,成为 KV Cache 优化的核心方向。
百度百舸推出了一套自主研发的 KV Cache 系统 —— AttentionStore,并基于昆仑芯 P800 在 DeepSeek 模型上完成系统验证:在 8K+ 长上下文场景中,TTFT 实现了 2 至 5 倍的性能提升;而在 64K 长上下文场景下,TTFT 性能提升至 6.2 倍,显著增强了大模型在长上下文历史条件下的首 Token 响应能力。
接下来,我们将进一步展开 AttentionStore 在 KV Cache 多级缓存管理体系上的关键设计与工程实践。
在当前主流推理引擎(如 SGLang、vLLM 等)中,KV Cache 通常被视为一种仅存在于显存中的短生命周期数据结构。其设计目标很明确:在一次请求的解码阶段复用历史 Key / Value,避免重复计算;一旦请求结束或被调度器回收,KV Cache 便会被整体释放,以保证显存能够服务更多并发请求。
然而,随着多轮对话等长上下文场景的兴起,推理系统中所能容纳的 KV Cache 体量逐渐成为了决定系统性能的核心变量。此时,仅依靠显存承载的 KV Cache 体量远远不能满足长下文推理场景下的会话响应要求。
要准确评估 KV Cache 存储的瓶颈,就需要综合分析「单个 Token 所需的 KV 缓存开销」、「可存放 KV Cache 的显存容量」、以及「长上下文的会话长度」。
KV 缓存的计算公式如下:

其与模型规模、模型层数、数据精度、以及所采用的注意力头结构相关。
然而,在诸如 OpenClaw 等长上下文的真实业务场景中,受到多轮对话、多并发用户因素的影响,会话长度可达 64K,甚至 128K。此时,显存容量的有限空间就使得系统经常需要重新计算历史 Token 的 KV 值,引起极大的推理时延。
为了解决显存无法容纳长上下文业务场景所需存放的 KV Cache 问题,业内普遍采用了 KV Cache Offload 方案 —— 它提供了一种兼具性能与成本效益的技术路径:将历史 KV Cache 从昂贵的显存中迁移至更具性价比的存储介质(如内存、SSD 等),在会话延续时按需加载实现数据复用。然而,在将这一方案大规模落地到生产业务过程中,还需要解决三个关键问题:
正是由于上述问题的存在,KV Cache Offload 并不能仅停留在「存储迁移」层面,而必须在调度、数据通路与缓存管理机制上进行系统性升级。
在这一背景下,百度百舸构建了 KV Cache 分布式缓存管理体系 AttentionStore,并基于昆仑芯硬件平台进行了深度适配与调优。
AttentionStore 通过在推理集群层面实现多维感知与精准调度,以及在执行节点中加快缓存数据的传输效率,AttentionStore 可实现高达 80% ~ 90% 的 KV Cache 缓存命中率,大幅降低推理成本;并系统性减少重复 Prefill 计算开销,显著降低 TTFT。

为了保障 KV Cache 服务连续性,我们将 AttentionStore 与推理引擎解耦,以独立进程的形式运行在每个推理节点上,当推理进程重启、故障恢复或版本升级时,KV Cache 依旧可以稳定保存在 AttentionStore 管理的存储空间中,可在后续推理中重新加载使用。同时,AttentionStore 采用共享内存和 SSD 作为主机缓存介质,其自身重启后可通过本地索引表快速实现数据恢复,实现服务升级与维护期间业务无感切换。

在实际生产环境中,推理请求往往运行在多节点、多实例的分布式架构之上。若推理调度器对缓存分布无感知,仅依据不同实例的状态及负载等因素进行调度决策,极易出现「请求被调度至无缓存节点」的情况,从而触发完整的 Prefill 重算,使得 Offload 带来的性能收益被完全抵消。
为此,凭借行业领先的 KV Cache 多维感知,我们在推理集群内构建了实时 KV Cache 全局索引视图;并将 KV Cache 纳入调度决策,使调度从「只看资源」升级为「资源与缓存协同决策」。
最终,推理集群调度不再仅以「是否可用」为标准,而是以「是否最优」为目标——将请求优先分配至缓存命中率更高、数据加载速度更快的节点,在保障负载均衡的前提下,最大化 KV Cache 复用价值,系统性降低重复 Prefill 开销,并显著优化 TTFT 表现。
实现 KV Cache 的全局感知与精准调度,解决了长上下文推理中缓存「调度匹配」的核心问题;而在多级缓存体系中,跨介质的数据传输效率与多数据传输的并行能力,是决定 KV Cache 复用性能的另一关键因素。为此,我们通过 AttentionStore 对 KV Cache 的全生命周期数据通路进行了深度优化,构建了高效的多级缓存体系,实现跨介质数据传输的全面加速。
在典型的长文本推理场景下,KV Cache 在 HBM、DRAM、SSD 多级缓存体系中的数据流转遵循以下逻辑:

针对上述链路中的读取、写入及传输环节,我们实施了如下针对性优化:

在 PD 分离推理架构中,我们基于 DeepSeek R1 671B 模型,在昆仑芯 P800 集群环境中对 AttentionStore 的 KV Cache Offload 方案进行了系统验证。
环境及配置:2 台 Prefill 节点,TP4 / DP4 并行配置。
验证效果:

Agent 将大模型推理全面带入长上下文与多轮交互时代,百度百舸的 AttentionStore 让 KV Cache 从「短暂的显存数据结构」演进为「可持久、可调度、可规模化复用的系统资源」,通过对昆仑芯底层算力的深度调优与推理框架的无缝集成,我们成功实现了更优的 TTFT 响应与更低的成本开销,为大规模国产化算力落地构筑了坚实底座。