Prefix Cache特性介绍

当前大语言模型推理系统普遍采用KV Cache缓存机制，但该机制存在以下两个问题：

Prefix Cache通过RadixTree保留session结束后的KV Cache，新的session请求在RadixTree中查找是否存在相同的Token序列，即可复用之前计算好的KV Cache，从而实现跨session的KV Cache复用。

其优势主要包括：

更短的prefill时间：由于跨session的重复token序列对应的KV Cache可以复用，那么就可以减少一部分前缀token的KV Cache计算时间，从而减少prefill的时间。
更高效的显存使用：当正在处理的sessions相互之间存在公共前缀时，公共前缀部分的KV Cache可以共用，不必重复占用多份显存。

开启Prefix Cache特性需要配置的补充参数如表1及表2所示：

表1 Prefix Cache补充参数1：**ModelDeployConfig中的ModelConfig参数**
配置项	取值类型	取值范围	配置说明
plugin_params	std::string	"{\"plugin_type\":\"prefix_cache\"}"	设置为"{\"plugin_type\":\"prefix_cache\"}"，表示执行Prefix Cache。不需要生效任何插件功能时，请删除该配置项字段。

表2 Prefix Cache补充参数2：**ScheduleConfig的参数**
配置项	取值类型	取值范围	配置说明
enablePrefixCache	-	-	该字段已无需配置，目前版本按老版本方式配置无影响。该字段预计日落时间：2026年Q1版本。

配置服务化参数。该特性需配合MindIE Service使用，按照表1在服务化的config.json文件中添加相应参数，config.json文件路径的详细说明请参考：《MindIE安装指南》中的“配置MindIE > 配置MindIE Server > 单机推理”章节中的软件包文件清单。
启动服务。具体请参考《MindIE Service开发指南》中的“快速开始 > 启动服务”章节。

父主题： 特性介绍