特性介绍

当前大语言模型推理系统普遍采用KV Cache缓存机制,但该机制存在以下两个问题:

  1. 随着LLM支持的序列长度不断增长,KV Cache所需要的显存资源也急剧增加。
  2. KV Cache只对当前session有效,如果跨session存在重复token序列的情况下无法实现复用。

Prefix Cache通过RadixTree保留session结束后的KV Cache,新的session请求在RadixTree中查找是否存在相同的Token序列,即可复用之前计算好的KV Cache,从而实现跨session的KV Cache复用。

其优势主要包括: