公共前缀

功能介绍

公共前缀指的是在一次推理过程中,多个输入提示包含相同的起始部分

可用于将公共前缀产生的KV Cache内存拷贝到新的用户请求的KV Cache上进行推理。

涉及的接口

接口名称

功能

CacheManager.copy_cache

CacheManager场景下,拷贝cache。

KvCacheManager.copy_cache

KvCacheManager场景下,拷贝cache。

功能示例

1
2
3
4
src_cache = kv_cache_manager.allocate_cache(npu_cache_desc, npu_cache_key) # 前缀cache
dst_cache = kv_cache_manager.allocate_cache(npu_cache_desc, npu_cache_key) # 新的请求cache

kv_cache_manager.copy_cache(dst_cache, src_cache, dst_batch_index, src_batch_index, offset, size)