公共前缀指的是在一次推理过程中,多个输入提示包含相同的起始部分。
可用于将公共前缀产生的KV Cache内存拷贝到新的用户请求的KV Cache上进行推理。
接口名称 |
功能 |
---|---|
CacheManager.copy_cache |
CacheManager场景下,拷贝cache。 |
KvCacheManager.copy_cache |
KvCacheManager场景下,拷贝cache。 |
1 2 3 4 | src_cache = kv_cache_manager.allocate_cache(npu_cache_desc, npu_cache_key) # 前缀cache dst_cache = kv_cache_manager.allocate_cache(npu_cache_desc, npu_cache_key) # 新的请求cache kv_cache_manager.copy_cache(dst_cache, src_cache, dst_batch_index, src_batch_index, offset, size) |