公共前缀
使用场景
公共前缀指的是在一次推理过程中,多个输入提示包含相同的起始部分。
可用于将公共前缀产生的KV Cache内存拷贝到新的用户请求的KV Cache上进行推理。
涉及接口
接口名称 |
功能 |
---|---|
CopyKvCache |
拷贝KV Cache。 |
功能示例
1 2 3 4 5 6 |
// 也可以使用CopyKvCache拷贝一个batch中的连续数据 ret = llmDataDist.CopyKvCache(src_cache, dst_cache, 0, 0); if (ret != LLM_SUCCESS) { printf("[ERROR] CopyKvCache failed, ret = %u\n", ret); return -1; } |
父主题: 专题