公共前缀
使用场景
公共前缀指的是在一次推理过程中,多个输入提示包含相同的起始部分。
可用于将公共前缀产生的KV Cache内存拷贝到新的用户请求的KV Cache上进行推理。
涉及接口
接口名称 |
功能 |
---|---|
CopyKvCache |
拷贝KV Cache。 |
功能示例
1 2 3 4 5 6 |
// 也可以使用CopyKvCache拷贝一个batch中的连续数据
ret = llmDataDist.CopyKvCache(Cache1, Cache2, 0, 0);
if (ret != LLM_SUCCESS) {
printf("[ERROR] CopyKvCache failed, ret = %u\n", ret);
return -1;
}
|
父主题: 专题