CopyKvCache
产品支持情况
产品 |
是否支持 |
---|---|
√ |
|
√ |
|
x |
|
x |
|
x |
|
x |
函数功能
拷贝KV Cache。支持D2D,D2H的拷贝。
当期望PullKvCache和其他使用Cache的操作流水时,可以额外申请一块中转Cache。当其他流程在使用Cache时,可以先将下一次的Cache pull到中转Cache,待其他流程使用完Cache后,拷贝到指定的位置,从而通过pipeline流水将PullKvCache的耗时隐藏,减少总耗时。
公共前缀场景在新请求推理前,可以将公共前缀拷贝到新的内存中与当前请求的KV合并推理。
函数原型
1 2 3 4 5 6 | Status CopyKvCache(const Cache &src_cache, const Cache &dst_cache, uint32_t src_batch_index = 0U, uint32_t dst_batch_index = 0U, uint64_t offset = 0U, int64_t size = -1) |
参数说明
参数名称 |
输入/输出 |
取值说明 |
---|---|---|
src_cache |
输入 |
源Cache。 |
dst_cache |
输入 |
目的Cache。 |
src_batch_index |
输入 |
源Cache的batch的下标。 |
dst_batch_index |
输入 |
目的Cache的batch的下标。 |
offset |
输入 |
拷贝偏移,单位为byte。 |
size |
输入 |
设置为>0的整数,表示要拷贝的大小。 或设置为-1,表示完整拷贝。 默认为-1。 |
调用示例
1 | Status ret = llm_datadist.CopyKvCache(src_cache, dst_cache, 0, 0) |
返回值
- LLM_SUCCESS:成功
- LLM_PARAM_INVALID:参数错误
- 其他:失败
约束说明
该接口调用之前,需要先调用Initialize接口完成初始化。只支持Device->Device与Device->Host的拷贝。
父主题: LlmDataDist接口