公共前缀
使用场景
公共前缀指的是模型推理的多个输入包含相同的起始部分。
该功能可用于将公共前缀产生的KV Cache内存拷贝到新的用户请求的KV Cache上进行推理。
涉及接口
接口名称 |
功能 |
---|---|
CopyKvCache |
拷贝KV Cache。 |
功能示例
1 2 3 4 5 |
ret = llmDataDist.CopyKvCache(src_cache, dst_cache, 0, 0); if (ret != LLM_SUCCESS) { printf("[ERROR] CopyKvCache failed, ret = %u\n", ret); return -1; } |
父主题: 专题