PullKv
产品支持情况
产品 |
是否支持 |
---|---|
√ |
|
√ |
|
x |
|
x |
|
x |
|
x |
函数功能
从Prompt cluster拉取该request对应的KV到本Decode cluster的暂存区中,每次调用成功后都会覆盖暂存区之前的KV。
函数原型
1 | ge::Status PullKv(const LLMReq &req, uint64_t model_id = 0UL) |
参数说明
参数名 |
输入/输出 |
描述 |
---|---|---|
req |
输入 |
当前执行的请求。类型LLMReq。 |
model_id |
输入 |
模型ID,默认为0。 |
返回值
拉取KV的结果,取值如下:
- SUCCESS:成功
- LLM_PARAM_INVALID:参数错误,如cluster ID校验错误,当前非manual batching模式等。
- LLM_KV_CACHE_NOT_EXIST: Prompt中不存在该request对应的KV。
- FAILED: 拉取KV失败
异常处理
无
约束说明
必须先做初始化和linkclusters后才能调用。
只能在LLM_OPTION_ROLE为DECODER的时候调用并且在LLM_OPTION_BATCH_MODE为auto的时候调用,否则会报错。
只有一个暂存区,连续调用时,后续的调用会覆盖暂存区之前的KV。
父主题: LLMEngine