LLMReqComplete
产品支持情况
产品 |
是否支持 |
---|---|
√ |
|
√ |
|
x |
|
x |
|
x |
|
x |
函数功能
外部告知Req已结束。
- 全量场景下,如果请求没有对应的增量需要执行,则需要调用该接口释放对应的KV Cache资源。
- 增量场景下,如果请求已经启动执行,等待当前step执行完后,释放增量推理所在batch对应位置的占位符。
- 请求还没开始执行的,从队列中删除该请求。
函数原型
1 | ge::Status LLMReqComplete(const LLMReq &req) |
参数说明
参数名 |
输入/输出 |
描述 |
---|---|---|
req |
输入 |
需要结束的请求。类型为LLMReq。 |
返回值
请求结束成功
异常处理
无
父主题: LLMEngine