产品 |
是否支持 |
---|---|
√ |
|
x |
|
x |
|
x |
|
x |
在KvCacheManager模式下,在全量predict接口执行前调用,用于在推理前检查本轮想要执行请求的KV Cache是否可以缓存下。调用complete_request释放KV Cache占用。
1 | check_capacity(seq_len: int) -> CapacityState |
参数名称 |
数据类型 |
取值说明 |
---|---|---|
seq_len |
int |
请求token数量。
|
1 2 3 4 5 6 | from llm_datadist import LLMDataDist, LLMRole llm_datadist = LLMDataDist(LLMRole.PROMPT, 0) ... llm_req = LLMReq() llm_req.prompt_length = 1 capacity_state = llm_datadist.check_capacity(llm_req.prompt_length) |
正常情况下返回CapacityState。
参数错误可能抛出TypeError或ValueError。