采集静态配置。
操作类型:GET
URL:https://{ip}:{port}/v1/config
无
请求样例:
GET https://{ip}:{port}/v1/config
{
"modelName": "llama_65b",
"maxSeqLen": 2560,
"npuMemSize": 8,
"cpuMemSize": 5,
"worldSize": 8,
"maxOutputLen": 512,
"cacheBlockSize": 128
}
参数 |
类型 |
说明 |
|---|---|---|
modelName |
string |
推理选取的模型名字。 |
maxSeqLen |
uint32_t |
最大序列长度。 |
npuMemSize |
uint32_t |
单个NPU中可以用来申请KV Cache的size上限。 |
cpuMemSize |
uint32_t |
单个CPU中可以用来申请KV Cache的size上限。 |
worldSize |
uint32_t |
使用几张卡进行推理。 |
maxOutputLen |
uint32_t |
最大输出长度。 |
cacheBlockSize |
uint32_t |
KV Cache block的size大小。 |