获取推理服务过程中请求的TTFT、TBT的动态平均值(默认近1000个请求的平均值),正在执行请求数、正在等待请求数量、剩余NPUblock数量。
操作类型:GET
URL:https://{ip}:{port}/metrics-json
无
请求样例:
GET https://{ip}:{port}/metrics-json
响应样例:
{
"resultType": "vector",
"result": [
{
"metric": [
{
"__name__": "TTFT",
"job": "node",
"instance": "127.0.0.2:1026"
}
],
"value": "0"
},
{
"metric": [
{
"__name__": "TBT",
"job": "node",
"instance": "127.0.0.2:1026"
}
],
"value": "0"
},
{
"metric": [
{
"__name__": "waitingInferRequestNum",
"job": "node",
"instance": "127.0.0.2:1026"
}
],
"value": "0"
},
{
"metric": [
{
"__name__": "processingInferRequestNum",
"job": "node",
"instance": "127.0.0.2:1026"
}
],
"value": "0"
},
{
"metric": [
{
"__name__": "remainBlocks",
"job": "node",
"instance": "127.0.0.2:1026"
}
],
"value": "1024"
}
]
}
响应状态码:200
返回值 |
类型 |
说明 |
||
|---|---|---|---|---|
resultType |
string |
结果类型,默认为vector,包含查询结果的数组。 |
||
result |
list |
结果列表。 |
||
- |
metric |
list |
五种服务指标结果。
|
|
- |
__name__ |
string |
服务指标的名称。 |
|
job |
string |
服务指标作业名称。 |
||
instance |
string |
服务指标实例地址。 |
||
value |
string |
服务指标结果具体值。 |
||