推理服务查询接口
接口功能
查询服务的部署状态,包括部署阶段、就绪状态、模型信息等。
接口格式
操作类型:GET
URL:https://{ip}:{port}/v1/servers/{server_name}
请求参数
无
使用样例
请求样例:
GET https://{ip}:{port}/v1/servers/{server_name}
响应样例:
{
"data": {
"instances_status": [
{
"liveness": true,
"pod_name": "mindie-server-zsm-586c8fb5f8-vtx2n",
"readiness": true
}
],
"model_info": {
"docker_label": null,
"max_batch_total_tokens": 8192,
"max_best_of": 1,
"max_concurrent_requests": 200,
"max_input_length": 2048,
"max_stop_sequences": null,
"max_waiting_tokens": null,
"models": [
{
"max_total_tokens": 2560,
"model_device_type": "npu",
"model_dtype": "float16",
"model_id": "llama2_7b",
"model_pipeline_tag": "text-generation",
"model_sha": null
}
],
"sha": null,
"validation_workers": null,
"version": "1.0.RC3",
"waiting_served_ratio": null
},
"server_name": "mindie-server"
},
"message": "success",
"status": "0"
}
重要参数解释:
liveness:表示服务存活状态,取值如下:
- true:表示服务存活。
- false:表示服务未存活。
readiness:表示服务实例启动状态,取值如下:
- true:表示服务实例已启动完成并进入就绪状态。
- false:表示服务实例未启动完成。
输出说明
code |
说明 |
|---|---|
200 |
ok:请求成功。 |
400 |
bad_request:请求失败,非法请求。 |
404 |
not_found:请求失败,找不到资源。 |
500 |
internal_server_error:请求失败,内部出现错误。 |
父主题: RESTful接口API