推理服务查询接口

接口功能

查询服务的部署状态，包括部署阶段、就绪状态、模型信息等。

接口格式

操作类型：GET

URL：https://{ip}:{port}/v1/servers/{server_name}

请求参数

无

使用样例

请求样例：

GET https://{ip}:{port}/v1/servers/{server_name}

响应样例：

{
    "data": {
        "instances_status": [
            {
                "liveness": true,
                "pod_name": "mindie-server-zsm-586c8fb5f8-vtx2n",
                "readiness": true
            }
        ],
        "model_info": {
            "docker_label": null,
            "max_batch_total_tokens": 8192,
            "max_best_of": 1,
            "max_concurrent_requests": 200,
            "max_input_length": 2048,
            "max_stop_sequences": null,
            "max_waiting_tokens": null,
            "models": [
                {
                    "max_total_tokens": 2560,
                    "model_device_type": "npu",
                    "model_dtype": "float16",
                    "model_id": "llama3_70b",
                    "model_pipeline_tag": "text-generation",
                    "model_sha": null
                }
            ],
            "sha": null,
            "validation_workers": null,
            "version": "1.0.RC3",
            "waiting_served_ratio": null
        },
        "server_name": "mindie-server"
    },
    "message": "success",
    "status": "0"
}

重要参数解释：

liveness：表示服务存活状态，取值如下：

true：表示服务存活。
false：表示服务未存活。

readiness：表示服务实例启动状态，取值如下：

true：表示服务实例已启动完成并进入就绪状态。
false：表示服务实例未启动完成。

输出说明

表1 请求响应状态码
code	说明
200	ok：请求成功。
400	bad_request：请求失败，非法请求。
404	not_found：请求失败，找不到资源。
500	internal_server_error：请求失败，内部出现错误。

父主题： RESTful接口API