目前该接口只支持提前终止Triton推理请求。
参考Triton接口定义,提供提前终止请求接口。
操作类型:POST
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/stopInfer
参数 |
是否必选 |
说明 |
取值要求 |
|---|---|---|---|
id |
必选 |
推理请求ID。 |
长度不超过256的非空字符串。 |
请求样例:
POST https://{ip}:{port}/v2/models/llama_65b/stopInfer
请求消息体:
{
"id":"a123"
}
响应样例:
{
"id":"a123"
}
响应状态码:200
返回值 |
类型 |
说明 |
|---|---|---|
id |
string |
成功停止推理请求ID。 |