推理配置项目

一个推理配置文件只支持一个推理服务项目的配置,如果进行了多个配置,将以最后一个为准。
推理服务配置项目 |
描述 |
数据类型 |
是否必选 |
是否可修改 |
---|---|---|---|---|
inferType |
推理类型,可选项为{streams, models},其中“streams”为pipeline推理服务,“models”为模型推理服务。 |
字符串 |
是 |
是 |
name |
Stream名称或者是模型名称,其中Stream名称为pipeline文件当中指定的推理流名称。 限定字符集为{0-9, a-z, A-Z, +, -, _},请勿使用限定字符集以外的其他字符。name字符串将会用于组成推理服务RESTful接口的URI,推理服务对URI的长度做了限制,请参考RESTful接口,合理设置“name”字符串的长度。 请注意,若设置的该项为Stream的名称,请确保该文件中此配置项的名称与实际pipeline文件中的名称一致。否则即使成功拉起服务,在实际处理请求时也会找不到对应的推理流。 |
字符串 |
是 |
是 |
path |
pipeline文件或om模型文件路径,可以为相对路径,也可以为绝对路径,如果是相对路径,需要相对于推理服务StreamServer拉起的路径。注意推理服务进程需要有该配置路径的访问权限。OM模型最大限制为4096MB,建议用户合理分配内存资源 |
字符串 |
是 |
是 |
deviceId |
运行该推理服务的设备ID,需要提前确认硬件资源,在安装了Ascend设备的环境上执行npu-smi info命令查看硬件资源。 取值范围为[0, 1024],且不可超出当前环境所配置的设置ID的范围。当前配置文件为stream类型的配置文件时,该配置项不生效,实际执行的“deviceId”以该配置文件中指定的pipeline中的deviceId为准。 |
整型 |
是 |
是 |
timeoutMs |
推理超时时间,单位毫秒,默认为3000ms。取值范围为[1, 100000]毫秒。 |
正整数 |
否 |
是 |
inputs |
输入张量配置项。当前配置文件为stream类型的配置文件时,该配置项不生效,实际的输入张量配置由该配置文件中指定的pipeline中的输入配置为准。 |
Tensor |
是 |
是 |
outputs |
输出张量配置项。当前配置文件为stream类型的配置文件时,该配置项不生效,实际的输出张量配置由该配置文件中指定的pipeline中的输出配置为准。 |
Tensor |
是 |
是 |
dynamicBatching |
单模型推理是否支持动态Batching的配置。 |
dynamicBatching |
否 |
是 |
张量配置项 |
描述 |
数据类型 |
是否必选 |
是否可修改 |
---|---|---|---|---|
name |
张量名称。字符集限制为{0-9,a-z,A-Z,+,-,_},不允许使用限定字符集合以外的其它字符。name字符串长度取值区间为[1, 100]。 |
字符串 |
是 |
是 |
id |
张量ID,从0开始计数,如果是stream推理类型,对应pipeline的输入输出插件的ID(对应appsrcX/appsinkX)范围限定为[0, 10000]。 |
整型 |
是 |
是 |
dataType |
张量数据类型。限定为表3中已经定义的数据类型。 |
字符串 |
是 |
是 |
format |
张量数据格式。限定为表4中已经定义的数据格式。 |
字符串 |
是 |
是 |
shape |
张量形状(维度)。张量形状的维度大小范围为(0, 10000],所有维度的乘积的取值范围为(0, max_content_length),其中“max_content_length”为“streamserver.conf”配置文件当中定义的请求体的最大长度。 |
整型数组 |
是 |
是 |
data |
base64编码的待推理数据字符串。(仅在推理请求时需要填写,配置文件不填写。) |
字符串 |
否 |
是 |
张量数据类型 |
描述 |
---|---|
FLOAT32 |
32位浮点型。 |
FLOAT16 |
16位浮点型。 |
INT8 |
8位有符号整型。 |
INT32 |
32位有符号整型。 |
UINT8 |
8位无符号整型。 |
UINT16 |
16为无符号整型。 |
UINT32 |
32位无符号整型。 |
INT64 |
64位有符号整型。 |
UINT64 |
64无符号整型。 |
DOUBLE64 |
64位双精度浮点型。 |
BOOL |
布尔类型。 |
STRING |
字符串类型。 |
BINARY |
二进制类型。 |
动态Batch配置项 |
数据类型 |
是否必选 |
是否可修改 |
描述 |
---|---|---|---|---|
preferredBatchSize |
整型数组 |
是 |
是 |
om模型支持的Batch档位。 |
waitingTime |
整型 |
否 |
是 |
多Batch模型场景下,形成一组Batch的最大等待时间,超过此时间则结束等待自动完成推理,默认为5000ms,范围为[1, 50000]。 |
dynamicStrategy |
字符串 |
否 |
是 |
动态Batch推理情形下,选取合适batchsize所采用的策略。默认为“Nearest”。
|
singleBatchInfer |
整型 |
否 |
是 |
单Batch推理开关,布尔型。
|
注:其中waitingTime、dynamicStrategy、singleBatchInfer字段与mxpi_tensorinfer插件的配置含义相同。 |