昇腾社区首页
中文
注册

推理配置项目

一个推理配置文件只支持一个推理服务项目的配置,如果进行了多个配置,将以最后一个为准。

表1 推理配置服务项

推理服务配置项目

描述

数据类型

是否必选

是否可修改

inferType

推理类型,可选项为{streams, models},其中“streams”为pipeline推理服务,“models”为模型推理服务。

字符串

name

Stream名称或者是模型名称,其中Stream名称为pipeline文件当中指定的推理流名称。

限定字符集为{0-9, a-z, A-Z, +, -, _},请勿使用限定字符集以外的其他字符。name字符串将会用于组成推理服务RESTful接口的URI,推理服务对URI的长度做了限制,请参考RESTful接口,合理设置“name”字符串的长度。

请注意,若设置的该项为Stream的名称,请确保该文件中此配置项的名称与实际pipeline文件中的名称一致。否则即使成功拉起服务,在实际处理请求时也会找不到对应的推理流。

字符串

path

pipeline文件或om模型文件路径,可以为相对路径,也可以为绝对路径,如果是相对路径,需要相对于推理服务StreamServer拉起的路径。注意推理服务进程需要有该配置路径的访问权限。OM模型最大限制为4096MB,建议用户合理分配内存资源

字符串

deviceId

运行该推理服务的设备ID,需要提前确认硬件资源,在安装了Ascend设备的环境上执行npu-smi info命令查看硬件资源。

取值范围为[0, 1024],且不可超出当前环境所配置的设置ID的范围。当前配置文件为stream类型的配置文件时,该配置项不生效,实际执行的“deviceId”以该配置文件中指定的pipeline中的deviceId为准。

整型

timeoutMs

推理超时时间,单位毫秒,默认为3000ms。取值范围为[1, 100000]毫秒。

正整数

inputs

输入张量配置项。当前配置文件为stream类型的配置文件时,该配置项不生效,实际的输入张量配置由该配置文件中指定的pipeline中的输入配置为准。

Tensor

outputs

输出张量配置项。当前配置文件为stream类型的配置文件时,该配置项不生效,实际的输出张量配置由该配置文件中指定的pipeline中的输出配置为准。

Tensor

dynamicBatching

单模型推理是否支持动态Batching的配置。

dynamicBatching

表2 张量配置项

张量配置项

描述

数据类型

是否必选

是否可修改

name

张量名称。字符集限制为{0-9,a-z,A-Z,+,-,_},不允许使用限定字符集合以外的其它字符。name字符串长度取值区间为[1, 100]。

字符串

id

张量ID,从0开始计数,如果是stream推理类型,对应pipeline的输入输出插件的ID(对应appsrcX/appsinkX)范围限定为[0, 10000]。

整型

dataType

张量数据类型。限定为表3中已经定义的数据类型。

字符串

format

张量数据格式。限定为表4中已经定义的数据格式。

字符串

shape

张量形状(维度)。张量形状的维度大小范围为(0, 10000],所有维度的乘积的取值范围为(0, max_content_length),其中“max_content_length”“streamserver.conf”配置文件当中定义的请求体的最大长度。

整型数组

data

base64编码的待推理数据字符串。(仅在推理请求时需要填写,配置文件不填写。)

字符串

表3 张量数据类型

张量数据类型

描述

FLOAT32

32位浮点型。

FLOAT16

16位浮点型。

INT8

8位有符号整型。

INT32

32位有符号整型。

UINT8

8位无符号整型。

UINT16

16为无符号整型。

UINT32

32位无符号整型。

INT64

64位有符号整型。

UINT64

64无符号整型。

DOUBLE64

64位双精度浮点型。

BOOL

布尔类型。

STRING

字符串类型。

BINARY

二进制类型。

表4 张量数据格式

张量数据格式

描述

FORMAT_NONE

无格式

FORMAT_NHWC

NHWC型

FORMAT_NCWH

NCWH型

表5 动态Batch配置项

动态Batch配置项

数据类型

是否必选

是否可修改

描述

preferredBatchSize

整型数组

om模型支持的Batch档位。

waitingTime

整型

多Batch模型场景下,形成一组Batch的最大等待时间,超过此时间则结束等待自动完成推理,默认为5000ms,范围为[1, 50000]。

dynamicStrategy

字符串

动态Batch推理情形下,选取合适batchsize所采用的策略。默认为“Nearest”

  • “Nearest”策略:选取与缓存图片数量差值的绝对值最接近的batchsize(绝对值相等取较大者)。
  • “Upper”策略:取大于或等于缓存图片数量的最小batchsize。
  • “Lower”策略:取小于或等于缓存图片数量的最大batchsize。

singleBatchInfer

整型

单Batch推理开关,布尔型。

  • 0:自动根据模型的第一维,选择单Batch或多Batch推理。(默认为0。)
  • 1:无论模型的第一维是否为1,都只会进行单Batch推理。

注:其中waitingTime、dynamicStrategy、singleBatchInfer字段与mxpi_tensorinfer插件的配置含义相同。