aclnnMaxPool2dWithMask

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	√
[object Object]Atlas 训练系列产品[object Object]	√

功能说明

算子功能：对于输入信号的输入通道，提供2维最大池化（max pooling）操作，输出池化后的值out和索引indices（采用mask语义计算得出）。
计算公式：
- output tensor中每个元素的计算公式：
  $out(N_j, C_j, h, w) = \max\limits_{{m\in[0,k_{H}-1],n\in[0,k_{W}-1]}}input(N_i,C_j,stride[0]\times h + m, stride[1]\times w + n)$
- out tensor的shape推导公式：
  $[N, C, H_{out}, W_{out}]=[N,C,\lfloor{\frac{H_{in}+2 \times {padding[0] - dilation[0] \times(kernelSize[0] - 1) - 1}}{stride[0]}}\rfloor + 1,\lfloor{\frac{W_{in}+2 \times {padding[1] - dilation[1] \times(kernelSize[1] - 1) - 1}}{stride[1]}}\rfloor + 1]$
- indices tensor的shape推导公式：
  $[N, C, H_{indices}, W_{indices}]=[N,C,k_h \times k_w, (\lceil{\frac{H_{out} \times W_{out}}{16}}\rceil+1) \times 2 \times 16]$

函数原型

每个算子分为undefined，必须先调用“aclnnMaxPool2dWithMaskGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnMaxPool2dWithMask”接口执行计算。

aclnnStatus aclnnMaxPool2dWithMaskGetWorkspaceSize(const aclTensor* self, const aclIntArray* kernelSize, const aclIntArray* stride, const aclIntArray* padding, const aclIntArray* dilation, bool ceilMode, aclTensor* out, aclTensor* indices, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnMaxPool2dWithMask(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)

aclnnMaxPool2dWithMaskGetWorkspaceSize

参数说明：
- self（aclTensor*，计算输入）: 输入Tensor，公式中的input，Device侧aclTensor。shape支持3D或者4D，不支持其他shape。支持undefined，undefined在3维时支持ND，在4维时支持NCHW。
  - [object Object]Atlas 推理系列产品[object Object]：数据类型支持FLOAT。
  - [object Object]Atlas 训练系列产品[object Object]：数据类型支持FLOAT、FLOAT16。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持FLOAT、FLOAT16和BFLOAT16。
- kernelSize（aclIntArray*，计算输入）: 表示最大池化的窗口大小，公式中的k，Host侧的aclIntArray，数据类型支持INT32、INT64，数组长度必须为1或2，且数组元素必须都大于0。
- stride（aclIntArray*，计算输入）: 窗口移动的步长，公式中的stride，Host侧的aclIntArray，数据类型支持INT32、INT64。stride的长度为0时，stride的数值等于kernelSize的值。
- padding（aclIntArray*，计算输入）: 每一条边补充的层数，公式中的padding_size，Host侧的aclIntArray，补充的位置填写“负无穷”，数据类型支持INT32、INT64，数组长度必须为1或2，且数组元素必须都大于等于0或者小于等于kernelSize/2。
- dilation（aclIntArray*，计算输入）: 控制窗口中元素的步幅，公式中的dilation_size，Host侧的aclIntArray，数据类型支持INT32、INT64，值仅支持1。
- ceilMode（bool，计算输入）: 控制计算输出out的shape推导时的取值模式，Host侧的Bool型。仅支持取值true或false。为true时表示推导公式中Hout和Wout的shape时用向上取整的方法，为false时即表示向下取整。
- out（aclTensor*，计算输出）: 输出Tensor，公式中的out，Device侧的aclTensor。池化后的结果。shape需要按照功能说明中out的shape推导公式进行计算。undefined在3维时支持ND，在4维时支持NCHW，与self保持一致。
  - [object Object]Atlas 推理系列产品[object Object]：数据类型支持FLOAT。
  - [object Object]Atlas 训练系列产品[object Object]：数据类型支持FLOAT、FLOAT16。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持FLOAT、FLOAT16和BFLOAT16。
- indices（aclTensor*，计算输出）: 输出Tensor，Device侧的aclTensor。最大值的索引位置组成的Tensor（采用mask语义）。数据类型仅支持INT8。shape需要按照功能说明中indices的shape推导公式进行计算，不支持undefined，undefined在3维时支持ND，在4维时支持NCHW，与self保持一致，为自定义的mask值。
- workspaceSize（uint64_t*，出参）: 返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）: 返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus: 返回状态码，具体参见undefined。

[object Object]

aclnnMaxPool2dWithMask

参数说明：
- workspace（void*，入参）: 在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）: 在Device侧申请的workspace大小，由第一段接口aclnnMaxPool2dWithMaskGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）: op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）: 指定执行任务的Stream。
返回值：

aclnnStatus: 返回状态码，具体参见undefined。

约束说明

输入数据暂不支持nan、-inf。
[object Object]Atlas 训练系列产品[object Object]：当输入数据是FLOAT类型时，会转换为FLOAT16类型进行计算，存在一定程度的精度损失。
[object Object]Atlas 推理系列产品[object Object]：当ceilMode=True时，暂不支持如下stride场景： $s_h >= (H_{in} + padding\_size) / (H_{out} - 1)$ $s_w >= (W_{in} + padding\_size) / (W_{out} - 1)$

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]