aclnnAddmmWeightNz

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：计算α 乘以mat1与mat2的乘积，再与β和self的乘积求和。相较于原有addmm接口，新接口mat2支持nz格式。
计算公式：
$out = β self + α (mat1 @ mat2)$
示例：
- 对于aclnnAddmmWeightNz接口，self的shape是[n,]，mat1的shape是[m, k]，mat2的shape是[k, n]，mat1和mat2的矩阵乘的结果shape是[m, n]，self的shape能broadcast到[m, n]。
- 对于aclnnAddmmWeightNz接口，self的shape是[1, n]，mat1的shape是[m, k]，mat2的shape是[k, n]，mat1和mat2的矩阵乘的结果shape是[m, n]，self的shape能broadcast到[m, n]。
- 对于aclnnAddmmWeightNz接口，self的shape是[m, n]，mat1的shape是[m, k]，mat2的shape是[k, n]，mat1和mat2的矩阵乘的结果shape是[m, n]。

函数原型

每个算子分为undefined，必须先调用 “aclnnAddmmWeightNzGetWorkspaceSize” 接口获取入参并根据计算流程计算所需workspace大小，再调用 “aclnnAddmmWeightNz”接口执行计算。

aclnnStatus aclnnAddmmWeightNzGetWorkspaceSize(const aclTensor* self, const aclTensor* mat1, const aclTensor* mat2, const aclScalar* beta, const aclScalar* alpha, aclTensor* out, int8_t cubeMathType, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnAddmmWeightNz(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, const aclrtStream stream)

aclnnAddmmWeightNzGetWorkspaceSize

参数说明：
- self（aclTensor*，计算输入）：表示公式中的self， Device侧的aclTensor，数据类型需要与 $mat1@mat2$ $ma t 1@ ma t 2$ 构成互相推导关系（参见undefined和undefined），shape需要满足能够broadcast成 $mat1@mat2$ $ma t 1@ ma t 2$ 的结果shape。支持undefined，undefined支持ND。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持FLOAT16、FLOAT、BFLOAT16。
- mat1（aclTensor*，计算输入）：Device侧的aclTensor，且数据类型需要与self，mat2构成互相推导关系（参见undefined和undefined），shape仅支持二维且需要满足与mat2相乘条件。支持undefined，undefined支持ND。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持FLOAT16、BFLOAT16。
  - 在mat1不转置的情况下各个维度表示：（m，k）。
  - 在mat1转置的情况下各个维度表示：（k，m）。
- mat2（aclTensor*，计算输入）：Device侧的aclTensor，且数据类型需要与self，mat1构成互相推导关系（参见undefined和undefined），shape仅支持二维且需要满足与mat1相乘条件。支持undefined，undefined只支持昇腾亲和数据排布格式(NZ)，shape维度支持4维。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持BFLOAT16、FLOAT16。
  - 当mat2矩阵不转置时，昇腾亲和数据排布格式各个维度表示：（n1，k1，k0，n0），其中k0 = 16， n0为16。mat1 shape中的k和mat2 shape中的k1需要满足以下关系：ceil（k，k0） = k1， mat2 shape中的n1与out的n满足以下关系：ceil(n， n0) = n1。
  - 当mat2矩阵转置时，昇腾亲和数据排布格式各个维度表示：（k1，n1，n0，k0），其中n0 = 16， k0 = 16。mat1 shape中的k和mat2 shape中的k1需要满足以下关系：ceil（k，k0） = k1， mat2 shape中的n1与out的n满足以下关系：ceil(n， n0) = n1
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：调用此接口之前，必须使用aclnnTransMatmulWeight接口完成mat2的原始输入Format从ND到昇腾亲和数据排布格式的转换。
- beta(β)(aclScalar，计算输入)：Host侧的aclScalar。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持：FLOAT、FLOAT16、DOUBLE、INT8、INT16、INT32、INT64、UINT8。
- alpha(α)(aclScalar，计算输入)：Host侧的aclScalar。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持：FLOAT、FLOAT16、DOUBLE、INT8、INT16、INT32、INT64、UINT8。
- out（aclTensor*，计算输出）：Device侧的aclTensor，且数据类型需要与self构成互相推导关系，shape需要与 $mat1@mat2$ $ma t 1@ ma t 2$ 一致，undefined支持ND。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持FLOAT16、FLOAT、BFLOAT16。
- cubeMathType（int8_t，计算输入）：用于指定Cube单元的计算逻辑，Host侧的整型。数据类型支持INT8。注意：如果输入的数据类型存在互推导关系，该参数默认对互推导后的数据类型进行处理。支持的枚举值如下：
  - 0：KEEP_DTYPE，保持输入的数据类型进行计算。
  - 1：ALLOW_FP32_DOWN_PRECISION，支持将输入数据降精度计算。
    - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：不支持该选项。
  - 2：USE_FP16，支持将输入降精度至FLOAT16计算。
    - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：当输入数据类型为BFLOAT16时不支持该选项。
  - 3：USE_HF32，支持将输入降精度至数据类型HFLOAT32计算。
    - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：不支持该选项。
- workspaceSize(uint64_t *，出参)：返回需要在Device侧申请的workspace大小。
- executor(aclOpExecutor **，出参)：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnAddmmWeightNz

参数说明：
- workspace(void *，入参)：在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t，入参)：在Device侧申请的workspace大小，由第一段接口aclnnAddmmWeightNzGetWorkspaceSize获取。
- stream(aclrtStream，入参)：指定执行任务的Stream。
- executor(aclOpExecutor *，入参)：op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

约束说明

不支持mat1与mat2两个输入中一个输入为BFLOAT16，另一个输入为FLOAT或者FLOAT16的数据类型推导。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]