aclnnGemm

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	√
[object Object]Atlas 训练系列产品[object Object]	√

功能说明

算子功能：计算α 乘以A与B的乘积，再与β 和input C的乘积求和。
计算公式：
- 若transA非零，计算前会将A进行转置；同样的，若transB非零，则会将B进行转置。
  $out = α (A @ B) + β C$
- 若transA与transB都为非零，则计算公式为：
  $out = α (A^T @ B^T) + βC$

函数原型

每个算子分为undefined，必须先调用“aclnnGemmGetWorkspaceSize”接口获取入参并根据计算流程计算所需workspace大小，再调用“aclnnGemm”接口执行计算。

aclnnStatus aclnnGemmGetWorkspaceSize(const aclTensor *A, const aclTensor *B, const aclTensor *C, float alpha, float beta, int64_t transA, int64_t transB, aclTensor *out, int8_t cubeMathType, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnGemm(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnGemmGetWorkspaceSize

参数说明：
- A(aclTensor*, 计算输入)：公式中的输入A，Device侧的aclTensor，数据类型需要与C、B构成互相推导关系，维度支持两维，shape（或者转置后shape）需要满足与B相乘条件。支持undefined，undefined支持ND。
  - [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：数据类型支持FLOAT16、FLOAT32。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持BFLOAT16、FLOAT16、FLOAT32。
- B(aclTensor*, 计算输入)：公式中的输入B，Device侧的aclTensor，数据类型需要与C，A构成互相推导关系，维度支持两维，shape（或者转置后shape）需要满足与A相乘条件。支持undefined，undefined支持ND。
  - [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：数据类型支持FLOAT16、FLOAT32。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持BFLOAT16、FLOAT16、FLOAT32。
- C(aclTensor*, 计算输入)：公式中的输入C，Device侧的aclTensor，数据类型需要与AB计算后的结果构成互相推导关系，维度支持两维，shape需要与A@B计算后的结果一致或满足undefined。支持undefined，undefined支持ND。
  - [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：数据类型支持FLOAT16、FLOAT32。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持BFLOAT16、FLOAT16、FLOAT32。
- alpha(float, 计算输入)：公式中的输入α，Host侧的浮点型，表示A和B乘积的系数。
- beta(float, 计算输入)：公式中的输入β，Host侧的浮点型，表示C的系数。
- transA(int64_t, 计算输入)：公式中的输入transA，Host侧的整型，表示矩阵A是否需要转置，非零表示转置, A矩阵为[K,M]，零表示不需要转置, A矩阵为[M, K]。
- transB(int64_t, 计算输入)：公式中的输入transB，Host侧的整型，表示矩阵B是否需要转置，非零表示转置, B矩阵为[N, K]，零表示不需要转置, B矩阵为[K, N]。
- out(aclTensor*, 计算输出)：公式中的out，Device侧的aclTensor，数据类型需要与C构成互相推导关系，维度支持两维，shape需要A@B计算后的结果一致。支持undefined，undefined支持ND。
  - [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：数据类型支持FLOAT16、FLOAT32。
  - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：数据类型支持BFLOAT16、FLOAT16、FLOAT32。
- cubeMathType（int8_t, 计算输入）：Host侧的整型，判断Cube单元应使用哪种计算逻辑进行运算。数据类型支持INT8，如果输入的数据类型存在互相推导关系，该参数默认对互推导后的数据类型进行处理。支持的枚举值如下：
  - 0：KEEP_DTYPE，保持输入数据类型进行计算。
    - [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：当输入数据类型为FLOAT32时不支持该选项。
  - 1：ALLOW_FP32_DOWN_PRECISION，允许转换输入数据类型降低精度计算。
    - [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：当输入数据类型为FLOAT32时，会转换为FLOAT16计算。当输入为其他数据类型时不做处理。
    - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]：当输入数据类型为FLOAT32时，会转换为HFLOAT32计算。当输入为其他数据类型时不做处理。
  - 2：USE_FP16，允许转换输入数据类型至FLOAT16计算。
    - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：当输入数据类型为BFLOAT16时不支持该选项，当输入为其他数据类型时不做处理。
  - 3：USE_HF32，支持将输入降精度至数据类型HFLOAT32计算。
    - [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：不支持该选项。
    - [object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：当输入数据类型为FLOAT32时，会转换为HFLOAT32计算。当输入为其他数据类型时不做处理。
- workspaceSize(uint64_t*, 出参)：返回需要在Device侧申请的workspace大小。
- executor(aclOpExecutor**, 出参)：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnGemm

参数说明：
- workspace（void*, 入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t, 入参）：在Device侧申请的workspace大小，由第一段接口aclnnGemmGetWorkspaceSize获取。
- executor（aclOpExecutor*, 入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream, 入参）：指定执行任务的Stream。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

约束说明

[object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：Cube单元不支持FLOAT32计算。当输入为FLOAT32，可通过设置cubeMathType=1（ALLOW_FP32_DOWN_PRECISION）来允许接口内部cast到FLOAT16进行计算.

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]