aclnnFusedMatmul

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：矩阵乘与通用向量计算融合。
计算公式：
$y = OP((x1 * x2 + bias), x3)$
OP类型由fusedOpType输入定义,支持如下：

add运算：
$y=(x1∗x2+bias)+x3$
mul运算:
$y=(x1∗x2+bias)∗x3$
gelu_tanh运算:
$y = gelu\_tanh(x1 *x2 + bias)$
gelu_erf运算:
$y = gelu\_erf(x1 *x2 + bias)$

函数原型

每个算子分为undefined，必须先调用“aclnnFusedMatmulGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnFusedMatmul”接口执行计算。

aclnnStatus aclnnFusedMatmulGetWorkspaceSize(const aclTensor* x1, const aclTensor* x2, const aclTensor* bias, const aclTensor* x3, const char* fusedOpType, int8_t cubeMathType, const aclTensor* y, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnFusedMatmul(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnFusedMatmulGetWorkspaceSize

参数说明：
- x1（aclTensor*, 计算输入）：表示矩阵乘的第一个矩阵，公式中的x1，Device侧的aclTensor。数据类型需要与x2满足数据类型推导规则（参见undefined和 undefined）。shape维度支持2维。支持undefined。
- x2（aclTensor*, 计算输入）：表示矩阵乘的第二个矩阵，公式中的x2，Device侧的aclTensor。数据类型需要与x1满足数据类型推导规则（参见undefined 和 undefined）。shape维度支持2维。支持undefined。
- bias（aclTensor*, 计算可选输入）：公式中的输入bias, 数据类型支持BFLOAT16、FLOAT16，数据格式支持ND。shape支持1维（n，）、2维（1，n），n与x2的n一致。当前版本暂不支持，传入空指针即可。
- x3（aclTensor*, 计算可选输入）：公式中的输入x3, 数据类型支持BFLOAT16、FLOAT16，数据格式支持ND。undefined支持ND，shape维度支持2维。支持undefined。
- y（aclTensor*, 计算输出）：表示矩阵乘的输出矩阵，公式中的y, Device侧的aclTensor。数据类型需要与x1与x2推导后的数据类型一致（参见undefined和 undefined）。支持undefined。shape维度支持2维。
- cubeMathType（INT8，计算输入）：用于指定Cube单元的计算逻辑，Host侧的整型。数据类型支持INT8。注意：如果输入的数据类型存在互推导关系，该参数默认对互推导后的数据类型进行处理。预留参数,当前版本不生效，传入0即可。
  - 0：KEEP_DTYPE，保持输入的数据类型进行计算。
- fusedOpType（char*，入参）：判断Cube单元使用哪种计算逻辑进行运算，支持输入必须是"add","mul","gelu_erf","gelu_tanh"中的一种。
- workspaceSize(uint64_t*, 出参)：返回用户需要在Device侧申请的workspace大小。
- executor(aclOpExecutor**, 出参)：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnFusedMatmul

参数说明：
- workspace(void*, 入参)：在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t, 入参)：在Device侧申请的workspace大小，由第一段接口aclnnFusedMatmulGetWorkspaceSize获取。
- executor(aclOpExecutor*, 入参)：op执行器，包含了算子计算流程。
- stream(aclrtStream, 入参)：指定执行任务的Stream。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

约束说明

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]