aclnnAddLayerNorm

支持的产品型号

Atlas A2训练系列产品。
Atlas 推理系列产品。

接口原型：

每个算子分为两段式接口，必须先调用aclnnAddLayerNormGetWorkspaceSize接口获取入参并根据计算流程所需workspace大小，再调用aclnnAddLayerNorm接口执行计算。

aclnnStatus aclnnAddLayerNormGetWorkspaceSize(const aclTensor *x1, const aclTensor *x2, const aclTensor *gamma, const aclTensor *beta, double epsilon, bool additionalOut, const aclTensor *yOut, const aclTensor *meanOut, const aclTensor *rstdOut, const aclTensor *xOut, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnAddLayerNorm(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, const aclrtStream stream)

功能描述

算子功能：实现AddLayerNorm功能
计算公式：

x = x1 + x2

y = {{x-\bar{x}}\over\sqrt {Var(x)+e}} * \gamma + \beta

aclnnAddLayerNormGetWorkspaceSize

参数说明：
- x1（aclTensor *，计算输入）：表示AddLayerNorm的输入， npu device侧的aclTensor，数据类型支持FLOAT，FLOAT16，BFLOAT16，shape支持2-8维度，数据格式支持ND
- x2（aclTensor *，计算输入）：表示AddLayerNorm的输入， npu device侧的aclTensor，数据类型支持FLOAT，FLOAT16，BFLOAT16，shape支持2-8维度，数据格式支持ND
- beta（aclTensor *，计算输入）：对应LayerNorm中的beta， npu device侧的aclTensor，数据类型支持FLOAT，FLOAT16，BFLOAT16，shape支持2-8维度，数据格式支持ND，数据维度和x1/x2的尾轴相同
- gamma（aclTensor *，计算输入）：对应LayerNorm中的gamma， npu device侧的aclTensor，数据类型支持FLOAT，FLOAT16，BFLOAT16，shape支持2-8维度，数据格式支持ND，数据维度和x1/x2的尾轴相同
- epsilon（double *，计算输入）：表对应LayerNorm中的epsilon，host侧的aclScalar，数据类型为double
- additionalOut（bool *，计算输入）：表示是否开启X=X1+X2的输出，host侧的aclScalar，数据类型为bool
- meanOut（aclTensor *，计算输出）：表示LayerNorm的均值输出，npu device侧的aclTensor，数据类型为FLOAT，shape需要与x1/x2一致，最后一轴的size为1，数据格式支持ND
- rstdOut（aclTensor *，计算输出）：表示LayerNorm的rstd输出，npu device侧的aclTensor，数据类型为FLOAT，shape需要与x1/x2一致，最后一轴的size为1，数据格式支持ND。计算逻辑： $rstd = np.power((inputVariace + EPSLON), (-0.5))$
- yOut（aclTensor *，计算输出）：表示LayerNorm的y结果输出，npu device侧的aclTensor，数据类型与x1/x2一致，shape需要与x1/x2一致，数据格式支持ND
- xOut（aclTensor *，计算输出）：表示LayerNorm的x结果输出，npu device侧的aclTensor，数据类型与x1/x2一致，shape需要与x1/x2一致，数据格式支持ND
- workspaceSize（uint64_t *，出参）：返回用户需要在npu device侧申请的workspace大小。
- executor（aclOpExecutor **，出参）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码。（参见aclnn返回码）

说明： 第一段接口完成入参校验，出现以下场景时报错：
- 161001 (ACLNN_ERR_PARAM_NULLPTR)：如果传入参数是必选输入，输出或者必选属性，且是空指针，则返回161001。

aclnnAddLayerNorm

参数说明：
- workspace（void *，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnAddLayerNormGetWorkspaceSize获取。
- executor（aclOpExecutor *，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的AscendCL stream流。
返回值：

aclnnStatus：返回状态码。（具体参见aclnn返回码）

约束与限制

功能维度
- 数据类型支持
  - x1、x2、beta、gamma支持：FLOAT32、FLOAT16、BFLOAT16。
  - rstd、mean支持：FLOAT32。
- 数据格式支持：ND。
未支持类型说明
- DOUBLE：指令不支持DOUBLE。
- 是否支持空tensor：不支持空进空出。
- 是否非连续tensor：不支持输入非连续，不支持数据非连续。
边界值场景说明
- 当输入是inf时，输出为inf。
- 当输入是nan时，输出为nan。

调用示例

aclnn的代码可参考aclnnAddLayerNorm的调用实例，将头文件包含和两端式调用换成aclnnAddLayerNorm对应的实现即可。