Normalize

产品支持情况

产品	是否支持
Atlas 350 加速卡	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	x
Atlas 推理系列产品AI Core	√
Atlas 推理系列产品Vector Core	x
Atlas 训练系列产品	x

功能说明

LayerNorm中，已知均值和方差，计算shape为[A，R]的输入数据的标准差的倒数rstd和y，其计算公式如下：

$\text{[math]}$

其中，E和Var分别代表输入在R轴的均值，方差，γ为缩放系数，β为平移系数，ε为防除零的权重系数。

函数原型

通过sharedTmpBuffer入参传入临时空间

template < typename U, typename T, bool isReuseSource = false, const NormalizeConfig& config = NLCFG_NORM>
__aicore__ inline void Normalize(const LocalTensor<T>& output, const LocalTensor<float>& outputRstd, const LocalTensor<float>& inputMean, const LocalTensor<float>& inputVariance, const LocalTensor<T>& inputX, const LocalTensor<U>& gamma, const LocalTensor<U>& beta, const LocalTensor<uint8_t>& sharedTmpBuffer, const float epsilon, const NormalizePara& para)

接口框架申请临时空间

template < typename U, typename T, bool isReuseSource = false, const NormalizeConfig& config = NLCFG_NORM>
__aicore__ inline void Normalize(const LocalTensor<T>& output, const LocalTensor<float>& outputRstd, const LocalTensor<float>& inputMean, const LocalTensor<float>& inputVariance, const LocalTensor<T>& inputX, const LocalTensor<U>& gamma, const LocalTensor<U>& beta, const float epsilon, const NormalizePara& para)

由于该接口的内部实现中涉及复杂的计算，需要额外的临时空间来存储计算过程中的中间变量。临时空间支持接口框架申请和开发者通过sharedTmpBuffer入参传入两种方式。

接口框架申请临时空间，开发者无需申请，但是需要预留临时空间的大小。

通过sharedTmpBuffer入参传入，使用该tensor作为临时空间进行处理，接口框架不再申请。该方式开发者可以自行管理sharedTmpBuffer内存空间，并在接口调用完成后，复用该部分内存，内存不会反复申请释放，灵活性较高，内存利用率也较高。

接口框架申请的方式，开发者需要预留临时空间；通过sharedTmpBuffer传入的情况，开发者需要为tensor申请空间。临时空间大小BufferSize的获取方式如下：通过Normalize Tiling中提供的GetNormalizeMaxMinTmpSize接口获取所需最大和最小临时空间大小，最小空间可以保证功能正确，最大空间用于提升性能。

参数说明

表1 模板参数说明

参数名

描述

beta，gamma操作数的数据类型。

Atlas 350 加速卡，支持的数据类型为：half、bfloat16_t、float。

Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持的数据类型为: half、float。

Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持的数据类型为: half、float。

Atlas 推理系列产品AI Core，支持的数据类型为: half、float。

output，inputX操作数的数据类型。

Atlas 350 加速卡，支持的数据类型为：half、bfloat16_t、float。

Atlas A3 训练系列产品/Atlas A3 推理系列产品，支持的数据类型为: half、float。

Atlas A2 训练系列产品/Atlas A2 推理系列产品，支持的数据类型为: half、float。

Atlas 推理系列产品AI Core，支持的数据类型为: half、float。

isReuseSource

该参数预留，传入默认值false即可。

config

配置Normalize接口中输入输出相关信息。NormalizeConfig类型，定义如下。

struct NormalizeConfig {
    ReducePattern reducePattern = ReducePattern::AR;
    int32_t aLength = -1;
    bool isNoBeta = false;
    bool isNoGamma = false;
    bool isOnlyOutput = false;
};

reducePattern：当前仅支持ReducePattern::AR模式，表示输入的内轴R轴为reduce计算轴。
aLength：用于描述输入的A轴大小。支持的取值如下：
- -1：默认值。取接口参数para中的aLength作为A轴大小。
- 1：支持outputRstd数据非对齐搬出，支持inputMean，inputVariance数据非对齐搬入。aLength为其它取值时，不支持上述三个输入输出的非对齐搬入和非对齐搬出。该取值需要与接口参数para中的aLength数值一致。请注意，仅在Atlas 350 加速卡上支持该取值。
- 其它值：该值需要与接口参数para中的aLength数值一致。
isNoBeta：计算时，输入beta是否使用。
- false：默认值，Normalize计算中使用输入beta。
- true：Normalize计算中不使用输入beta。此时，公式中与beta相关的计算被省略。
isNoGamma：可选输入gamma是否使用。
- false：默认值，Normalize计算中使用可选输入gamma。
- true：Normalize计算中不使用输入gamma。此时，公式中与gamma相关的计算被省略。
isOnlyOutput：是否只输出y，不输出标准差的倒数rstd。当前该参数仅支持取值为false，表示y和rstd的结果全部输出。

表2 接口参数说明

参数名称

输入/输出

含义

output

输出

目的操作数，shape为[A, R]，LocalTensor数据结构的定义请参考LocalTensor。