功能

LayerNorm是一种归一化方法，可以将网络层输入数据归一化到[0, 1]之间。当前支持三种：NORM、PRENORM、POSTNORM三种归一化。

计算公式

Norm
标准的LayerNorm操作，公式为：

$\text{[math]}$

图1 LayerNorm计算公式图
PostNorm
add和layernorm融合算子，先将x和residual相加再做layernorm归一化，公式为：

$\text{[math]}$

图2 Add+LayerNorm计算公式图
PreNorm
add和layernorm融合算子，先将x和residual相加再做layernorm归一化。公式与PostNorm相同。和postNorm区别在于会输出x和residual相加的结果。

定义

      
       
         
         
           struct LayerNormParam {
    enum LayerNormType : int {
        LAYER_NORM_UNDEFINED = 0,
        LAYER_NORM_NORM,
        LAYER_NORM_PRENORM,
        LAYER_NORM_POSTNORM,
        LAYER_NORM_MAX,
    };
    struct NormParam {
        QuantType quantType = QUANT_UNQUANT;
        float epsilon = 1e-5;
        int32_t beginNormAxis = 0;
        int32_t beginParamsAxis = 0;
        DynamicQuantType dynamicQuantType = DYNAMIC_QUANT_UNDEFINED;
        uint8_t rsv[20] = {0};
    };
    struct PreNormParam {
        QuantType quantType = QUANT_UNQUANT;
        float epsilon = 1e-5;
        uint64_t opMode = 0;
        float zoomScaleValue = 1.0f;
        uint8_t rsv[20] = {0};
    };
    struct PostNormParam {
        QuantType quantType = QUANT_UNQUANT;
        float epsilon = 1e-5;
        uint64_t opMode = 0;
        float zoomScaleValue = 1.0f;
        uint8_t rsv[20] = {0};
    };
    LayerNormType layerType = LAYER_NORM_UNDEFINED;
    NormParam normParam;
    PreNormParam preNormParam;
    PostNormParam postNormParam;
    uint8_t rsv[8] = {0};
};

          

        

      
     

参数列表

成员名称	描述
layerType	归一化类型。 LAYER_NORM_UNDEFINED：默认值，未定义。 LAYER_NORM_NORM：norm类型。 LAYER_NORM_PRENORM：prenorm类型。 LAYER_NORM_POSTNORM：postnorm类型。
normParam	NORM参数，具体请参见表1。
preNormParam	PRETNORM参数，具体请参见表2。
postNormParam	POSTNORM参数，具体请参见表3。
rsv[8]	预留参数。

表1 normParam成员
参数	类型	默认值	描述
quantType	QuantType	QUANT_UNQUANT	量化类型。当前支持以下类型。 QUANT_UNQUANT。 QUANT_INT8。
epsilon	float	1e-5	Epsilon，归一化时加在分母上防止除零。
beginNormAxis	int32_t	0	归一化的维度，默认值为0，从第几维开始norm，同时决定输入gamma和beta维度。
beginParamsAxis	int32_t	0	归一化的维度，默认值为0，决定从第几维开始把后面的维度按轴合并。
dynamicQuantType	DynamicQuantType	DYNAMIC_QUANT_UNDEFINED	动态量化类型。默认为DYNAMIC_QUANT_UNDEFINED非动态量化。当前版本暂不支持非对称动态量化。
rsv[20]	uint8_t	{0}	预留参数。

8.0.RC2及后续版本normParam不再支持quantInputScale、quantInputOffset、quantInputAlpha量化参数。

表2 preNormParam 成员
参数	类型	默认值	描述
quantType	QuantType	QUANT_UNQUANT	量化类型。当前仅支持QUANT_UNQUANT。
epsilon	float	1e-5	Epsilon，归一化时加在分母上防止除零。
opMode	uint64_t	0	0：高精度。 1：高性能。（暂不支持）
zoomScaleValue	float	1.0f	缩放因子。
rsv[20]	uint8_t	{0}	预留参数。

表3 postNormParam成员
参数	类型	默认值	描述
quantType	QuantType	QUANT_UNQUANT	量化类型。当前支持以下类型。 QUANT_UNQUANT。 QUANT_INT8。
epsilon	float	1e-5	Epsilon，归一化时加在分母上防止除零。
opMode	uint64_t	0	0：高精度。 1：高性能。（暂不支持）
zoomScaleValue	float	1.0f	缩放因子。
rsv[20]	uint8_t	{0}	预留参数。

8.0.RC2及后续版本postNormParam不再支持quantInputScale、quantInputOffset、quantInputAlpha量化参数。

LAYER_NORM_NORM输入输出

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16/float/bf16	ND	输入。 quantType = QUANT_INT8时，数据类型为float16或bf16，最后一维的大小要32字节对齐。 quantType = QUANT_UNQUANT时，数据类型为float16、float或bf16。
gamma	[beginNormAxis:]或[1, ..., dim_n]	float16/float/bf16	ND	输入。 quantType = QUANT_UNQUANT时，根据beginNormAxis确定其余维度。 quantType = QUANT_INT8时，维度为[dim_n]，最后一维的大小要32字节对齐。dim_n前可以有任意个1。
beta	[beginNormAxis:]或[1, ..., dim_n]	float16/float/bf16	ND	输入。 quantType = QUANT_UNQUANT时，根据beginNormAxis确定其余维度。 quantType = QUANT_INT8时，维度为[dim_n]，最后一维的大小要32字节对齐。dim_n前可以有任意个1。维度需与gamma保持一致。
scale	[1]	float16/bf16	ND	输入。quantType = QUANT_INT8时才输入。
offset	[1]	int8	ND	输入。quantType = QUANT_INT8时才输入。
output	[dim_0, dim_1, ..., dim_n]	float16/float/int8/bf16	ND	输出。 quantType = QUANT_INT8时，数据类型为int8。 quantType = QUANT_UNQUANT时，数据类型为float16、float或bf16。

LAYER_NORM_NORM DYNAMIC_QUANT输入输出

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16	ND	输入。最后一维n的大小要32字节对齐，且小于等于12288。
gamma	[dim_n]	float16	ND	输入。最后一维n的大小要32字节对齐，且小于等于12288。
beta	[dim_n]	float16	ND	输入。所有属性与gamma一致。最后一维n的大小要32字节对齐，且小于等于12288。
y	[dim_0, dim_1, ..., dim_n]	int8	ND	输出。最后一维n的大小要32字节对齐，且小于等于12288。
scale	[dim_0，dim_1，... ，dim_n-1]	float	ND	输出。当quantType == QUANT_INT8且dynamicQuantType != DYNAMIC_QUANT_UNDEFINED时输出。
offset	[dim_0，dim_1，... ，dim_n-1]	float	ND	输出。当quantType == QUANT_INT8且dynamicQuantType == DYNAMIC_QUANT_ASYMMETRIC时输出。当前版本暂不支持。

LAYER_NORM_PRENORM输入输出

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输入。最后一维的大小要32字节对齐。
residual_in	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输入。最后一维的大小要32字节对齐。
gamma	[1, ..., dim_n]	float16/bf16	ND	输入。最后一维的大小要32字节对齐。dim_n前可以有任意个1。
beta	[1, ..., dim_n]	float16/bf16	ND	输入。最后一维的大小要32字节对齐。dim_n前可以有任意个1。维度需要与gamma保持一致。
output	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输出。
residual_out	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输出。Norm前的输出（等于 x + residual_in * zoom_scale）。

LAYER_NORM_POSTNORM输入输出

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16	ND	输入。最后一维的大小要32字节对齐。
residual	[dim_0, dim_1, ..., dim_n]	float16	ND	输入。最后一维的大小要32字节对齐。
gamma	[1, ..., dim_n]	float16	ND	输入。最后一维的大小要32字节对齐。dim_n前可以有任意个1。
beta	[1, ..., dim_n]	float16	ND	输入。最后一维的大小要32字节对齐。dim_n前可以有任意个1。维度需要与gamma保持一致。
scale	[1]	float16	ND	输入。当quantType = QUANT_INT8时输入。
offset	[1]	int8	ND	输入。当quantType = QUANT_INT8时输入。
output	[dim_0, dim_1, ..., dim_n]	float16	ND	输出。
outputQuant	[dim_0, dim_1, ..., dim_n]	int8	ND	输出。当quantType = QUANT_INT8时输出。

规格约束

beginNormAxis 需要小于 tensor x的维度大小。为负数时，与tensor x维度大小之和需要大于0。
Norm的动态量化只支持DYNAMIC_QUANT_SYMMETRIC对称动态量化。最后一维需要小于等于12288。
除量化场景下的scale和offset tensor，其余tensor的最后一维大小相等。

功能列表

非量化
- 基础layernorm
- add+layernorm融合（prenorm，postnorm）
量化
- layernorm量化
- layernorm对称动态量化
- add+layernorm量化（postnorm）

算子调用示例（C++）

前置条件和编译命令请参见算子调用示例。

场景：基础场景

      
       
         
         
           #include <iostream>
#include <vector>
#include <numeric>
#include "acl/acl.h"
#include "atb/operation.h"
#include "atb/types.h"
#include "atb/atb_infer.h"

#include "demo_util.h"

const int32_t DEVICE_ID = 0;
const uint32_t DIM_0 = 128;
const uint32_t DIM_1 = 256;
const int32_t BEGIN_NORM_AXIS = 1;

/**
 * @brief 准备atb::VariantPack中的所有输入tensor
 * @param contextPtr context指针
 * @param stream stream
 * @return atb::SVector<atb::Tensor> atb::VariantPack中的输入tensor
 * @note 需要传入所有host侧tensor
 */
atb::SVector<atb::Tensor> PrepareInTensor(atb::Context *contextPtr, aclrtStream stream)
{
    atb::Tensor x = CreateTensorFromVector(contextPtr,
        stream,
        std::vector<float>(DIM_0 * DIM_1, 2.0),
        ACL_FLOAT16,
        aclFormat::ACL_FORMAT_ND,
        {DIM_0, DIM_1});
    atb::Tensor gamma = CreateTensorFromVector(
        contextPtr, stream, std::vector<float>(DIM_1, 2.0), ACL_FLOAT16, aclFormat::ACL_FORMAT_ND, {DIM_1});
    atb::Tensor beta = CreateTensorFromVector(
        contextPtr, stream, std::vector<float>(DIM_1, 1.0), ACL_FLOAT16, aclFormat::ACL_FORMAT_ND, {DIM_1});
    atb::SVector<atb::Tensor> inTensors = {x, gamma, beta};
    return inTensors;
}

/**
 * @brief 创建一个beginNormAxis为1的layernorm operation
 * @return atb::Operation * 返回一个Operation指针
 */
atb::Operation *CreateLayerNormOperation()
{
    atb::infer::LayerNormParam param;
    param.layerType = atb::infer::LayerNormParam::LayerNormType::LAYER_NORM_NORM;
    param.normParam.beginNormAxis = BEGIN_NORM_AXIS;
    atb::Operation *layerNormOp = nullptr;
    CHECK_STATUS(atb::CreateOperation(param, &layerNormOp));
    return layerNormOp;
}

int main(int argc, char **argv)
{
    // 设置卡号、创建context、设置stream
    atb::Context *context = nullptr;
    void *stream = nullptr;

    CHECK_STATUS(aclInit(nullptr));
    CHECK_STATUS(aclrtSetDevice(DEVICE_ID));
    CHECK_STATUS(atb::CreateContext(&context));
    CHECK_STATUS(aclrtCreateStream(&stream));
    context->SetExecuteStream(stream);

    // 创建op
    atb::Operation *layerNormOp = CreateLayerNormOperation();
    // 准备输入tensor
    atb::VariantPack variantPack;
    variantPack.inTensors = PrepareInTensor(context, stream);  // 放入输入tensor
    atb::Tensor tensorOut = CreateTensor(ACL_FLOAT16, aclFormat::ACL_FORMAT_ND, {DIM_0, DIM_1});
    variantPack.outTensors = {tensorOut};  // 放入输出tensor

    uint64_t workspaceSize = 0;
    // 计算workspace大小
    CHECK_STATUS(layerNormOp->Setup(variantPack, workspaceSize, context));
    uint8_t *workspacePtr = nullptr;
    if (workspaceSize > 0) {
        CHECK_STATUS(aclrtMalloc((void **)(&workspacePtr), workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST));
    }
    // layernorm执行
    layerNormOp->Execute(variantPack, workspacePtr, workspaceSize, context);
    CHECK_STATUS(aclrtSynchronizeStream(stream));  // 流同步，等待device侧任务计算完成

    // 释放资源
    for (atb::Tensor &inTensor : variantPack.inTensors) {
        CHECK_STATUS(aclrtFree(inTensor.deviceData));
    }
    CHECK_STATUS(aclrtFree(tensorOut.deviceData));
    if (workspaceSize > 0) {
        CHECK_STATUS(aclrtFree(workspacePtr));
    }
    CHECK_STATUS(atb::DestroyOperation(layerNormOp));  // operation，对象概念，先释放
    CHECK_STATUS(aclrtDestroyStream(stream));
    CHECK_STATUS(DestroyContext(context));  // context，全局资源，后释放
    CHECK_STATUS(aclFinalize());
    std::cout << "Layernorm demo success!" << std::endl;
    return 0;
}