输入输出

RMS_NORM_NORM

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16/float/bf16	ND	float数据类型仅在rstd为true时支持，且rstd为true时只能使用float数据类型。所有Tensor最后一维的dim_n大小需保持一致，其他维度的大小没有约束。最后一维的大小需进行32字节对齐。
gamma	[1, ..., dim_n] / [dim_i, ..., dim_n] (0 <= i <= n)	float16/float/bf16	ND	最后一维的大小需进行32字节对齐。 normParam.rstd为true时，维度数需要大于0，并小于x的维度数，gamma的维度从最后一维向前，每一维都需要和x保持一致。 rstd为false时，维度为[dim_n]。数据类型与x保持一致。 dim_n前可以有任意个1。
beta	[1, ..., dim_n]	float16/float/bf16	ND	quantType = INT8时输入。最后一维的大小要32字节对齐。数据类型与x保持一致。 dim_n前可以有任意个1。维度需要和gamma保持一致。
scale	[1]	float16/bf16	ND	当quantType为QUANT_INT8时才输入。数据类型与x保持一致。
offset	[1]	int8	ND	当quantType为QUANT_INT8时才输入。
output	[dim_0, dim_1，... ，dim_n]	float16/float/int8/bf16	ND	quantType=INT8时输出int8。
rstd	[dim_0, ... ,1]	float16/float/bf16	ND	normParam.rstd为true时输出。第i维大于等于x的维度数减去gamma的维度数时，大小为1，否则和x中对应维度大小相等。
除scale、offset和rstd参数外，其余tensor最后一维的n大小需保持一致。

RMS_NORM_NORM DYNAMIC_QUANT

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16	ND	最后一维n的大小要32字节对齐，且小于等于12288。
gamma	[dim_n]	float16	ND	最后一维n的大小要32字节对齐，且小于等于12288。
beta	[dim_n]	float16	ND	最后一维n的大小要32字节对齐，且小于等于12288。
output	[dim_0, dim_1, ..., dim_n]	int8	ND	最后一维n的大小要32字节对齐，且小于等于12288。
scale	[dim_0, dim_1, ..., dim_n-1]	float	ND	当quantType == QUANT_INT8且dynamicQuantType != DYNAMIC_QUANT_UNDEFINED时输出。
offset	[dim_0, dim_1, ..., dim_n-1]	float	ND	当quantType == QUANT_INT8且dynamicQuantType == DYNAMIC_QUANT_ASYMMETRIC时输出。当前版本暂不支持。

RMS_NORM_PRENORM quantType = QUANT_UNQUANT

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	最后一维的大小要32字节对齐。
beta	[1, ..., dim_n]	float16/bf16	ND	当hasBias为True时输入。最后一维的大小要32字节对齐。 dim_n前可以有任意个1。
residual	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	最后一维的大小要32字节对齐。
gamma	[1, ..., dim_n]	float16/bf16	ND	最后一维的大小要32字节对齐。 dim_n前可以有任意个1。维度需要与beta保持一致。
output	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输出tensor，维度数和各维度值与x一致。
resOut	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输出tensor，维度数和各维度值与x一致。
所有tensor最后一维的n大小需保持一致。

RMS_NORM_PRENORM quantType = QUANT_INT8

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16	ND	最后一维的大小要32字节对齐。
residual	[dim_0, dim_1, ..., dim_n]	float16	ND	最后一维的大小要32字节对齐。
gamma	[1, ..., dim_n]	float16	ND	最后一维的大小要32字节对齐。 dim_n前可以有任意个1。
beta	[1, ..., dim_n]	float16	ND	最后一维的大小要32字节对齐。 dim_n前可以有任意个1。维度需要与gamma保持一致。
scale	[1]	float16	ND	量化scale参数。
offset	[1]	int8	ND	量化offset参数。
outputQuant	[dim_0, dim_1, ..., dim_n]	int8	ND	输出tensor，维度数和各维度值与x一致。
output	[dim_0, dim_1, ..., dim_n]	float16	ND	输出tensor，维度数和各维度值与x一致。
除scale和offset参数外，其余tensor最后一维的n大小需保持一致。

RMS_NORM_POSTNORM quantType = QUANT_UNQUANT

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	当前支持quantType = QUANT_UNQUANT。最后一维的大小要32字节对齐。
beta	[1, ..., dim_n]	float16/bf16	ND	当hasBias为True时输入。最后一维的大小要32字节对齐。 dim_n前可以有任意个1。
residual	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	最后一维的大小要32字节对齐。
gamma	[1, ..., dim_n]	float16/bf16	ND	最后一维的大小要32字节对齐。 dim_n前可以有任意个1。维度需要与beta保持一致。
output	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输出tensor，维度数和各维度值与x一致。
所有tensor最后一维的n大小需保持一致。

RMS_NORM_POSTNORM quantType = QUANT_INT8

参数	维度	数据类型	格式	描述
x	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输入tensor0，最后一维的大小要32字节对齐。所有Tensor最后一维的n大小需保持一致。
residual	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输入tensor1，最后一维的大小要32字节对齐。
gamma	[dim_n]/[1, dim_n]	float16/bf16	ND	输入tensor2，最后一维的大小要32字节对齐。
scale	[1]	float16/bf16	ND	输入tensor3，量化scale参数。
offset	[1]	int8	ND	输入tensor4，量化offset参数。
outputQuant	[dim_0, dim_1, ..., dim_n]	int8	ND	输出tensor0，维度数和各维度值与x一致。最后一维的大小要32字节对齐。
output	[dim_0, dim_1, ..., dim_n]	float16/bf16	ND	输出tensor1，维度数和各维度值与x一致。最后一维的大小要32字节对齐。
除scale和offset参数外，其余tensor最后一维的n大小需保持一致，dim_n=32*n（n≥1）。

父主题： RmsNormOperation