输入输出
RMS_NORM_NORM DYNAMIC_QUANT
参数  | 
维度  | 
数据类型  | 
格式  | 
描述  | 
|---|---|---|---|---|
x  | 
[dim_0, dim_1, ..., dim_n]  | 
float16  | 
ND  | 
最后一维n的大小要32字节对齐,且小于等于12288。  | 
gamma  | 
[dim_n]  | 
float16  | 
ND  | 
最后一维n的大小要32字节对齐,且小于等于12288。  | 
beta  | 
[dim_n]  | 
float16  | 
ND  | 
最后一维n的大小要32字节对齐,且小于等于12288。  | 
output  | 
[dim_0, dim_1, ..., dim_n]  | 
int8  | 
ND  | 
最后一维n的大小要32字节对齐,且小于等于12288。  | 
scale  | 
[dim_0, dim_1, ..., dim_n-1]  | 
float  | 
ND  | 
当quantType == QUANT_INT8且dynamicQuantType != DYNAMIC_QUANT_UNDEFINED时输出。  | 
offset  | 
[dim_0, dim_1, ..., dim_n-1]  | 
float  | 
ND  | 
当quantType == QUANT_INT8且dynamicQuantType == DYNAMIC_QUANT_ASYMMETRIC时输出。 当前版本暂不支持。  | 
RMS_NORM_POSTNORM quantType = QUANT_INT8
参数  | 
维度  | 
数据类型  | 
格式  | 
描述  | 
|---|---|---|---|---|
x  | 
[dim_0, dim_1, ..., dim_n]  | 
float16/bf16  | 
ND  | 
输入tensor0,最后一维的大小要32字节对齐。所有Tensor最后一维的n大小需保持一致。  | 
residual  | 
[dim_0, dim_1, ..., dim_n]  | 
float16/bf16  | 
ND  | 
输入tensor1,最后一维的大小要32字节对齐。  | 
gamma  | 
[dim_n]/[1, dim_n]  | 
float16/bf16  | 
ND  | 
输入tensor2,最后一维的大小要32字节对齐。  | 
scale  | 
[1]  | 
float16/bf16  | 
ND  | 
输入tensor3,量化scale参数。  | 
offset  | 
[1]  | 
int8  | 
ND  | 
输入tensor4,量化offset参数。  | 
outputQuant  | 
[dim_0, dim_1, ..., dim_n]  | 
int8  | 
ND  | 
输出tensor0,维度数和各维度值与x一致。最后一维的大小要32字节对齐。  | 
output  | 
[dim_0, dim_1, ..., dim_n]  | 
float16/bf16  | 
ND  | 
输出tensor1,维度数和各维度值与x一致。最后一维的大小要32字节对齐。  | 
除scale和offset参数外,其余tensor最后一维的n大小需保持一致,dim_n=32*n(n≥1)。  | 
||||