输入输出

RMS_NORM_NORM DYNAMIC_QUANT

参数

维度

数据类型

格式

描述

x

[dim_0, dim_1, ..., dim_n]

float16

ND

最后一维n的大小要32字节对齐,且小于等于12288。

gamma

[dim_n]

float16

ND

最后一维n的大小要32字节对齐,且小于等于12288。

beta

[dim_n]

float16

ND

最后一维n的大小要32字节对齐,且小于等于12288。

output

[dim_0, dim_1, ..., dim_n]

int8

ND

最后一维n的大小要32字节对齐,且小于等于12288。

scale

[dim_0, dim_1, ..., dim_n-1]

float

ND

当quantType == QUANT_INT8且dynamicQuantType != DYNAMIC_QUANT_UNDEFINED时输出。

offset

[dim_0, dim_1, ..., dim_n-1]

float

ND

当quantType == QUANT_INT8且dynamicQuantType == DYNAMIC_QUANT_ASYMMETRIC时输出。

当前版本暂不支持。

RMS_NORM_POSTNORM quantType = QUANT_INT8

参数

维度

数据类型

格式

描述

x

[dim_0, dim_1, ..., dim_n]

float16/bf16

ND

输入tensor0,最后一维的大小要32字节对齐。所有Tensor最后一维的n大小需保持一致。

residual

[dim_0, dim_1, ..., dim_n]

float16/bf16

ND

输入tensor1,最后一维的大小要32字节对齐。

gamma

[dim_n]/[1, dim_n]

float16/bf16

ND

输入tensor2,最后一维的大小要32字节对齐。

scale

[1]

float16/bf16

ND

输入tensor3,量化scale参数。

offset

[1]

int8

ND

输入tensor4,量化offset参数。

outputQuant

[dim_0, dim_1, ..., dim_n]

int8

ND

输出tensor0,维度数和各维度值与x一致。最后一维的大小要32字节对齐。

output

[dim_0, dim_1, ..., dim_n]

float16/bf16

ND

输出tensor1,维度数和各维度值与x一致。最后一维的大小要32字节对齐。

除scale和offset参数外,其余tensor最后一维的n大小需保持一致,dim_n=32*n(n≥1)。