昇腾社区首页
中文
注册
开发者
下载

输入输出

RMS_NORM_NORM DYNAMIC_QUANT

参数

维度

数据类型

格式

描述

x

[dim_0, dim_1, ..., dim_n]

float16

ND

最后一维n的大小要32字节对齐,且小于等于12288。

gamma

[dim_n]

float16

ND

最后一维n的大小要32字节对齐,且小于等于12288。

beta

[dim_n]

float16

ND

最后一维n的大小要32字节对齐,且小于等于12288。

output

[dim_0, dim_1, ..., dim_n]

int8

ND

最后一维n的大小要32字节对齐,且小于等于12288。

scale

[dim_0, dim_1, ..., dim_n-1]

float

ND

当quantType == QUANT_INT8且dynamicQuantType != DYNAMIC_QUANT_UNDEFINED时输出。

offset

[dim_0, dim_1, ..., dim_n-1]

float

ND

当quantType == QUANT_INT8且dynamicQuantType == DYNAMIC_QUANT_ASYMMETRIC时输出。

当前版本暂不支持。

当quantType=INT8时,除scale、offset和rstd参数外,其余tensor最后一维的n大小须为32的倍数。

仅当quantType=INT8时,dynamicQuantType设置才会生效。

RMS_NORM_POSTNORM quantType = QUANT_INT8

参数

维度

数据类型

格式

描述

x

[dim_0, dim_1, ..., dim_n]

float16/bf16

ND

输入tensor0,最后一维的大小须为32的倍数。所有Tensor最后一维的n大小需保持一致。

residual

[dim_0, dim_1, ..., dim_n]

float16/bf16

ND

输入tensor1,最后一维的大小须为32的倍数。

gamma

[dim_n]/[1, dim_n]

float16/bf16

ND

输入tensor2,最后一维的大小须为32的倍数。

scale

[1]

float16/bf16

ND

输入tensor3,量化scale参数。

offset

[1]

int8

ND

输入tensor4,量化offset参数。

outputQuant

[dim_0, dim_1, ..., dim_n]

int8

ND

输出tensor0,维度数和各维度值与x一致。最后一维的大小须为32的倍数。

output

[dim_0, dim_1, ..., dim_n]

float16/bf16

ND

输出tensor1,维度数和各维度值与x一致。最后一维的大小须为32的倍数。

除scale和offset参数外,其余tensor最后一维的n大小需保持一致。