参数 |
维度 |
数据类型 |
格式 |
描述 |
---|---|---|---|---|
x |
[dim_0, dim_1, ..., dim_n] |
float16 |
ND |
最后一维n的大小要32字节对齐,且小于等于12288。 |
gamma |
[dim_n] |
float16 |
ND |
最后一维n的大小要32字节对齐,且小于等于12288。 |
beta |
[dim_n] |
float16 |
ND |
最后一维n的大小要32字节对齐,且小于等于12288。 |
output |
[dim_0, dim_1, ..., dim_n] |
int8 |
ND |
最后一维n的大小要32字节对齐,且小于等于12288。 |
scale |
[dim_0, dim_1, ..., dim_n-1] |
float |
ND |
当quantType == QUANT_INT8且dynamicQuantType != DYNAMIC_QUANT_UNDEFINED时输出。 |
offset |
[dim_0, dim_1, ..., dim_n-1] |
float |
ND |
当quantType == QUANT_INT8且dynamicQuantType == DYNAMIC_QUANT_ASYMMETRIC时输出。 当前版本暂不支持。 |
参数 |
维度 |
数据类型 |
格式 |
描述 |
---|---|---|---|---|
x |
[dim_0, dim_1, ..., dim_n] |
float16/bf16 |
ND |
输入tensor0,最后一维的大小要32字节对齐。所有Tensor最后一维的n大小需保持一致。 |
residual |
[dim_0, dim_1, ..., dim_n] |
float16/bf16 |
ND |
输入tensor1,最后一维的大小要32字节对齐。 |
gamma |
[dim_n]/[1, dim_n] |
float16/bf16 |
ND |
输入tensor2,最后一维的大小要32字节对齐。 |
scale |
[1] |
float16/bf16 |
ND |
输入tensor3,量化scale参数。 |
offset |
[1] |
int8 |
ND |
输入tensor4,量化offset参数。 |
outputQuant |
[dim_0, dim_1, ..., dim_n] |
int8 |
ND |
输出tensor0,维度数和各维度值与x一致。最后一维的大小要32字节对齐。 |
output |
[dim_0, dim_1, ..., dim_n] |
float16/bf16 |
ND |
输出tensor1,维度数和各维度值与x一致。最后一维的大小要32字节对齐。 |
除scale和offset参数外,其余tensor最后一维的n大小需保持一致,dim_n=32*n(n≥1)。 |