参数列表

在使用时应带有命名空间atb::infer::PagedAttentionParam的参数,成员描述如下:

成员名称

类型

默认值

描述

headNum

int32_t

0

query 头大小。

qkScale

float

1.0

算子tor值。

kvHeadNum

int32_t

0

kv头数量。

maskType

MaskType

UNDEFINED

mask类型。

batchRunStatusEnable

bool

false

是否开启控制可计算batch。

quantType

QuantType

TYPE_QUANT_UNDEFINED

量化类型。

outDataType

aclDataType

ACL_DT_UNDEFINED

output数据类型。

hasQuantOffset

bool

false

开启量化功能后是否使用offset。

compressType

CompressType

COMPRESS_TYPE_UNDEFINED

压缩方式。

calcType

CalcType

CALC_TYPE_UNDEFINED

计算类型。

scaleType

ScaleType

SCALE_TYPE_TOR

scale类型:为SCALE_TYPE_LOGN时,不支持quanttype为2和3。

inputLayout

InputLayout

TYPE_BSND

数据排布格式默认为BSND。

上表中类型为自定义类型的,其描述如下: