接口功能:QuantLightningIndexer在LightningIndexer的基础上支持了Per-Token-Head量化输入。
计算公式:
每个算子分为,必须先调用“aclnnQuantLightningIndexerGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnQuantLightningIndexer”接口执行计算。
[object Object]
[object Object]
- 参数说明:
[object Object][object Object]
- 确定性说明:aclnnQuantLightningIndexer默认确定性实现。
- 参数query中的N支持小于等于64/32/24/16,key的N支持1。
- headdim支持128。
- block_size取值为16的倍数,最大支持1024。
- 参数query、key的数据类型应保持一致。
- Atlas A3 训练系列产品/Atlas A3 推理系列产品:
- query和key的数据类型支持
[object Object]。 - 仅支持weights、query_dequant_scale、key_dequant_scale数据类型为
[object Object]。
- query和key的数据类型支持
- Ascend 950PR/Ascend 950DT:
- query N1仅支持8、16、24、32、64。
- query和key的数据类型支持
[object Object]。 - 当query和key的数据类型为
[object Object]时,支持weights、query_dequant_scale、key_dequant_scale的数据类型为[object Object]或[object Object]; - 当query和key的数据类型为
[object Object]时,仅支持weights、query_dequant_scale、key_dequant_scale数据类型为[object Object]; - 当query和key的数据类型为
[object Object]时,仅支持weights、query_dequant_scale、key_dequant_scale数据类型为[object Object]。
[object Object]