接口功能:
[object Object]基于一系列操作得到每一个token对应的Top-个位置。计算公式:
对于某个token对应的Index Query ,给定上下文Index Key ,其中为GQA对应的group size,为每一个头的维度,是上下文的长度。
每个算子分为,必须先调用“aclnnLightningIndexerGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnLightningIndexer”接口执行计算。
[object Object]
[object Object]
参数说明:
[object Object]
[object Object]返回值:
第一段接口会完成入参校验,出现以下场景时报错:
[object Object]
- 参数query中的N支持小于等于64,key、value的N支持1。
- headdim支持128。
- block_size取值为16的倍数,最大支持1024。
- 参数query、key的数据类型应保持一致。
- 参数weights不为
[object Object]时,参数query、key、weights的数据类型应保持一致。
[object Object]