aclnnNsaSelectedAttentionInfer-Transformer类接口-算子接口（aclnn）-算子库接口-API-CANN社区版9.0.0-beta.2开发文档-昇腾社区

[object Object][object Object][object Object]undefined

[object Object]

接口功能：Native Sparse Attention推理过程中，Selected Attention的计算。
计算公式：

Self-attention（自注意力）利用输入样本自身的关系构建了一种注意力模型。其原理是假设有一个长度为 $n$ 的输入样本序列 $x$ ， $x$ 的每个元素都是一个 $d$ 维向量，可以将每个 $d$ 维向量看作一个token embedding，将这样一条序列经过3个权重矩阵变换得到3个维度为 $n*d$ 的矩阵。

Selected Attention的计算由topk索引取数与attention计算融合而成，外加paged attention取kvCache。首先，通过 $topkIndices$ 索引从 $key$ 中取出 $key_{topk}$ ，从 $value$ 中取出 $value_{topk}$ ，计算self_attention公式如下：
$Attention(query,key,value)=Softmax(\frac{query · key_{topk}^T}{\sqrt{d}})value_{topk}$
其中 $query$ 和 $key_{topk}^T$ 乘积代表输入 $x$ 的注意力，为避免该值变得过大，通常除以 $d$ 的开根号进行缩放，并对每行进行softmax归一化，与 $value_{topk}$ 相乘后得到一个 $n*d$ 的矩阵。

[object Object]

每个算子分为，必须先调用“aclnnNsaSelectedAttentionInferGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnNsaSelectedAttentionInfer”接口执行计算。

[object Object]

[object Object]

[object Object]

参数说明
[object Object]
返回值

aclnnStatus：返回状态码，具体参见。

第一段接口完成入参校验，出现以下场景时报错：
[object Object]

[object Object]

参数说明
[object Object]
返回值

返回aclnnStatus状态码，具体参见。

[object Object]

确定性计算：
- aclnnNsaSelectedAttentionInfer默认确定性实现。
支持B轴小于等于3072。
仅支持paged attention。
多token推理场景下，仅支持query的S轴最大等于4，并且此时要求每个batch单独的actualQSeqLen <= actualSelKvSeqLen。

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]