aclnnSparseFlashAttention-Transformer类接口-算子接口（aclnn）-算子库-API参考-CANN社区版9.1.0-beta.3开发文档-昇腾社区

[object Object]

[object Object][object Object]undefined

[object Object]

接口功能：sparse_flash_attention（SFA）是针对大序列长度推理场景的高效注意力计算模块，该模块通过“只计算关键部分”大幅减少计算量，然而会引入大量的离散访存，造成数据搬运时间增加，进而影响整体性能。
计算公式：

\text{softmax}(\frac{Q@\tilde{K}^T}{\sqrt{d_k}})@\tilde{V}

其中 $\tilde{K},\tilde{V}$ 为基于某种选择算法（如[object Object]）得到的重要性较高的Key和Value，一般具有稀疏或分块稀疏的特征， $d_k$ 为 $Q,\tilde{K}$ 每一个头的维度。

[object Object]

每个算子分为，必须先调用“aclnnSparseFlashAttentionGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnSparseFlashAttention”接口执行计算。

[object Object]

[object Object]

[object Object]

确定性计算：aclnnSparseFlashAttention默认确定性实现。
该接口支持推理场景下使用。
N1支持1~64和128。
block_size为一个block的token数，block_size取值为16的倍数，且最大支持1024。
参数query中的D和key、value的D值相等为512，参数query_rope中的Dr和key_rope的Dr值相等为64。
参数query、key、value的数据类型必须保持一致。
支持sparse_block_size整除block_size。
- Atlas 350 加速卡：
  - 只支持sparse_block_size为1。
- [object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]、[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：
  - 支持[1,128]，且要求是2的幂次方，在PageAttention场景下要求sparse_block_size整除block_size

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]