aclnnSparseFlashAttention-Transformer类接口-算子接口（aclnn）-算子库接口-API-CANN社区版9.0.0-beta.2开发文档-昇腾社区

[object Object]

[object Object][object Object]undefined

[object Object]

接口功能：sparse_flash_attention（SFA）是针对大序列长度推理场景的高效注意力计算模块，该模块通过“只计算关键部分”大幅减少计算量，然而会引入大量的离散访存，造成数据搬运时间增加，进而影响整体性能。
计算公式：

\text{softmax}(\frac{Q@\tilde{K}^T}{\sqrt{d_k}})@\tilde{V}

其中 $\tilde{K},\tilde{V}$ 为基于某种选择算法（如[object Object]）得到的重要性较高的Key和Value，一般具有稀疏或分块稀疏的特征， $d_k$ 为 $Q,\tilde{K}$ 每一个头的维度。

[object Object]

每个算子分为，必须先调用“aclnnSparseFlashAttentionGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnSparseFlashAttention”接口执行计算。

[object Object]

[object Object]

[object Object]

[object Object][object Object]

[object Object]

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]