aclnnPromptFlashAttention

产品支持情况

[object Object]undefined

功能说明

算子功能：全量推理场景的FlashAttention算子。
计算公式：

self-attention（自注意力）利用输入样本自身的关系构建了一种注意力模型。其原理是假设有一个长度为 $n$ 的输入样本序列 $x$ ， $x$ 的每个元素都是一个 $d$ 维向量，可以将每个 $d$ 维向量看作一个token embedding，将这样一条序列经过3个权重矩阵变换得到3个维度为 $n*d$ 的矩阵。

self-attention的计算公式一般定义如下，其中 $Q、K、V$ 为输入样本的重要属性元素，是输入样本经过空间变换得到，且可以统一到一个特征空间中。公式及算子名称中的"Attention"为"self-attention"的简写。
$Attention(Q,K,V)=Score(Q,K)V$
本算子中Score函数采用Softmax函数，self-attention计算公式为：
$Attention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d}})V$
其中： $Q$ 和 $K^T$ 的乘积代表输入 $x$ 的注意力，为避免该值变得过大，通常除以 $d$ 的开根号进行缩放，并对每行进行softmax归一化，与 $V$ 相乘后得到一个n*d的矩阵。

函数原型

算子执行接口为，必须先调用“aclnnPromptFlashAttentionGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnPromptFlashAttention”接口执行计算。

[object Object]

aclnnPromptFlashAttentionGetWorkspaceSize

参数说明
[object Object]
返回值

返回aclnnStatus状态码，具体参见。

第一段接口会完成入参校验，出现以下场景时报错：
[object Object]

aclnnPromptFlashAttention

参数说明
[object Object]
返回值

返回aclnnStatus状态码，具体参见。

约束说明

确定性计算：
- aclnnPromptFlashAttention默认确定性实现。
该接口与PyTorch配合使用时，需要保证CANN相关包与PyTorch相关包的版本匹配。
入参为空的处理：算子内部需要判断参数query是否为空，如果是空则直接返回。参数query不为空Tensor，参数key、value为空tensor（即S2为0），则attentionOut填充为全零。attentionOut为空Tensor时，框架会处理。其余在上述参数说明中标注了“可传入nullptr”的入参为空指针时，不进行处理。
query、key、value数据排布格式支持从多种维度解读，其中B（Batch）表示输入样本批量大小、S（Seq-Length）表示输入样本序列长度、H（Head-Size）表示隐藏层的大小、N（Head-Num）表示多头数、D（Head-Dim）表示隐藏层最小的单元尺寸，且满足D=H/N。
query，key，value输入，功能使用限制如下：
- 输入shape限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：
    - 支持B轴小于等于65536(64k)，输入类型包含INT8时D轴非32对齐或输入类型为FLOAT16或BFLOAT16时D轴非16对齐时，B轴仅支持到128。
    - 支持N轴小于等于256。
    - S支持小于等于20971520（20M）。部分长序列场景下，如果计算量过大可能会导致pfa算子执行超时（aicore error类型报错，errorStr为:timeout or trap error），此场景下建议做S切分处理，注：这里计算量会受B、S、N、D等的影响，值越大计算量越大。典型的会超时的长序列（即B、S、N、D的乘积较大）场景包括但不限于：
      [object Object]
    - 支持D轴小于等于512。inputLayout为BSH或者BSND时，要求N*D小于65535。
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]： TND场景下query，key，value输入的综合限制：
    - T小于等于65536;
    - N等于8/16/32/64/128，且Q_N、K_N、V_N相等;
    - Q_D、K_D等于192，V_D等于128/192;
    - 数据类型仅支持BFLOAT16;
    - sparse模式仅支持sparse=0且不传mask，或sparse=3且传入mask；
    - 当sparse=3时，要求每个batch单独的actualSeqLengths < actualSeqLengthsKv。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：
    - 支持B轴小于等于128；
    - 支持N轴小于等于256；
    - 支持S轴小于等于65535(64k), Q_S或KV_S非128对齐，Q_S和KV_S不等长的场景不支持配置atten_mask；
    - 支持D轴小于等于512。
- 输入数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持FLOAT16、BFLOAT16。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：数据类型仅支持FLOAT16。
pseShift功能使用限制如下：
- 输入数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持FLOAT16、BFLOAT16。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：仅支持nullptr。
attenMask功能使用限制如下：
- 输入shape限制：通常建议shape输入Q_S, KV_S; B, Q_S, KV_S; 1, Q_S, KV_S; B, 1, Q_S, KV_S; 1, 1, Q_S, KV_S，其中Q_S为query的shape中的S，KV_S为key和value的shape中的S。
- 输入数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持BOOL、INT8、UINT8。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：仅支持BOOL。
- 其他限制：对于attenMask的KV_S为非32对齐的场景，建议padding到32对齐来提高性能，多余部分填充成1。
actualSeqLengths输入，功能使用限制如下：
- 输入值域限制：该入参中每个batch中的有效Sequence Length应该不大于query中对应batch的Sequence Length。
- 输入数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持INT64。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：数据类型支持INT64。
preTokens输入，功能使用限制如下：
- 输入数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持INT64。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：仅支持取值2147483647。
nextTokens输入，功能使用限制如下：
- 输入数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持INT64。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：仅支持取值0和2147483647。
inputLayout输入，功能使用限制如下：
- 输入数据类型限制：
  - 当前支持BSH、BSND、BNSD、BNSD_BSND（输入为BNSD时，输出格式为BSND）。用户不特意指定时建议传入"BSH"。
numKeyValueHeads输入，功能使用限制如下：
- 输入属性限制：需要满足numHeads整除numKeyValueHeads，numHeads与numKeyValueHeads的比值不能大于64，且在BSND、BNSD、BNSD_BSND场景下，需要与shape中的key/value的N轴shape值相同，否则报错。
- 输入数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持INT64。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：仅支持取值0。
attentionOut输出，功能使用限制如下：
- shape限制：当inputLayout为BNSD_BSND时，输入query的shape是BNSD，输出shape为BSND；其余情况该入参的shape需要与入参query的shape保持一致。
- 数据类型限制：
  - [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]：数据类型支持FLOAT16、BFLOAT16。
  - [object Object]Atlas 推理系列加速卡产品[object Object]：仅支持FLOAT16。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]