昇腾社区首页
中文
注册

PromptFlashAttentionDPaddingFusionPass

融合模式

在调用PFA算子时,如果PFA输入的QKV的D轴不满足16对齐,则在PFA算子前插入Pad算子进行D轴16补齐,在PFA算子后插入Slice算子进行尺度还原。

使用约束

仅支持PromptFlashAttention为输入为D轴非16对齐场景。

支持的型号

Atlas A2训练系列产品中的AscendxxxB。