PromptFlashAttentionDPaddingFusionPass
融合模式
在调用PFA算子时,如果PFA输入的QKV的D轴不满足16对齐,则在PFA算子前插入Pad算子进行D轴16补齐,在PFA算子后插入Slice算子进行尺度还原。

使用约束
仅支持PromptFlashAttention为输入为D轴非16对齐场景。
支持的型号
Atlas A2训练系列产品中的AscendxxxB。
父主题: 图融合规则说明
在调用PFA算子时,如果PFA输入的QKV的D轴不满足16对齐,则在PFA算子前插入Pad算子进行D轴16补齐,在PFA算子后插入Slice算子进行尺度还原。

仅支持PromptFlashAttention为输入为D轴非16对齐场景。
Atlas A2训练系列产品中的AscendxxxB。