PromptFlashAttentionQuantFusionPass
融合模式
量化场景,将PromptFlashAttention+AscendQuant融合为PromptFlashAttention算子,quant的scale和offset转化为pfa的quant_scale2和quant_offset2入参。
使用约束
- 仅支持PromptFlashAttention为fp16输出。
- 仅支持AscendQuant为fp16输入int8输出。
- PromptFlashAttention算子的quant_scale2和quant_offset2必须为空。
- PromptFlashAttention算子必须为单输出。
支持平台:Atlas A2训练系列产品/Atlas 800I A2推理产品和Atlas 训练系列产品中的AscendxxxB。
父主题: 图融合规则说明