IncreFlashAttentionQuantFusionPass
融合模式
量化场景,将IncreFlashAttention+AscendQuant融合为IncreFlashAttention算子,quant的scale和offset转化为ifa的quant_scale2和quant_offset2入参。

使用约束
- 仅支持IncreFlashAttention输出为fp16。
- 仅支持AscendQuant的输入为fp16,输出为int8。
- IncreFlashAttention算子的quant_scale2和quant_offset2必须为空。
- IncreFlashAttention算子必须为单输出。
支持的型号
Atlas 350 加速卡
父主题: 图融合规则说明