AddRmsNormQuantFusionPass
融合模式
将满足如下Pattern的结构融合成AddRmsNormQuant算子。
场景一:该融合将符合图融合pattern的AddRmsNorm算子和Quantize算子融合成融合算子AddRmsNormQuant,其中AddRmsNorm算子的输出y作为Quantize算子的第一个输入。

场景二:该融合将符合图融合pattern的AddRmsNorm算子、Reshape算子和Quantize算子融合成融合算子AddRmsNormQuant,其中AddRmsNorm算子的输出y作为Reshape算子的输入,Reshape算子的输出作为Quantize算子的第一个输入。

使用约束
- 如下形态下,Quantize的输出仅支持量化类型为int8。
Atlas A2 训练系列产品 /Atlas A2 推理系列产品 Atlas 推理系列产品 Atlas A3 训练系列产品 /Atlas A3 推理系列产品
- AddRmsNorm x1的数据类型仅支持float16和bfloat16,且x1的shape尾轴需32B对齐。
- 融合前的AddRmsNorm不输出rstd。
- 融合后的AddRmsNormQuant不输出y2。
- 融合前后的输入scales、zero_points中的元素个数须与输入gamma保持一致。当融合前输入gamma的shape维度与scales或者zero_point的不一致时,建议使用场景二进行融合。
支持的型号
Atlas 350 加速卡
父主题: 图融合规则说明