开发者
资源

AddRmsNormQuantFusionPass

融合模式

将满足如下Pattern的结构融合成AddRmsNormQuant算子。

场景一:该融合将符合图融合pattern的AddRmsNorm算子和Quantize算子融合成融合算子AddRmsNormQuant,其中AddRmsNorm算子的输出y作为Quantize算子的第一个输入。

场景二:该融合将符合图融合pattern的AddRmsNorm算子、Reshape算子和Quantize算子融合成融合算子AddRmsNormQuant,其中AddRmsNorm算子的输出y作为Reshape算子的输入,Reshape算子的输出作为Quantize算子的第一个输入。

使用约束

  • 如下形态下,Quantize的输出仅支持量化类型为int8。
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品
    • Atlas 推理系列产品
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品
  • AddRmsNorm x1的数据类型仅支持float16和bfloat16,且x1的shape尾轴需32B对齐。
  • 融合前的AddRmsNorm不输出rstd。
  • 融合后的AddRmsNormQuant不输出y2。
  • 融合前后的输入scales、zero_points中的元素个数须与输入gamma保持一致。当融合前输入gamma的shape维度与scales或者zero_point的不一致时,建议使用场景二进行融合。

支持的型号

Atlas A2 训练系列产品/Atlas A2 推理系列产品

Atlas 推理系列产品

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas 350 加速卡