GroupedMatmulTransFusionPass
融合模式
融合模式一:将Transpose或TransposeD从图中删除,并将weight转置信息添加在算子属性上。如下图所示。
该融合模式支持的产品如下。
Atlas 350 加速卡

融合模式二:将weight前的Reshape+Transpose/TransposeD+Reshape从图中删除,并将weight转置信息打在算子属性上。如下图所示。
该融合模式支持的产品如下。
Atlas 350 加速卡

融合模式三:Atlas 350 加速卡的伪量化场景下,将weight/antiquantScale前的Reshape+Transpose/TransposeD+Reshape从图中删除,并将weight转置信息打在算子属性上。如下图所示。

融合模式四:Atlas 350 加速卡的MX量化场景下,融合模式是:将Transpose或TransposeD从图中删除,并将x和weight的转置信息打在算子属性上。如下图所示:

Atlas 350 加速卡的MX量化场景下,scale跟随weight的转置信息,pertokenScale跟随x的转置信息。
使用约束
- 只支持输入x为单tensor、weight为单tensor、y为单tensor的场景(单tensor表示tensorList输入中只有一个tensor)。
- Transpose/TransposeD支持第二轴和第三轴转置。