GroupedMatmul算子性能调优案例-优秀实践-算子实践参考-Ascend C算子开发-编程指南-CANN社区版9.1.0-beta.1开发文档-昇腾社区

[object Object][object Object]

本案例对分组Matmul即GroupedMatmul算子的per-token量化场景进行性能分析和优化，GroupedMatmul算子计算过程（通过python代码表达）为：

[object Object]

验证平台为Atlas A2 训练系列产品/Atlas A2 推理系列产品。

优化分析以如下算子规格为例：

表 1 算子规格

[object Object][object Object]

[object Object]

主要介绍以下优化方法：

[object Object]

固定8核测试，即当前性能和后续优化tiling中numBlocks固定设置为8。

通过msProf算子调优工具获取算子性能数据：

[object Object]

固定8核进行测试的情况下，通过msprof op命令获取指令的cycle占比数据如下：

图 1 指令的cycle占比数据ArithmeticUtilization.csv（性能总耗时为218.1us）[object Object][object Object]

通过msprof op simulator获取到的指令流水图如下图所示：

图 2 指令流水图[object Object][object Object]

结合上述两种数据（真实数据和仿真数据）进行性能分析：

[object Object]

将AI Core中的AIC核和AIV核启动比例设置为1:2。每次AIC输出的数据，由两个AIV并行计算对应的反量化和激活函数；在Vector侧代码的循环里，AIV0和AIV1交替进行计算（前提条件，循环次数不为1）。代码示例如下：

[object Object]
AIC和AIV启动比例设置为1:2后，出现Cube和Vector计算各自都有间隙、相互之间都有等待耗时的情况。分析原因是因为Vector和Cube计算存在使用一份workspace进行数据传递的场景，通过4份workspace的方案进行优化：host按4倍baseM * baseN申请workspace，Cube侧代码在计算前可以跳过前4轮的等待。

[object Object]
Vector计算开启double buffer，InitBuffer指定分配内存块个数为2。

[object Object]

[object Object]

[object Object]