带宽优化

首先可以按profiling中的数据计算出MTE实际带宽：搬运数据量 / 对应搬运耗时，其中“搬运数据量”需根据实际情况确认（不包含重复搬运涉及的数据量）。

同时在某些算子过程中会存在数据重复搬移的场景，此时需要考虑到缓存的利用，以Matmul算子中的MTE2带宽为例，发现随着矩阵大小增加MTE2带宽逐渐降低，如表1所示。

可以观察到随着矩阵增大，缓存命中率逐渐降低，此时我们可以修改对应的任务分配算法以提升数据在缓存中的利用率来提高缓存命中；例如在当前用例中，重排任务分配得到带宽前后对比图，如图2 带宽前后对比图所示。

图2 带宽前后对比图

通常在优化带宽后，会观察当前实际带宽相较于理论带宽的利用率，若当前带宽利用率>90%则为较优。

父主题： 单算子性能分析及优化