展示如何通过msProf工具的流水图特性,分析算子的瓶颈点,并实现vector算子的性能优化。
可以发现MTE2流水在VADD计算时,没有执行搬运指令,且MTE2流水为该算子的性能瓶颈,需提高MTE2的搬运效率以实现算子性能优化。
1 2 3 4 |
constexpr int32_t BUFFER_NUM = 2; // tensor num for each queue ... pipe.InitBuffer(inQueueY, BUFFER_NUM, 1024 * sizeof(half)); ... |
在VADD指令计算时,MTE2上的搬运指令也同步执行,实现了更高效的数据搬运。