【优先级】高
【描述】算子中进行带bias的矩阵乘计算时,可将bias数据搬运至C2(Bias Table Buffer)上,调用一次Mmad接口实现矩阵乘加bias的计算,或者直接调用Matmul高阶API完成功能。相比于先将矩阵乘的结果从CO1(L0C)搬运到GM上,再搬运到UB上进行加bias的过程,减少了数据搬运的次数,可提升内存使用效率。数据流图对比如下:
图 1 反例数据流图[object Object][object Object]
图 2 正例数据流图[object Object][object Object]
【反例】
该算子进行带bias的矩阵乘计算时,过程如下:
- 将矩阵乘的计算结果从CO1(L0C)搬运到workspace(GM)上;
- 从workspace搬运到UB上;
- 在UB上进行加bias的运算;
- 最后将结果搬运到GM。
当循环n次该计算过程,则分别增加了n次CO1->workspace、workspace->UB的搬运。
[object Object]
【正例】
该算子进行带bias的矩阵乘计算时,先将bias搬运到BT上,调用一次Mmad接口实现矩阵乘加bias的计算。
[object Object]