通过BT Buffer实现高效的bias计算-矩阵计算-SIMD算子性能优化-算子实践参考-Ascend C算子开发-编程指南-CANN社区版9.1.0-beta.1开发文档-昇腾社区

[object Object]

【优先级】高

【描述】算子中进行带bias的矩阵乘计算时，可将bias数据搬运至C2(Bias Table Buffer)上，调用一次Mmad接口实现矩阵乘加bias的计算，或者直接调用Matmul高阶API完成功能。相比于先将矩阵乘的结果从CO1(L0C)搬运到GM上，再搬运到UB上进行加bias的过程，减少了数据搬运的次数，可提升内存使用效率。数据流图对比如下：

图 1 反例数据流图[object Object][object Object]

图 2 正例数据流图[object Object][object Object]

【反例】

该算子进行带bias的矩阵乘计算时，过程如下：

将矩阵乘的计算结果从CO1(L0C)搬运到workspace(GM)上；
从workspace搬运到UB上；
在UB上进行加bias的运算；
最后将结果搬运到GM。

当循环n次该计算过程，则分别增加了n次CO1->workspace、workspace->UB的搬运。

[object Object]

【正例】

该算子进行带bias的矩阵乘计算时，先将bias搬运到BT上，调用一次Mmad接口实现矩阵乘加bias的计算。

[object Object]