通过FP Buffer存放量化参数实现高效随路量化-矩阵计算-SIMD算子性能优化-算子实践参考-Ascend C算子开发-编程指南-CANN社区版9.1.0-beta.1开发文档-昇腾社区

[object Object]

【优先级】高

【描述】算子实现中对矩阵乘结果进行量化计算时，可将量化参数搬运到C2PIPE2GM（Fixpipe Buffer）上，调用一次Fixpipe接口实现矩阵乘结果的量化计算。相比于将矩阵乘的结果从CO1（L0C）搬运到GM，再从GM搬运到UB，在UB进行量化计算的过程，数据搬运的次数更少，内存使用效率更高。

[object Object]

图 1 反例数据流图[object Object][object Object]

图 2 正例数据流图[object Object][object Object]

【反例】

对矩阵乘结果进行量化计算的过程如下：

将矩阵乘的结果从CO1搬运到workspace上；
再从workspace搬运到UB上；
将量化参数搬运到UB上，和矩阵乘的结果一起在UB上进行一系列量化计算；
将最终量化结果从UB搬运到GM上。

相比于正确示例多增加了CO1->workspace、workspace->UB的搬运过程和量化的vector计算。

[object Object]

【正例】

该算子对矩阵乘的结果进行量化计算时，可将量化参数搬运到FB(Fixpipe Buffer)上，调用一次Fixpipe接口实现矩阵乘结果的量化计算。

[object Object]