开发者
资源
[object Object][object Object]

矩阵乘输出的N方向对齐,即矩阵乘结果C矩阵按ND_ALIGN格式输出。在Matmul矩阵乘法中,常用的矩阵数据格式有ND、NZ,相关介绍可参考章节。ND_ALIGN是矩阵的另一种数据格式,该格式一般用于N方向非32字节对齐的矩阵乘计算中,配置结果C矩阵为ND_ALIGN格式后,将按照N方向32字节对齐的补齐规则输出C矩阵,详细内容请见

以M=16,K=16,N=14,A、B矩阵数据类型为half的Matmul为具体示例,说明ND_ALIGN输出功能。当配置C矩阵为ND格式并输出到Global Memory时,按照原始N方向大小非32字节对齐输出如所示。当配置C矩阵为ND格式时,按照N方向32字节对齐输出如所示,C矩阵的N方向最后两列由下一行的实际数据进行填充补齐,以实现N方向对齐到32字节并输出。当配置C矩阵为ND_ALIGN格式时,Matmul API会在C矩阵的N方向上通过添加无效数据来填充最后两列,以确保N方向对齐至32字节并输出,如所示。

图 1 ND格式C矩阵N方向非32字节对齐示意图[object Object][object Object]

图 2 ND格式C矩阵N方向32字节对齐示意图[object Object][object Object]

图 3 ND_ALIGN格式C矩阵N方向32字节对齐示意图[object Object][object Object]

[object Object]

Matmul计算中N方向非32字节对齐,输出C矩阵的N方向要求32字节对齐的场景。

[object Object]

若配置C矩阵为ND_ALIGN格式输出,则为C矩阵申请的Buffer空间为N向上32字节对齐后的空间大小。

[object Object]

完整的算子样例请参考

  • Tiling实现

    调用SetCType接口,设置C矩阵的数据格式为CubeFormat::ND_ALIGN,其它Tiling实现与相同。

    [object Object]
  • Kernel实现

    相较于,ND_ALIGN输出功能要求在创建Matmul对象时,设置模板参数cType的数据格式为CubeFormat::ND_ALIGN。

    [object Object]