- 接口功能:完成二级量化mxfp4的矩阵乘计算,其中参数x2需为NZ格式,可通过或对format为ND的x2处理得到NZ格式。
- 计算公式
- x1、x2分别为矩阵计算的左右矩阵,数据类型为FLOAT4_E2M1
- x1Levl0Scale、x2Levl0Scale一级量化参数,数据类型为FLOAT32
- x1Levl1Scale、x2Levl1Scale二级量化参数,数据类型为FLOAT8_E8M0
- bias可选参数,矩阵乘运算后累加的偏置,数据类型为FLOAT32
- level0GroupSize为一级量化groupsize的大小,仅支持512
- level1GroupSize为一级量化groupsize的大小,仅支持32
每个算子分为,必须先调用“aclnnDualLevelQuantMatmulWeightNzGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnDualLevelQuantMatmulWeightNz”接口执行计算。
[object Object]
[object Object]
确定性计算:aclnnDualLevelQuantMatmulWeightNz默认确定性实现。
[object Object]