aclnnQuantGroupedMatmulInplaceAdd-Transformer类接口-算子接口（aclnn）-算子库接口-API-CANN社区版9.0.0-beta.2开发文档-昇腾社区

[object Object]

[object Object][object Object]undefined

[object Object]

接口功能：在micro-batch训练场景，需要做micro-batch的梯度累计，会存在大量GroupedMatMul后接InplaceAdd的融合场景。QuantGroupedMatmulInplaceAdd算子将上述算子融合起来，提高网络性能。实现分组矩阵乘计算和加法计算，基本功能为矩阵乘和加法的组合，如T-C量化场景下 $y_i[m,n]=(x1_i[m,k_i] \times x2_i[k_i,n]) * scale2_i[n] * scale1_i + y_i[m,n], i=1...g$ ，其中g为分组个数， $m/k_i/n$ 为对应的维度。

相较于接口，此接口变化：
- 输入输出参数类型均为aclTensor。
- 在GroupedMatMul计算结束后增加了InplaceAdd计算。
- 仅支持量化场景（1.mx量化；2.T-C量化）。量化方式请参见。
- 仅支持x1、x2是FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8的输入。
计算公式：
- mx量化：
$y_i[m,n] = \sum_{j=0}^{kLoops-1} ((\sum_{k=0}^{gsK-1} (x1Slice_i * x2Slice_i)) * (scale1_i[m, j] * scale2_i[j, n])) + y_i[m,n]$
其中，gsK代表K轴的量化的block size即32， $x1Slice_i$ 代表 $x1_i$ 第m行长度为gsK的向量， $x2Slice_i$ 代表 $x2_i$ 第n列长度为gsK的向量，K轴均从 $j*gsK$ 起始切片，j的取值范围[0, kLoops), kLoops=ceil( $K_i$ / gsK)，支持最后的切片长度不足gsK。
- T-C量化：
$y_i=(x1_i\times x2_i) * scale2_i * scale1_i + y_i$

[object Object]

每个算子分为，必须先调用“aclnnQuantGroupedMatmulInplaceAddGetWorkspaceSize”接口获取入参并根据计算流程计算所需workspace大小，再调用“aclnnQuantGroupedMatmulInplaceAdd”接口执行计算。

[object Object]

[object Object]

[object Object]

参数说明
[object Object]
返回值

aclnnStatus：返回状态码，具体参见。

第一段接口完成入参校验，出现以下场景时报错：
[object Object]

[object Object]

参数说明
[object Object]
返回值

返回aclnnStatus状态码，具体参见。

[object Object]

确定性说明：aclnnQuantGroupedMatmulInplaceAdd默认确定性实现。
x1和x2的每一维大小在32字节对齐后都应小于int32的最大值2147483647，且内轴大小需小于2097152。
- 动态量化（T-C量化）场景支持的输入类型为：
  - 不为空的参数支持的数据类型组合要满足下表：[object Object]undefined
  - scale1Optional/scale2要满足以下约束（其中g为matmul组数即分组数）：[object Object]undefined
- 动态量化（mx量化）场景支持的数据类型为：
  - 数据类型组合要满足下表：[object Object]undefined
  - scale1Optional/scale2要满足以下约束（其中g为matmul组数即分组数，g_i为第i个分组（下标从0开始））：[object Object]undefined
groupList第1维最大支持1024，即最多支持1024个group。

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]