aclnnGroupedMatmulWeightNz-Transformer类接口-算子接口（aclnn）-算子库接口-API-CANN社区版9.0.0-beta.2开发文档-昇腾社区

[object Object]

[object Object][object Object]undefined

[object Object]

接口功能：实现分组矩阵乘计算，每组矩阵乘的维度大小可以不同。基本功能为矩阵乘，如 $y_i[m_i,n_i]=x_i[m_i,k_i] times weight_i[k_i,n_i], i=1...g$ ，其中g为分组个数， $m_i/k_i/n_i$ 为对应shape。输入输出数据类型均为aclTensorList，对应的功能为：
- k轴分组： $k_i$ 各不相同，但 $m_i/n_i$ 每组相同，此时 $x_i/weight_i$ 可以在 $k_i$ 上拼接。
- m轴分组： $k_i$ 各组相同， $weight_i/y_i$ 可以在 $n_i$ 上拼接。
与接口对比新增功能：
- 输入的weight的数据格式支持AI处理器亲和数据排布格式（FRACTAL_NZ）。
- 新增参数quantGroupSize，整数型参数，代表分组量化（per-group）的分组大小，不涉及分组量化时，填0。
- Atlas 350 加速卡：暂不支持quantGroupSize参数。
计算公式：

[object Object][object Object]
- 非量化场景： $y_i=x_i \times weight_i + bias_i$
[object Object][object Object]
- 量化场景（无perTokenScaleOptional）：
  - x为INT8，bias为INT32
    $y_i=(x_i \times weight_i + bias_i) * scale_i + offset_i$
  - x为INT8，bias为BFLOAT16/FLOAT16/FLOAT32，无offset
    $y_i=(x_i \times weight_i) * scale_i + bias_i$
- 量化场景（有perTokenScaleOptional）：
  - x为INT8，bias为INT32
    $y_i=(x_i \times weight_i + bias_i) * scale_i * per\_token\_scale_i$
  - x为INT8，bias为BFLOAT16/FLOAT16/FLOAT32
    $y_i=(x_i \times weight_i) * scale_i * per\_token\_scale_i + bias_i$
- 量化场景 (mx量化，当前无bias无激活层)：
  $y_i=(x_i * per\_token\_scale_i) \times (weight_i * scale_i)$
[object Object][object Object]
- 反量化场景： $y_i=(x_i \times weight_i + bias_i) * scale_i$
[object Object][object Object]
- 伪量化(perchannel、pergroup)场景：
  $y_i=x_i \times (weight_i + antiquant\_offset_i) * antiquant\_scale_i + bias_i$
- 伪量化(mx)场景：
  
  x为BFLOAT16/FLOAT16输入，weight为FLOAT32(表示8个FLOAT4_E2M1)/FLOAT4_E2M1输入
  $y_i=x_i \times (weight_i * antiquant\_scale_i) + bias_i$
  x为FLOAT8_E4M3FN输入，weight为FLOAT32(表示8个FLOAT4_E2M1)/FLOAT4_E2M1输入
  $y_i=(x_i * per\_token\_scale_i) \times (weight_i * antiquant\_scale_i) + bias_i$
- 伪量化(K-CG)场景：
  $y_i=(x_i \times (weight_i * antiquant\_scale_i)) * scale_i * per\_token\_scale_i + bias_i$
  其中antiquant_scale_i为weight矩阵pergroup量化参数，scale_i为weight矩阵perchannel量化参数，per_token_scale_i为 pertoken量化参数。

[object Object]

每个算子分为，必须先调用“aclnnGroupedMatmulWeightNzGetWorkspaceSize”接口获取入参并根据计算流程计算所需workspace大小，再调用“aclnnGroupedMatmulWeightNz”接口执行计算。

[object Object]

参数说明：
[object Object]
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：
  - 上表数据类型列中的角标“1”代表该系列支持的数据类型，角标“2”代表该系列不支持的数据类型。
  - [object Object]可使用[object Object]及[object Object]完成ND到NZ转换。当传入INT32时，接口内部将每个INT32识别成8个INT4。
  - 输入参数[object Object]、[object Object]，输出参数[object Object]支持最多128个tensor。
- Atlas 350 加速卡：
  - 上表数据类型列中的角标“2”代表该系列支持的数据类型。
  - [object Object]支持FLOAT16、BFLOAT16、FLOAT8_E4M3FN、INT8。
  - [object Object]支持FLOAT16、BFLOAT16、FLOAT4_E2M1、INT8、INT4。支持FRACTAL_NZ格式。当最后两根轴其中一根轴为1（即n=1或k=1）时，不支持私有格式，不能调用该接口。可使用aclnnNpuFormatCast接口完成输入Format从ND到AI处理器亲和数据排布格式（NZ）的转换。如原始weight为转置状态且想使用性能更高的非转置通路计算，可使用aclnnPermute接口转为非转置后再调用aclnnNpuFormatCast接口。当数据类型为FLOAT4_E2M1时，还需要在aclnnNpuFormatCast调用后，调用aclnnCast接口将FLOAT32表示的FLOAT4_E2M1转换为正确的类型。但当为INT4类型时，需要使用aclnnConvertWeightToInt4Pack接口完成数据格式从ND到NZ和数据类型从INT32到INT4的转换。当传入FLOAT32或者INT32时，接口内部每个FLOAT32/INT32识别成8个FLOAT4_E2M1/INT4。
  - [object Object]支持UINT64/INT64/BFLOAT16/FLOAT32。[object Object]、[object Object]暂不支持。
  - [object Object]支持m轴分组，仅非量化支持不分组。
  - [object Object]暂不支持。
  - [object Object]支持0、1、2、4、5。综合约束请参见[object Object]约束说明[object Object]。
  - 输入参数[object Object]、[object Object]，输出参数[object Object]在非量化场景支持最多1024个tensor，在伪量化和全量化场景支持最多128个tensor。
返回值：

aclnnStatus：返回状态码，具体参见。

第一段接口完成入参校验，若出现以下错误码，则对应原因为：
[object Object]

[object Object]

参数说明：
[object Object]undefined
返回值：

返回aclnnStatus状态码，具体参见。

[object Object]

确定性计算：
- aclnnGroupedMatmulWeightNz默认确定性实现。

[object Object]

公共约束
- 如果传入groupListOptional，当groupListType为0时，groupListOptional必须为非负单调非递减数列；当groupListType为1时，groupListOptional必须为非负数列，且长度不能为1；groupListType为2时，groupListOptional的第二列数据必须为非负数列，且长度不能为1。
- x和weight中每一组tensor的每一维大小在32字节对齐后都应小于int32的最大值2147483647。
- actType（int64_t，计算输入）：整数型参数，代表激活函数类型，取值范围为0-5。
非量化场景支持的输入类型为：
- x为FLOAT16、weight为FLOAT16、biasOptional为FLOAT16、scaleOptional为空、offsetOptional为空、antiquantScaleOptional为空、antiquantOffsetOptional为空、perTokenScaleOptional为空、activationInputOptional为空、out为FLOAT16。
- x为BFLOAT16、weight为BFLOAT16、biasOptional为FLOAT32、scaleOptional为空、offsetOptional为空、antiquantScaleOptional为空、antiquantOffsetOptional为空、perTokenScaleOptional为空、activationInputOptional为空、out为BFLOAT16。
量化场景支持的输入类型为：
- x为INT8、weight为INT8、biasOptional为INT32、scaleOptional为BFLOAT16、offsetOptional为空、antiquantScaleOptional为空、antiquantOffsetOptional为空、perTokenScaleOptional为空或FLOAT32、activationInputOptional为空、out为BFLOAT16。
- x为INT8、weight为INT8、biasOptional为INT32、scaleOptional为FLOAT32、offsetOptional为空、antiquantScaleOptional为空、antiquantOffsetOptional为空、perTokenScaleOptional为空或为FLOAT32、activationInputOptional为空、out为FLOAT16。
- x为INT4、weight为INT4、biasOptional为空、scaleOptional为UINT64、offsetOptional为空、antiquantScaleOptional为空、antiquantOffsetOptional为空、perTokenScaleOptional为空或为FLOAT32、activationInputOptional为空、out为FLOAT16或BFLOAT16。weight支持NZ转置输入，即输入为[E,N,K]，但view shape为[E,K,N]以保证算子识别转置状态，转置输入下， $k/G$ 要求按照64对齐， K按照64对齐， N按照16对齐， ND不支持转置输入。
伪量化场景支持的输入类型为：
- 伪量化参数antiquantScaleOptional和antiquantOffsetOptional的shape要满足下表（其中g为matmul组数，G为pergroup数， $G_i$ 为第i个tensor的pergroup数）：
  [object Object]undefined
- x为INT8、weight为INT4、biasOptional为FLOAT32、scaleOptional为UINT64、antiquantScaleOptional为空、antiquantOffsetOptional为空、perTokenScaleOptional为FLOAT32、activationInputOptional为空。此场景支持对称量化和非对称量化：
  - 对称量化场景：
    - 输出out的dtype为BFLOAT16或FLOAT16
    - offsetOptional为空
    - 仅支持count模式（算子不会检查groupListType的值），k要求为quantGroupSize的整数倍，且要求k <= 18432。其中quantGroupSize为k方向上pergroup量化长度，当前支持quantGroupSize=256。
    - scale为pergroup与perchannel离线融合后的结果，shape要求为 $[E, quantGroupNum, N]$ ，其中 $quantGroupNum=k \div quantGroupSize$ 。
    - Bias为计算过程中离线计算的辅助结果，值要求为 $8\times weight \times scale$ ，并在第1维累加，shape要求为 $[E, N]$ 。
    - 要求N为8的整数倍。
  - 非对称量化场景：
    - 输出out的dtype为FLOAT16
    - 仅支持count模式（算子不会检查groupListType的值）。
    - {k, n}要求为{7168, 4096}或者{2048, 7168}。
    - scale为pergroup与perchannel离线融合后的结果，shape要求为 $[E, 1, N]$ 。
    - offsetOptional不为空。非对称量化offsetOptional为计算过程中离线计算辅助结果，即 $antiquantOffset \times scale$ ，shape要求为 $[E, 1, N]$ ，dtype为FLOAT32。
    - Bias为计算过程中离线计算的辅助结果，值要求为 $8\times weight \times scale$ ，并在第1维累加，shape要求为 $[E, N]$ 。
    - 要求N为8的整数倍。
- 伪量化场景下，若weight的类型为INT8，仅支持perchannel模式；若weight的类型为INT4，对称量化支持perchannel和pergroup两种模式。若为pergroup，pergroup数G或 $G_i$ 必须要能整除对应的 $k_i$ 。若weight为多tensor，定义pergroup长度 $s_i = k_i / G_i$ ，要求所有 $s_i(i=1,2,...g)$ 都相等。非对称量化支持perchannel模式。
- 伪量化场景下若weight的类型为INT4，则weight中每一组tensor的最后一维大小都应是偶数。 $weight_i$ 的最后一维指weight不转置时 $weight_i$ 的N轴或当weight转置时 $weight_i$ 的K轴。并且在pergroup场景下，当weight转置时，要求pergroup长度 $s_i$ 是偶数。
不同groupType支持场景:
- 量化、伪量化仅支持groupType为-1和0场景。
- 支持场景中单表示单tensor，多表示多tensor，表示顺序为x，weight，y，例如单多单表示支持x为单tensor，weight多tensor，y单tensor的场景。
  [object Object]undefined

[object Object][object Object]

公共约束
- groupListType：支持取值0、1。当groupListType为0时，groupListOptional必须为非负单调非递减数列；当groupListType为1时，groupListOptional必须为非负数列。
- x和weight中每一组tensor的每一维大小在32字节对齐后都应小于int32的最大值2147483647。
- actType（int64_t，计算输入）：整数型参数，代表激活函数类型，取值范围为0-5。
  - 在伪量化和非量化场景下，actType仅支持0。
  - 在全量化场景下，当x和weight为INT8，量化模式为静态T-C量化或动态K-C量化，scale数据类型为FLOAT32或BFLOAT16时，actType支持传入0、1、2、4、5。其余全量化场景actType仅支持0。
当前支持非量化场景、伪量化场景与全量化场景
非量化场景支持的数据类型为：
- 输入weight矩阵的n轴与k轴需要满足32B对齐
- 以下入参为空：scaleOptional、offsetOptional、antiquantScaleOptional、antiquantOffsetOptional、perTokenScaleOptional、activationInputOptional、activationQuantScaleOptional、activationQuantOffsetOptional、activationFeatureOutOptional
- 不为空的参数支持的数据类型组合要满足下表[object Object]undefined
伪量化场景支持的数据类型为：
- 以下入参为空：offsetOptional、antiquantOffsetOptional、activationInputOptional、activationQuantScaleOptional、activationQuantOffsetOptional、activationFeatureOutOptional
- 不为空的参数支持的数据类型组合要满足下表[object Object]undefined
- 约束说明：
  - 当x为FLOAT8_E4M3FN/FLOAT16/BFLOAT16，weight为FLOAT4_E2M1/FLOAT32的场景， groupSize只支持32。
  - 当x为INT8， weight为INT4/INT32的场景， groupSize只支持128、192、256、512。
  - 当x的shape固定为（M, K）, out的shape固定为（M, N）。
  - 当x和weight的类型分别为BFLOAT16/FLOAT16和FLOAT4_E2M1/FLOAT32时，或为INT8和INT4/INT32时，仅支持x、weight均不转置, 为FLOAT8_E4M3FN和FLOAT4_E2M1/FLOAT32时仅支持x不转置且weight转置。
  - antiquantScale的转置与否和weight保持一致。
静态量化场景支持的输入类型为：
- 以下入参为空：offsetOptional、antiquantScaleOptional、antiquantOffsetOptional、perTokenScaleOptional、activationInputOptional、activationQuantScaleOptional、activationQuantOffsetOptional、activationFeatureOutOptional
- 不为空的参数支持的数据类型组合要满足下表：[object Object]undefined
- scaleOptional要满足下表（其中g为matmul组数即分组数）：[object Object]undefined
动态量化（K-T && K-C量化）场景支持的输入类型为：
- 以下入参为空：offsetOptional、antiquantScaleOptional、antiquantOffsetOptional、activationInputOptional、activationQuantScaleOptional、activationQuantOffsetOptional、activationFeatureOutOptional
- 不为空的参数支持的数据类型组合要满足下表：[object Object]undefined
- scaleOptional要满足下表（其中g为matmul组数即分组数）[object Object]undefined
- perTokenScaleOptional要满足下表：[object Object]undefined
不同groupType支持场景:
- 支持场景中单表示单tensor，多表示多tensor，表示顺序为x，weight，out，例如单多单表示支持x为单tensor，weight多tensor，out单tensor的场景。
  [object Object]undefined

[object Object][object Object]

调用示例代码如下，仅供参考，具体编译和执行过程请参考。

伪量化调用示例

[object Object]

全量化调用示例

[object Object]