aclnnQuantMatmulV3

产品支持情况

[object Object]undefined

功能说明

算子功能：完成量化的矩阵乘计算，最小支持输入维度为2维，最大支持输入维度为6维。相似接口有aclnnMm（仅支持2维Tensor作为输入的矩阵乘）和aclnnBatchMatMul（仅支持三维的矩阵乘，其中第一维是Batch维度），支持T-C && T-T。
计算公式：
- 无bias：
  $out = x1@x2 * scale + offset$
- bias INT32：
  $out = (x1@x2 + bias) * scale + offset$
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：支持bias BFLOAT16/FLOAT32（此场景无offset）。
  $out = x1@x2 * scale + bias$

函数原型

每个算子分为，必须先调用“aclnnQuantMatmulV3GetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnQuantMatmulV3”接口执行计算。

[object Object]

aclnnQuantMatmulV3GetWorkspaceSize

参数说明：
[object Object]
- [object Object]Atlas 推理系列产品[object Object]：
  - x1、x2支持INT8
  - scale支持UINT64、INT64
  - bias支持INT32
  - out支持FLOAT16、INT8
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：
  - x1、x2支持INT8、INT32、INT4
  - scale数据类型支持UINT64、INT64、FLOAT32、BFLOAT16
  - bias支持INT32、BFLOAT16、FLOAT32。当x1和x2为INT32、INT4时，bias的shape只支持1维（n，）
  - x1和x2为INT32、INT4时，transposeX1仅支持false
  - out支持FLOAT16、INT8、BFLOAT16、INT32
返回值：

aclnnStatus：返回状态码，具体参见。

第一阶段接口完成入参校验，出现以下场景时报错:
[object Object]

aclnnQuantMatmulV3

参数说明：
[object Object]
返回值：

aclnnStatus：返回状态码，具体参见。

约束说明

确定性说明：
- [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：aclnnQuantMatmulV3默认确定性实现。
[object Object]Atlas 推理系列产品[object Object]：
- x1的最后一维大小不能超过65535，x1的最后一维指transposeX1为true时的m或transposeX1为false时的k。
- x2的最后一维大小不能超过65535，x2的最后一维指transposeX2为true时的k或transposeX2为false时的n。
  - 当输入x2为NZ时，不支持transposeX2为false的场景。
- 支持调用本接口前，通过对format为ND的x2处理得到NZ格式。
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：
- x1的最后一维大小不能超过65535，x1的最后一维指transposeX1为true时的m或transposeX1为false时的k。当x1数据类型为INT32、INT4时，为INT4量化场景，当前仅支持transposeX1为false情况。其中当x1数据类型为INT4时，维度表示：（batch，m，k），要求k为偶数，当x1数据类型为INT32时，每个INT32数据存放8个INT4数据，对应维度表示：（batch，m，k // 8），要求k为8的倍数。
- x2的最后一维大小不能超过65535，x2的最后一维指transposeX2为true时的k或transposeX2为false时的n。当输入x2为NZ时，不支持transposeX2为false的场景
  - 数据类型为INT4时，在transposeX2为true时shape形如（n，k），要求k为偶数；在transposeX2为false时shape形如（k，n），要求n为偶数。
  - 数据类型为INT32时，每个INT32数据存放8个INT4数据，在transposeX2为true时shape形如（n，k // 8），要求k为8的倍数；在transposeX2为false时shape形如（k，n // 8），要求n为8的倍数。
  - 可使用aclnnConvertWeightToINT4Pack接口完成x2从INT32（1个int32在0~3bit位存储1个int4）到INT32（1个int32存储8个int4）或INT4（1个int4表示1个int4）的数据格式转换，具体参见aclnnConvertWeightToINT4Pack接口。
- 支持调用本接口前，通过对format为ND的x2处理得到NZ格式。

输入和输出支持以下数据类型组合，以下组合支持T-C && T-T：

[object Object]

[object Object]Atlas 推理系列产品[object Object]：
[object Object]undefined
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：
[object Object]undefined

调用示例

[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：通用场景示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：x2为NZ场景的示例代码如下(transposeX2=false)，仅供参考，具体编译和执行过程请参考。

[object Object]
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：INT4量化场景示例代码如下(x1和x2数据类型为INT4，transposeX2=false)，仅供参考，具体编译和执行过程请参考。

[object Object]
[object Object]Atlas 推理系列产品[object Object]：x2为NZ场景的示例代码如下(transposeX2=true)，仅供参考，具体编译和执行过程请参考。

[object Object]