aclnnQuantMatmulV4

产品支持情况

[object Object]undefined

功能说明

接口功能：兼容aclnnQuantMatmulV3接口功能，在其基础上支持K-C && K-T。完成量化的矩阵乘计算，最小支持输入维度为2维，最大支持输入维度为6维。相似接口有aclnnMm（仅支持2维Tensor作为输入的矩阵乘）和aclnnBatchMatMul（仅支持三维的矩阵乘，其中第一维是Batch维度）。
计算公式：
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：
  - 无pertoken无bias：
    $out = x1@x2 * scale + offset$
  - bias INT32：
    $out = (x1@x2 + bias) * scale + offset$
  - bias BFLOAT16/FLOAT32（此场景无offset）：
    $out = x1@x2 * scale + bias$
  - pertoken无bias：
    $out = x1@x2 * scale * pertokenScaleOptional$
  - pertoken， bias INT32（此场景无offset）：
    $out = (x1@x2 + bias) * scale * pertokenScaleOptional$
  - pertoken， bias BFLOAT16/FLOAT16/FLOAT32（此场景无offset）：
    $out = x1@x2 * scale * pertokenScaleOptional + bias$
- [object Object]Atlas 推理系列产品[object Object]：
  - 无bias：
    $out = x1@x2 * scale + offset$
  - bias int32：
    $out = (x1@x2 + bias) * scale + offset$

函数原型

每个算子分为，必须先调用“aclnnQuantMatmulV4GetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnQuantMatmulV4”接口执行计算。

[object Object]

aclnnQuantMatmulV4GetWorkspaceSize

参数说明：
[object Object]
- [object Object]Atlas 推理系列产品[object Object]：
  - x1与x2的最后一维大小不能超过65535（x1的最后一维指transposeX1为true时的m或transposeX1为false时的k，x2的最后一维指transposeX2为true时的k或transposeX2为false时的n）。
  - x1数据类型支持INT8。
  - x2数据类型支持INT8，为AI处理器亲和数据排布格式时，不支持transposeX2为false的场景。
  - bias数据类型支持INT32。
  - scale数据类型支持UINT64、INT64。
  - 不支持pertokenScaleOptional。
  - out数据类型支持FLOAT16、INT8。
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：
  - x1与x2的最后一维大小不能超过65535。
  - x1数据类型支持INT8、INT32、INT4。当数据类型为INT32、INT4时，为INT4量化场景，当前仅支持2-6维ND格式，transposeX1为false情况。其中当x1数据类型为INT4时，维度表示：（batch，m，k），要求k为偶数，当x1数据类型为INT32时，每个INT32数据存放8个INT4数据，对应维度表示：（batch，m，k // 8），要求k为8的倍数。
  - x2数据类型支持INT8、INT32、INT4。当数据类型为INT32、INT4时，为INT4量化场景，当前仅支持2维ND格式。
  - 数据类型为INT4时，在transposeX2为true情况下各个维度表示：（n，k），要求k为偶数；在transposeX2为false情况下各个维度表示：（k，n），要求n为偶数。
  - 数据类型为INT32时，每个INT32数据存放8个INT4数据，在transposeX2为true情况下各个维度表示：（n，k // 8），要求k为8的倍数；在transposeX2为false情况下各个维度表示：（k，n // 8），要求n为8的倍数。
  - 可使用aclnnConvertWeightToINT4Pack接口完成x2从INT32（1个int32在0~3bit位存储1个int4）到INT32（1个int32存储8个int4）或INT4（1个int4表示1个int4）的数据格式转换，具体参见。
  - bias数据类型支持INT32，BFLOAT16，FLOAT16，FLOAT32。当x1和x2为INT32、INT4时，bias的shape只支持1维（n，）。
  - x1和x2为INT32、INT4时，transposeX1仅支持false。
  - out数据类型支持FLOAT16、INT8、BFLOAT16、INT32。
  - x1数据类型支持INT8。
  - x2数据类型支持INT8，当最后两根轴其中一根轴为1（即n=1或k=1）时，x2不支持私有格式，仅支持ND格式。
  - bias数据类型支持INT32，BFLOAT16，FLOAT16，FLOAT32。
  - out数据类型支持FLOAT16、INT8、BFLOAT16。
返回值：

aclnnStatus：返回状态码，具体参见。

第一段接口完成入参校验，出现以下场景时报错：
[object Object]

[object Object]

aclnnQuantMatmulV4

参数说明：
[object Object]
返回值：

aclnnStatus：返回状态码，具体参见。

约束说明

确定性说明：
- [object Object]Atlas 训练系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：aclnnQuantMatmulV4默认确定性实现。
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]、[object Object]Atlas 推理系列产品[object Object]：支持调用本接口前，通过对format为ND的x2处理得到AI处理器亲和数据排布格式。输入和输出支持以下数据类型组合：
[object Object]Atlas 推理系列产品[object Object]：
[object Object]undefined
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：
[object Object]undefined

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：

[object Object]
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]： AI处理器x2为AI处理器亲和数据排布格式场景(transposeX2=false)。

[object Object]
[object Object]Atlas 推理系列产品[object Object]： x2为AI处理器亲和数据排布格式场景(transposeX2=true)。

[object Object]
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]： INT4量化场景(x1和x2数据类型为INT4，transposeX2=false)。

[object Object]