torch_npu.contrib.module.LinearQuant

功能描述

LinearQuant是对torch_npu.npu_quant_matmul接口的封装类,完成A8W8、A4W4量化算子的矩阵乘计算。

接口原型

1
torch_npu.contrib.module.LinearQuant(in_features, out_features, *, bias=True, offset=False, pertoken_scale=False, output_dtype=None)

参数说明

输入说明

x1(计算输入):Tensor类型,数据格式支持ND,shape最少是2维,最多是6维。
  • Atlas 推理系列产品:数据类型支持int8。
  • Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件:数据类型支持int8和int32,其中int32表示使用本接口进行int4类型矩阵乘计算,int32类型承载的是int4数据,每个int32数据存放8个int4数据。
  • Atlas A3 训练系列产品/Atlas A3 推理系列产品:数据类型支持int8和int32,其中int32表示使用本接口进行int4类型矩阵乘计算,int32类型承载的是int4数据,每个int32数据存放8个int4数据。

变量说明

输出说明

一个Tensor类型的输出,代表量化matmul的计算结果:

约束说明

支持的型号

调用示例