须知:该接口后续版本会废弃,请使用最新aclnnQuantMatmulV5接口。
每个算子分为,必须先调用 aclnnQuantMatmulV2GetWorkspaceSize 接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用 aclnnQuantMatmulV2 接口执行计算。
[object Object]
[object Object]
- 确定性说明:
- [object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]、[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]:aclnnQuantMatmulV2默认确定性实现。
该接口迁移到aclnnQuantMatmulV4接口的方法:
- 输入x1,x2,bias,adjX1和adjX2可以直接转为aclnnQuantMatmulV4接口中的x1,x2,bias,transposeX1和transposeX2。
- 输入deqScale为UINT64的aclTensor,数据类型与aclnnQuantMatmulV4接口中的scale一致。aclnnQuantMatmulV2接口的deqScale shape是1维(t,),t = align(n, 16)。aclnnQuantMatmulV4接口中的scale shape是1维(t,),t = 1或n。直接将原始FLOAT型量化参数调用aclnnTransQuantParamV2输出数据类型为UINT64且shape为(n,)的aclTensor(参考),记为scale,对标aclnnQuantMatmulV4接口中的scale。
- aclnnQuantMatmulV4接口中的可选输入offset/pertokenScaleOptional设置为nullptr。
- 接口参数设置为
[object Object]。
[object Object]