aclnnDynamicQuantV3

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：为输入张量进行动态量化。在MOE场景下，每个专家的smoothScalesOptional是不同的，根据输入的groupIndexOptional进行区分。支持对称/非对称量化。支持pertoken/pertensor量化模式。相较aclnnDynamicQuantV2，新增了pertensor量化模式，通过quantMode参数指定。
计算公式：
- 对称量化：
  - 若不输入smoothScalesOptional，则 $scaleOut=row\_max(abs(x))/DTYPE_MAX$ $yOut=round(x/scaleOut)$
  - 若输入smoothScalesOptional，则 $input = x\cdot smoothScalesOptional$ $scaleOut=row\_max(abs(input))/DTYPE_MAX$ $yOut=round(input/scaleOut)$
- 非对称量化：
  - 若不输入smoothScalesOptional，则 $scaleOut=(row\_max(x) - row\_min(x))/(DTYPE_MAX - DTYPE_MIN)$ $offset=DTYPE_MAX-row\_max(x)/scaleOut$ $yOut=round(x/scaleOut+offset)$
  - 若输入smoothScalesOptional，则 $input = x\cdot smoothScalesOptional$ $scaleOut=(row\_max(input) - row\_min(input))/(DTYPE_MAX - DTYPE_MIN)$ $offset=DTYPE_MAX-row\_max(input)/scaleOut$ $yOut=round(input/scaleOut+offset)$ 其中row_max/row_min代表每行求最大/最小值；如果quantMode为“pertensor”，表示求整个tensor的最大/最小值。DTYPE_MAX是输出类型的最大值，DTYPE_MIN是输出类型的最小值。

函数原型

每个算子分为undefined，必须先调用“aclnnDynamicQuantV3GetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnDynamicQuantV3”接口执行计算。

aclnnStatus aclnnDynamicQuantV3GetWorkspaceSize(const aclTensor* x, const aclTensor* smoothScalesOptional, const aclTensor* groupIndexOptional, int64_t dstType, bool isSymmetrical, const char* quantMode, const aclTensor* yOut, const aclTensor* scaleOut, const aclTensor* offsetOut, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnDynamicQuantV3(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnDynamicQuantV3GetWorkspaceSize

参数说明：
- x（aclTensor*, 计算输入）：算子输入的Tensor，shape维度要大于1，不超过8。Device侧的aclTensor，数据类型支持FLOAT16、BFLOAT16，支持undefined，undefined支持ND。
- smoothScalesOptional（aclTensor*, 计算输入）：算子输入的smoothScales，当没有groupIndexOptional时，shape维度是x的最后一维；当有groupIndexOptional时，shape是两维，第一维大小是专家数，不能超过1024。第二维大小是x的最后一维。Device侧的aclTensor，数据类型支持FLOAT16、BFLOAT16，并且数据类型要和x保持一致，支持undefined，undefined支持ND。
- groupIndexOptional（aclTensor*, 计算输入）：算子输入的groupIndex，Device侧的aclTensor，数据类型支持INT32，支持undefined，undefined支持ND。 shape只支持一维，且维度大小等于smoothScalesOptional的第一维。groupIndexOptional非nullptr时，smoothScalesOptional必须非nullptr。
- dstType (int64_t, 计算输入)：输出yOut的数据类型对应的枚举值，Host侧的int。
- isSymmetrical (bool, 计算输入)：指定是否对称量化，Host侧的bool。
- quantMode (char*, 计算输入)：用于指定量化的模式，Host侧的char*。当前支持"pertoken"和"pertensor"。当quantMode取"pertensor"时，groupIndexOptional必须是nullptr。
- yOut（aclTensor*, 计算输出）：量化后的输出Tensor，类型由dstType指定。数据类型为INT32时，最后一维是x最后一维的1/8，其他数据类型时shape和x保持一致。Device侧的aclTensor，支持undefined，undefined支持ND。
- scaleOut（aclTensor*, 计算输出）：量化使用的scale，Device侧的aclTensor，数据类型支持FLOAT，支持undefined，undefined支持ND。
  - quantMode是pertoken时，shape为x的shape剔除最后一维。quantMode是pertensor时，shape为(1,)。
- offsetOut（aclTensor*, 计算输出）：非对称量化使用的offset，shape和scale一致，Device侧的aclTensor，数据类型支持FLOAT，支持undefined，undefined支持ND。仅在isSymmetrical是false时支持，如果isSymmetrical是true，offsetOut需要传nullptr。
- workspaceSize（uint64_t*, 出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**, 出参）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus: 返回状态码，具体参见undefined。

[object Object]

aclnnDynamicQuantV3

参数说明：
- workspace(void *, 入参)：在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t, 入参)：在Device侧申请的workspace大小，由第一段接口aclnnDynamicQuantV3GetWorkspaceSize获取。
- executor(aclOpExecutor *, 入参)：op执行器，包含了算子计算流程。
- stream(aclrtStream, 入参)：指定执行任务的Stream。
返回值：

aclnnStatus: 返回状态码，具体参见undefined。

约束说明

yOut的数据类型为INT4时，需满足x和yOut的最后一维能被2整除。 yOut的数据类型为INT32时，需满足x的最后一维能被8整除。当有groupIndexOptional时，专家数不超过x剔除最后一维的各个维度乘积。groupIndexOptional的值需要是一组不小于零且非递减的数组，且最后一个值和x剔除最后一维的各个维度乘积相等。若不满足该条件，结果无实际意义。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]