aclnnDynamicMxQuant

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：目的数据类型为float4、float8的动态对称量化。在给定的轴axis上，根据每blocksize个数，计算出这组数对应的量化尺度mxscale作为输出mxscaleOut的对应部分，然后对这组数每一个除以mxscale，根据round_mode转换到对应的dst_type，得到量化结果y作为输出yOut的对应部分。
计算公式：
- 将输入x在axis维度上按k = blocksize个数分组，一组k个数 {{V[object Object]i[object Object]}[object Object]i=1[object Object][object Object]k[object Object]} 动态量化为 {mxscale, {P[object Object]i[object Object]}}[object Object]i=1[object Object][object Object]k[object Object]}, k = blocksize $shared\_exp = floor(log_2(max_i(|V_i|))) - emax \\ mxscale = 2^{shared\_exp}\\ P_i = cast\_to\_dst\_type(V_i/mxscale, round\_mode), \space i\space from\space 1\space to\space blocksize\\$
量化后的P[object Object]i[object Object]按对应的V[object Object]i[object Object]的位置组成输出yOut，mxscale按对应的axis维度上的分组组成输出mxscaleOut。
- emax: 对应数据类型的最大正则数的指数位。
  
  DataType emax
  
  FLOAT4_E2M1 2
  
  FLOAT4_E1M2 0
  
  FLOAT8_E4M3FN 8
  
  FLOAT8_E5M2 15

DataType	emax
FLOAT4_E2M1	2
FLOAT4_E1M2	0
FLOAT8_E4M3FN	8
FLOAT8_E5M2	15

函数原型

每个算子分为undefined，必须先调用“aclnnDynamicMxQuantGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnDynamicMxQuant”接口执行计算。

aclnnStatus aclnnDynamicMxQuantGetWorkspaceSize(const aclTensor* x, int64_t axis, char* roundModeOptional, int64_t dstType, int64_t blocksize, aclTensor* yOut, aclTensor* mxscaleOut, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnDynamicMxQuant(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)

aclnnDynamicMxQuantGetWorkspaceSize

参数说明：
- x（aclTensor*，计算输入）：Device侧的aclTensor，计算公式中的输入x。数据类型支持FLOAT16、BFLOAT16，shape支持1-7维度，支持undefined，支持空Tensor，undefined支持ND格式。目的类型为FLOAT4_E2M1、FLOAT4_E1M2时，x的最后一维必须是偶数。
- axis（int64_t，计算输入）：host侧的int64_t，公式中axis，量化发生的轴，取值范围为[-D, D-1]，D为x的shape的维数。
- roundModeOptional（char*，计算输入）：host侧的string，公式中的round_mode，数据转换的模式，dst_type为40/41，对应输出yOut数据类型为FLOAT4_E2M1/FLOAT4_E1M2时，支持{"rint", "floor", "round"}；dst_type为36/35，对应输出yOut数据类型为FLOAT8_E4M3FN/FLOAT8_E5M2时，仅支持{"rint"}。传入空指针时，采用"rint"模式。
- dstType（int64_t，计算输入）：host侧的int64_t，公式中的dst_type，指定数据转换后yOut的类型，输入范围为{35, 36, 40, 41}，分别对应输出yOut的数据类型为{35: FLOAT8_E5M2, 36: FLOAT8_E4M3FN, 40: FLOAT4_E2M1, 41: FLOAT4_E1M2}。
- blocksize（int64_t，计算输入）：host侧的int64_t，公式中的blocksize，指定每次量化的元素个数，仅支持32的倍数，不能为0，且不能超过1024。
- yOut（aclTensor*，计算输出）：Device侧的aclTensor，公式中的输出yOut，输入x量化后的对应结果。数据类型支持FLOAT4_E2M1、FLOAT4_E1M2、FLOAT8_E4M3FN、FLOAT8_E5M2，需与dst_type对应，shape支持1-7维度，支持空Tensor，undefined支持ND格式。Shape和输入x一致。
- mxscaleOut（aclTensor*，计算输出）：Device侧的aclTensor，公式中的mxscale组成的输出mxscaleOut，每个分组对应的量化尺度。数据类型支持FLOAT8_E8M0，shape支持1-8维度，支持空Tensor，undefined支持ND格式。Shape在axis轴上为x对应轴的值除以blocksize向上取整，并对其进行偶数pad，pad填充值为0，当axis为非尾轴时，mxscaleOut输出需要对每两行数据交织处理。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnDynamicMxQuant

参数说明：
- workspace(void*, 入参)：在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t, 入参)：在Device侧申请的workspace大小，由第一段接口aclnnDynamicMxQuantGetWorkspaceSize获取。
- executor(aclOpExecutor*, 入参)：op执行器，包含了算子计算流程。
- stream(aclrtStream, 入参)：指定执行任务的Stream。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

约束说明

关于x、mxscaleOut的shape约束说明如下：
- rank(mxscaleOut) = rank(x) + 1。
- axis_change = axis if axis >= 0 else axis + rank(x)。
- mxscaleOut.shape[axis_change] = (ceil(x.shape[axis] / blocksize) + 2 - 1) / 2。
- mxscaleOut.shape[-1] = 2。
- 其他维度与输入x一致。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]