aclnnGroupedDynamicMxQuant

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：根据传入的分组索引的起始值，对传入的数据进行分组的float8的动态量化。
计算公式：
- 将输入x在第0维上先按照groupIndex进行分组，每个group内按k = blocksize个数分组，一组k个数 {{x[object Object]i[object Object]}[object Object]i=1[object Object][object Object]k[object Object]} 计算出这组数对应的量化尺度mxscale_pre, {mxscale_pre, {P[object Object]i[object Object]}[object Object]i=1[object Object][object Object]k[object Object]}, 计算公式为下面公式(1)(2)。 $shared\_exp = floor(log_2(max_i(|V_i|))) - emax \tag{1}$ $mxscale\_pre = 2^{shared\_exp} \tag{2}$
- 这组数每一个除以mxscale，根据round_mode转换到对应的dst_type，得到量化结果y, 计算公式为下面公式(3)。 $P_i = cast\_to\_dst\_type(V_i/mxscale, round\_mode), \space i\space from\space 1\space to\space blocksize \tag{3}$
量化后的P[object Object]i[object Object]按对应的x[object Object]i[object Object]的位置组成输出y，mxscale_pre按对应的groupIndex分组,分组内第一个维度pad为偶数，组成输出mxscale。
- emax: 对应数据类型的最大正则数的指数位。
  
  DataType emax
  
  FLOAT8_E4M3FN 8
  
  FLOAT8_E5M2 15

DataType	emax
FLOAT8_E4M3FN	8
FLOAT8_E5M2	15

函数原型

每个算子分为undefined，必须先调用“aclnnGroupedDynamicMxQuantGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnGroupedDynamicMxQuant”接口执行计算。

aclnnStatus aclnnGroupedDynamicMxQuantGetWorkspaceSize(const aclTensor* x, const aclTensor* groupIndex, const char* roundMode, int64_t dstType, int64_t blocksize, aclTensor* y, aclTensor* mxscale, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnGroupedDynamicMxQuant(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)

aclnnGroupedDynamicMxQuantGetWorkspaceSize

参数说明：
- x（aclTensor*，计算输入）：Device侧的aclTensor，计算公式中的输入x。数据类型支持FLOAT16、BFLOAT16，shape仅支持2维，支持undefined，支持空Tensor，undefined支持ND格式。
- groupIndex（aclTensor*，计算输入）：Device侧的aclTensor，量化分组的起始索引。数据类型支持INT32，shape仅支持1维，支持undefined，不支持空Tensor，undefined支持ND格式。索引要求大于等于0，且非递减，并且最后一个数需要与x的第一个维度大小相等。
- roundMode（char*，计算输入）：host侧的string，公式中的round_mode，数据转换的模式，仅支持"rint"模式。
- dstType（int64_t，计算输入）：host侧的int64_t，公式中的dst_type，指定数据转换后y的类型，输入范围为{35, 36}，分别对应输出y的数据类型为{35: FLOAT8_E5M2, 36: FLOAT8_E4M3FN}。
- blocksize（int64_t，计算输入）：host侧的int64_t，公式中的blocksize，指定每次量化的元素个数，仅支持32。
- y（aclTensor*，计算输出）：Device侧的aclTensor，公式中的输出y，输入x量化后的对应结果。数据类型支持FLOAT8_E4M3FN、FLOAT8_E5M2，需与dstType对应，shape仅支持2维，支持空Tensor，undefined支持ND格式。Shape和输入x一致。
- mxscale（aclTensor*，计算输出）：Device侧的aclTensor，公式中的mxscale_pre组成的输出mxscale，每个分组对应的量化尺度。数据类型支持FLOAT8_E8M0，shape仅支持3维度，支持空Tensor，undefined支持ND格式。假设x的shape为 $[m,n]$ ，groupedIndex的shape为 $[g]$ ，则mxscale的shape为 $[(m/(blocksize * 2)+g), n, 2]$ 。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnGroupedDynamicMxQuant

参数说明：
- workspace(void*, 入参)：在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t, 入参)：在Device侧申请的workspace大小，由第一段接口aclnnGroupedDynamicMxQuantGetWorkspaceSize获取。
- executor(aclOpExecutor*, 入参)：op执行器，包含了算子计算流程。
- stream(aclrtStream, 入参)：指定执行任务的Stream。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

约束说明

无

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]