aclnnMoeInitRoutingQuant-融合算子接口-算子加速库-CANN商用版8.0.RC3开发文档-昇腾社区

[object Object][object Object]

Atlas A2训练系列产品/Atlas 800I A2推理产品。

[object Object]

每个算子分为，必须先调用 “aclnnMoeInitRoutingQuantGetWorkspaceSize”接口获取入参并根据计算流程计算所需workspace大小获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnMoeInitRoutingQuant”接口执行计算。

[object Object]
[object Object]

[object Object]

**算子功能：**MoE的routing计算，根据的计算结果做routing处理，并对结果进行量化。
计算公式：

expandedExpertIdx,sortedRowIdx=keyValueSort(expertIdx,rowIdx)

expandedRowIdx[sortedRowIdx[i]]=i

expandedX[i]=quant[x[sortedRowIdx[i]\%numRows]]

[object Object]

参数说明：
- x （aclTensor*，计算输入）：MOE的输入即token特征输入，要求为一个2D的Tensor，shape为 (NUM_ROWS, H)。数据类型支持FLOAT16、BFLOAT16、FLOAT32，要求为ND。
- rowIdx（aclTensor*，计算输入）：指示每个位置对应的原始行位置，shape要求与expertIdx 一致, 数值从0开始，沿着1维递增。数据类型支持int32，要求为ND。
- expertIdx （aclTensor*，计算输入）：的输出每一行特征对应的K个处理专家，要求是一个2D的shape (NUM_ROWS, K)。数据类型支持int32，要求为ND。
- activeNum（int64_t，计算输入）：表示总的最大处理row数，expandedXOut只有这么多行是有效的。
- scale（double，计算输入）：量化计算需要, 典型值为： $S=\frac{R_{\max }-R_{\min }}{Q_{\max }-Q_{\min }}$ ，其中 $R_{max}$ 标识输入浮点数中的最大值， $R_{min}$ 表示输入浮点数中的最小值， $Q_{max}$ 表示最大定点值， $Q_{min}$ 表示最小定点值。
- offset（double，计算输入）：量化计算需要。
- expandedXOut（aclTensor*，计算输出）：根据expertIdx进行扩展过的特征，要求是一个2D的Tensor，shape (min(NUM_ROWS, activeNum) * k, H)。数据类型支持int8，要求为ND。
- expandedRowIdxOut（aclTensor*，计算输出）：expandedX和x的映射关系，要求是一个1D的Tensor，Shape为(NUM_ROWS*K, )，数据类型支持int32，要求为ND。
- expandedExpertIdxOut（aclTensor*，计算输出）：输出expertIdx排序后的结果，数据类型支持int32，要求为ND。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值

返回aclnnStatus状态码，具体参见。

[object Object]

[object Object]

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnMoeInitRoutingQuantGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的AscendCL stream流。
返回值：

返回aclnnStatus状态码，具体参见。

[object Object]

无。

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]