aclnnMoeInitRouting

支持的产品型号

Atlas A2训练系列产品/Atlas 800I A2推理产品

接口原型

每个算子分为，必须先调用 “aclnnMoeInitRoutingGetWorkspaceSize”接口获取入参并根据计算流程计算所需workspace大小获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnMoeInitRouting”接口执行计算。

aclnnStatus aclnnMoeInitRoutingGetWorkspaceSize(const aclTensor *x, const aclTensor *rowIdx, const aclTensor *expertIdx, int64_t activeNum, const aclTensor *expandedXOut, const aclTensor *expandedRowIdxOut, const aclTensor *expandedExpertIdxOut, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnMoeInitRouting(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

功能描述

算子功能：MoE的routing计算，根据的计算结果做routing处理。
计算公式： $expandedExpertIdx,sortedRowIdx=keyValueSort(expertIdx,rowIdx)$ $expandedRowIdx[sortedRowIdx[i]]=i$ $expandedX[i]=x[sortedRowIdx[i]\%numRows]$

aclnnMoeInitRoutingGetWorkspaceSize

参数说明：
- x（aclTensor*，计算输入）：MOE的输入即token特征输入，要求为一个2D的Tensor，shape为 (NUM_ROWS, H)，数据类型支持FLOAT16、BFLOAT16、FLOAT32，要求为ND。
- rowIdx（aclTensor*，计算输入）：指示每个位置对应的原始行位置，shape要求与expertIdx 一致, 数值从0开始，沿着1维递增。数据类型支持int32，要求为ND。
- expertIdx （aclTensor*，计算输入）：的输出每一行特征对应的K个处理专家，要求是一个2D的shape (NUM_ROWS, K)。数据类型支持int32，要求为ND。
- activeNum（int64_t，计算输入）：表示总的最大处理row数，expandedXOut只有这么多行是有效的。
- expandedXOut（aclTensor*，计算输出）：根据expertIdx进行扩展过的特征，要求是一个2D的Tensor，shape (min(NUM_ROWS, activeNum) * k, H)。数据类型同x，支持FLOAT16、BFLOAT16、FLOAT32，要求为ND。
- expandedRowIdxOut（aclTensor*，计算输出）：expandedX和x的映射关系，要求是一个1D的Tensor，Shape为(NUM_ROWS*K, )，数据类型支持int32，要求为ND。
- expandedExpertIdxOut（aclTensor*，计算输出）：输出expertIdx排序后的结果，数据类型支持int32，要求为ND。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值

返回aclnnStatus状态码，具体参见。

[object Object]

aclnnMoeInitRouting

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnMoeInitRoutingGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的AscendCL stream流。
返回值：

返回aclnnStatus状态码，具体参见。

约束与限制

无。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]