aclnnMoeTokenUnpermute

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能： 根据sortedIndices存储的下标，获取permutedTokens中存储的输入数据；如果存在probs数据，permutedTokens会与probs相乘；最后进行累加求和，并输出计算结果。
计算公式：
- probs非None计算公式如下：
  $T[k] = T[S[k]]$ $T[k] = T[k] * P[i][j]$ $O[i] = \sum_{k=i*topK}^{(i+1)*topK - 1 } T[k]$
  其中 $i \in {0,1,...,tokens-1}$ ； $j \in {0,1,...,topK-1}$ ； $k \in {0,1,...,tokens*topK-1}$ ；T表示permutedTokens；S表示sortedIndices；P表示probs；O表示out；topK表示topK_num；tokens表示tokens_num。
- probs为None时，此时topK_num=1，计算公式如下：
  $T[i] = T[S[i]]$ $O[i] = T[i]$
  其中 $i \in {0,1,...,tokens-1}$ ；T表示permutedTokens；S表示sortedIndices；O表示out；tokens表示tokens_num。

函数原型

每个算子分为undefined，必须先调用“aclnnMoeTokenUnpermuteGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnMoeTokenUnpermute”接口执行计算。

aclnnStatus aclnnMoeTokenUnpermuteGetWorkspaceSize(const aclTensor *permutedTokens, const aclTensor *sortedIndices, const aclTensor *probsOptional, bool paddedMode, const aclIntArray *restoreShapeOptional, aclTensor *out, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnMoeTokenUnpermute(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnMoeTokenUnpermuteGetWorkspaceSize

参数说明：
- permutedTokens（aclTensor*，计算输入）：输入数据。shape为（tokens_num * topK_num，hidden_size）。支持的数据类型BFLOAT16、FLOAT16、FLOAT32。undefined支持ND。支持非连续输入。
- sortedIndices（aclTensor*，计算输入）：表示需要计算的数据在permutedTokens中的位置。shape为（tokens_num * topK_num），取值范围是[0, tokens_num * topK_num - 1]，且没有重复索引。支持的数据类型int32，undefined支持ND。支持非连续输入。
- probsOptional（aclTensor*，可选计算输入）：可选输入。当probs传时，topK_num等于probs的第二维；当probs不传时，topK_num=1。shape为（tokens_num，topK_num），支持的数据类型BFLOAT16、FLOAT16、FLOAT32。undefined支持ND。支持非连续输入。
- paddedMode（bool，计算输入）：true表示开启paddedMode，false表示关闭paddedMode，paddedMode解释见restoreShapeOptional参数。目前仅支持false。
- restoreShapeOptional（aclIntArray*，计算输入）：paddedMode=true时生效，否则不会对其进行操作。paddedMode=true时，out的shape将表征为restoreShapeOptional。目前仅支持nullptr。
- out（aclTensor*，计算输出）：输出结果。paddedMode=false时，shape为（tokens_num，hidden_size）。paddedMode=true时，shape与restoreShapeOptional保持一致。数据类型同permutedTokens，支持BFLOAT16、FLOAT16、FLOAT32。undefined支持ND。不支持非连续输出。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

返回aclnnStatus状态码，具体参见undefined。

[object Object]

aclnnMoeTokenUnpermute

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnMoeTokenUnpermuteGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的Stream。
返回值：

返回aclnnStatus状态码，具体参见undefined。

约束说明

[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：topK_num <= 512。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]