aclnnMoeTokenUnpermuteGrad-Transformer类接口-算子接口（aclnn）-算子库接口-API-CANN社区版9.0.0-beta.2开发文档-昇腾社区

[object Object]

[object Object][object Object]undefined

[object Object]

接口功能：aclnnMoeTokenUnpermute的反向传播。
计算公式：
- probs非None：
  $unpermutedTokens[i] = permutedTokens[sortedIndices[i]]$ $unpermutedTokens = unpermutedTokens.reshape(-1, topK\_num, hiddenSize)$ $unpermutedTokens = unpermutedTokensGrad.unsqueeze(1) * unpermutedTokens$ $probsGrad = \sum_{k=0}^{K}(unpermutedTokens_{i,j,k})$ $permutedTokensGrad[sortedIndices[i]] = ((unpermutedTokensGrad.unsqueeze(1) * probs.unsqueeze(-1)).reshape(-1, hiddenSize))[i]$
- probs为None：
  $permutedTokensGrad[sortedIndices[i]] = unpermutedTokensGrad[i]$

[object Object]

每个算子分为，必须先调用“aclnnMoeTokenUnpermuteGradGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnMoeTokenUnpermuteGrad”接口执行计算。

[object Object]

[object Object]

[object Object]

确定性计算：
- aclnnMoeTokenUnpermuteGrad默认确定性实现。
tokens_num表示输入的token数量，hidden_size表示词向量维度。
通过paddedMode区分以下两种模式：paddedMode等于true时，每个专家固定能够处理capacity个token。paddedMode等于false时，每个token固定被topK_num个专家处理。
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：topK_num <= 512。
Atlas 350 加速卡：在调用本接口时，框架内部会转调用接口，如果出现参数错误提示，请参考以下参数映射关系：
- permutedTokens输入等同于aclnnMoeFinalizeRoutingV2Grad接口的expandedXOptional输入。
- unpermutedTokensGrad输入等同于aclnnMoeFinalizeRoutingV2Grad接口的gradY输入。
- sortedIndices输入等同于aclnnMoeFinalizeRoutingV2Grad接口的expandedRowIdx输入。
- probsOptional输入等同于aclnnMoeFinalizeRoutingV2Grad接口的scalesOptional输入。
- paddedMode输入等同于aclnnMoeFinalizeRoutingV2Grad接口的dropPadMode输入。
- permutedTokensGradOut输出等同于aclnnMoeFinalizeRoutingV2Grad接口的gradExpandedXOut输出。
- probsGradOut输出等同于aclnnMoeFinalizeRoutingV2Grad接口的gradScalesOut输出。

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]