aclnnMoeTokenUnpermuteWithRoutingMapGrad

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：aclnnMoeTokenUnpermuteWithRoutingMap的反向传播。
计算公式：

(1) probs非None：
$permutedTokensGrad[outIndex[i]] = unpermutedTokensGrad[permuteTokenId[i]]$ $permutedProbsGrad = permutedTokenGrad * permutedTokensOptional$ $probsGradExpertOrder = \sum_{j=0}^{hidden\_size}(permutedProbsGrad_{i,j})$
- paddedMode为false时
$probsGradOut = masked\_scatter(routingMapOptional.T,probsGradExpertOrder)$ $permutedProbs = probsOptional.T.masked\_select(routingMapOptional.T)$ $permutedTokensGradOut = permutedProbs.unsqueeze(-1) * permutedTokensGrad$
- paddedMode为true时
$probsGradOut[permuteTokenId[i], outIndex[i]/capacity] = probsGradExpertOrder[outIndex[i]]$ $permutedProbs[outIndex[i]] = probsOptional.view(1)[i]$ $permutedTokensGradOut = permutedProbs * permutedTokensGrad$
(2) probs为None：
$permutedTokensGradOut[outIndex[i]] = unpermutedTokensGrad[permuteTokenId[i]]$
1. hidden_size指unpermutedTokensGrad的第1维大小。
2. paddedMode等于true时，每个专家固定能够处理capacity个token。输入routingMapOptional的第1维是experts_num，即专家个数，输入outIndex的第0维是experts_num * capacity，根据这两个维度可以算出capacity。
3. paddedMode等于false时，每个token固定被topK_num个专家处理。输入unpermutedTokensGrad的第0维是tokens_num，即token的个数，输入outIndex的第0维是tokens_num * capacity，根据这两个维度可以算出topK_num。

函数原型

每个算子分为undefined，必须先调用“aclnnMoeTokenUnpermuteWithRoutingMapGradGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnMoeTokenUnpermuteWithRoutingMapGrad”接口执行计算。

aclnnStatus aclnnMoeTokenUnpermuteWithRoutingMapGradGetWorkspaceSize(const aclTensor* unpermutedTokensGrad, const aclTensor* outIndex, const aclTensor* permuteTokenId, const aclTensor* routingMapOptional, const aclTensor* permutedTokensOptional, const aclTensor* probsOptional, bool dropAndPad, const aclIntArray* restoreShapeOptional, const aclTensor* permutedTokensGradOut, const aclTensor* probsGradOutOptional, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnMoeTokenUnpermuteWithRoutingMapGrad(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)

aclnnMoeTokenUnpermuteWithRoutingMapGradGetWorkspaceSize

参数说明：
- unpermutedTokensGrad（aclTensor*，计算输入）：Device侧的aclTensor。计算公式中的unpermutedTokensGrad，代表正向输出unpermutedTokens的梯度，要求为一个维度为2D的Tensor，shape为（tokens_num，hidden_size），数据类型支持BFLOAT16、FLOAT16、FLOAT32，undefined要求为ND。支持undefined。
- outIndex（aclTensor*，计算输入）：Device侧的aclTensor。计算公式中outIndex，代表输出位置索引。当paddedMode为false时，要求shape为一个1D的（tokens_num * topK_num，），索引取值范围[0，tokens_num * topK_num - 1]。当paddedMode为true时，要求shape为一个1D的（experts_num* capacity，）。索引取值范围[0，experts_num* capacity- 1]。数据类型支持INT32，undefined要求为ND。支持undefined。
- permuteTokenId（aclTensor*，计算输入）：Device侧的aclTensor。计算公式中的permuteTokenId，代表输入permutedTokens每个位置对应的Token序号。shape与outIndex相同。取值范围[0，tokens_num - 1]。数据类型支持INT32，undefined要求为ND。支持undefined。
- routingMapOptional（aclTensor*，计算输入）：Device侧的aclTensor，可选输入，当输入probsOptional为空指针时不需要此输入，应该传入空指针。计算公式中的routingMapOptional，代表对应位置的Token是否被对应专家处理，要求shape为一个2D的（tokens_num，experts_num），数据类型支持INT8、bool。当数据类型为INT8，取值支持0、1，当数据类型为bool，取值支持true、false，undefined要求为ND。支持undefined。
- permutedTokensOptional（aclTensor*，计算输入）：Device侧的aclTensor，可选输入，当输入probsOptional为空指针时不需要此输入，应该传入空指针。当输入probsOptional为nullptr时不需要此输入。计算公式中的permutedTokensOptional，代表将每个专家选中token聚集在一起的结果，要求为一个维度为2D的Tensor，当paddedMode为false时，shape为（tokens_num * topK_num，hidden_size），其中topK_num <= 512。当paddedMode为true时，shape为（experts_num* capacity，hidden_size）。数据类型与unpermutedTokensGrad相同，undefined要求为ND。支持undefined。
- probsOptional（aclTensor*，计算输入）：Device侧的aclTensor，可选输入，当不需要时为空指针。计算公式中的probsOptional，代表对应位置的Token被对应专家处理后的结果在最终结果中的权重，shape与routingMapOptional相同，数据类型与unpermutedTokensGrad相同，undefined要求为ND。支持undefined。
- paddedMode（bool，计算输入）：host侧的BOOL。true表示开启paddedMode，false表示关闭paddedMode。开启paddedMode时，每个专家固定能够处理capacity个token，输入outIndex、permuteTokenId的shape为（experts_num* capacity，）。关闭paddedMode时，每个token固定被topK_num个专家处理，输入outIndex、permuteTokenId的shape为（tokens_num * topK_num，）。
- restoreShapeOptional（aclIntArray*，计算输入）：host侧的aclIntArray。可选输入，当不需要时为空指针。支持的数据类型为INT32，size大小为2。当paddedMode为true后生效，否则不会对其进行操作。当paddedMode为true以后，此为unpermutedTokensGrad的shape。
- permutedTokensGradOut（aclTensor*，计算输出）：输入permutedTokens的梯度，要求是一个2D的Tensor，当paddedMode为true时，shape为（tokens_num * capacity，hidden_size），当paddedMode为false时，shape为（tokens_num * topK_num，hidden_size）。数据类型与unpermutedTokensGrad相同，undefined要求为ND。不支持undefined。
- probsGradOutOptional（aclTensor*，计算输出）：可选输出，当不需要时为空指针。输入probs的梯度，要求是一个2D的Tensor，shape为（tokens_num，experts_num）。数据类型与unpermutedTokensGrad相同，undefined要求为ND。不支持undefined。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnMoeTokenUnpermuteWithRoutingMapGrad

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnMoeTokenUnpermuteWithRoutingMapGradGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的Stream。
返回值：

返回aclnnStatus状态码，具体参见undefined。

约束说明

topkNum <= 512

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]