aclnnMoeTokenUnpermuteWithEpGrad

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：aclnnMoeTokenUnpermuteWithEp的反向传播。
计算公式：
$sortedIndices= sortedIndices[sortedIndices[rangeOptional[0]]<=i<sortedIndices[rangeOptional[1]]]$
probs非None：
$unpermutedTokens[i] = permutedTokensOptional[sortedIndices[i]]$ $unpermutedTokens = unpermutedTokens.reshape(-1, topkNum, hiddenSize)$ $unpermutedTokens = unpermutedTokensGrad.unsqueeze(1) * unpermutedTokens$ $probsGrad = \sum_{k=0}^{topkNum}(unpermutedTokens_{i,j,k})$ $permutedTokensGradOut[sortedIndices[i]] = ((unpermutedTokensGrad.unsqueeze(1) * probs.unsqueeze(-1)).reshape(-1, hiddensize))[i]$
probs为None：
$permutedTokensGradOut[sortedIndices[i]] = unpermutedOutputGrad[i]$

函数原型

每个算子分为undefined，必须先调用“aclnnMoeTokenUnpermuteWithEpGradGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnMoeTokenUnpermuteWithEpGrad”接口执行计算。

aclnnStatus aclnnMoeTokenUnpermuteWithEpGradGetWorkspaceSize(const aclTensor *unpermutedTokensGrad, const aclTensor *sortedIndices, const aclTensor *permutedTokensOptional, const aclTensor *probsOptional, bool paddedMode, const aclIntArray *restoreShapeOptional, const aclIntArray *rangeOptional, int64_t topkNum, const aclTensor *permutedTokensGradOut, const aclTensor *probsGradOut, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnMoeTokenUnpermuteWithEpGrad(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnMoeTokenUnpermuteWithEpGradGetWorkspaceSize

参数说明：
- unpermutedTokensGrad（aclTensor *，计算输入）：Device侧的aclTensor，公式中的unpermutedTokensGrad，正向输出unpermutedTokens的梯度，要求为一个维度为2D的Tensor，shape为（tokens_num，hidden_size），tokens_num代表token个数，hidden_size代表token的维度大小，数据类型支持BFLOAT16、FLOAT16、FLOAT32，undefined要求为ND。支持undefined。
- sortedIndices（aclTensor *，计算输入）：Device侧的aclTensor，公式中的sortedIndices，要求shape为一个1D的（tokens_num * topkNum），数据类型支持INT32，undefined要求为ND。索引取值范围[0，tokens_num * topkNum - 1]。支持undefined
- permutedTokensOptional（aclTensor *，计算输入）：Device侧的aclTensor，可选输入，公式中的permutedTokensOptional，要求为一个维度为2D的Tensor，shape为（tokens_num * topkNum，hidden_size），其中topkNum <= 512，数据类型支持同unpermutedTokensGrad，undefined要求为ND。支持undefined
- probsOptional（aclTensor *，计算输入）：Device侧的aclTensor，可选输入，公式中的probsOptional，要求shape为一个2D的（tokens_num，topkNum），数据类型支持BFLOAT16、FLOAT16、FLOAT32，undefined要求为ND。当probs传时，topkNum等于probs第2维；当probs不传时，topkNum=1。支持undefined
- paddedMode（bool, 计算输入）：公式中的paddedMode，true表示开启paddedMode，false表示关闭paddedMode，paddedMode解释见restoreShapeOptional参数。目前仅支持false。
- restoreShapeOptional（aclIntArray*，计算输入）：公式中的restoreShapeOptional，当paddedMode为true后生效，否则不会对其进行操作。当paddedMode为true以后，此为unpermutedTokens的shape。当前仅支持nullptr。
- rangeOptional（aclIntArray *，计算输入）：公式中的rangeOptional，ep切分的有效范围，要求rangeOptional[0]代表的起始位置小于rangeOptional[1]代表的结束位置，size为2，为空时不生效。
- topkNum（int64_t，计算输入）：公式中的topkNum，每个token被选中的专家个数。
- permutedTokensGradOut（aclTensor *，计算输出）：输入permutedTokens的梯度，公式中的permutedTokensGradOut，要求是一个2D的Tensor，shape为（tokens_num * topkNum，hidden_size）。数据类型同permutedTokensOptional，支持BFLOAT16、FLOAT16、FLOAT32，undefined要求为ND。不支持非连续输出。
- probsGradOut（aclTensor *，计算输出）：可选输出，公式中的probsGradOut，输入probs的梯度，要求是一个2D的Tensor，shape为（tokens_num，topkNum）。数据类型同probsOptional，支持BFLOAT16、FLOAT16、FLOAT32，undefined要求为ND。不支持非连续输出。
- workspaceSize（uint64_t *，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor **，出参）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnMoeTokenUnpermuteWithEpGrad

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnMoeTokenUnpermuteWithEpGradGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream,入参）：指定执行任务的Stream。
返回值：

返回aclnnStatus状态码，具体参见undefined。

约束说明

topkNum <= 512

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]