接口功能:aclnnMoeTokenUnpermute的反向传播。
计算公式:
probs非None:
probs为None:
每个算子分为,必须先调用“aclnnMoeTokenUnpermuteGradGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnMoeTokenUnpermuteGrad”接口执行计算。
[object Object]
[object Object]
- 确定性计算:
- aclnnMoeTokenUnpermuteGrad默认确定性实现。
- tokens_num表示输入的token数量,hidden_size表示词向量维度。
- 通过paddedMode区分以下两种模式:paddedMode等于true时,每个专家固定能够处理capacity个token。paddedMode等于false时,每个token固定被topK_num个专家处理。
- [object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]:topK_num <= 512。
- Atlas 350 加速卡:
在调用本接口时,框架内部会转调用接口,如果出现参数错误提示,请参考以下参数映射关系:
- permutedTokens输入等同于aclnnMoeFinalizeRoutingV2Grad接口的expandedXOptional输入。
- unpermutedTokensGrad输入等同于aclnnMoeFinalizeRoutingV2Grad接口的gradY输入。
- sortedIndices输入等同于aclnnMoeFinalizeRoutingV2Grad接口的expandedRowIdx输入。
- probsOptional输入等同于aclnnMoeFinalizeRoutingV2Grad接口的scalesOptional输入。
- paddedMode输入等同于aclnnMoeFinalizeRoutingV2Grad接口的dropPadMode输入。
- permutedTokensGradOut输出等同于aclnnMoeFinalizeRoutingV2Grad接口的gradExpandedXOut输出。
- probsGradOut输出等同于aclnnMoeFinalizeRoutingV2Grad接口的gradScalesOut输出。
[object Object]