每个算子分为,必须先调用 “aclnnMoeTokenPermuteGradGetWorkspaceSize” 接口获取入参并根据计算流程计算所需workspace大小以及包含了算子计算流程的执行器,再调用 “aclnnMoeTokenPermuteGrad” 接口执行计算。
[object Object]
[object Object]
确定性计算:
- aclnnMoeTokenPermuteGrad默认确定性实现。
[object Object]Atlas A2 训练系列产品/Atlas A2 推理系列产品[object Object]、[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]:numTopk <= 512。
Atlas 350 加速卡: 在调用本接口时,框架内部会转调用接口,如果出现参数错误提示,请参考以下参数映射关系:
- permutedOutputGrad输入等同于aclnnMoeInitRoutingV2Grad接口的gradExpandedX输入。
- sortedIndices输入等同于aclnnMoeInitRoutingV2Grad接口的expandedRowIdx输入。
- numTopk输入等同于aclnnMoeInitRoutingV2Grad接口的topK输入。
- paddedMode输入等同于aclnnMoeInitRoutingV2Grad接口的dropPadMode输入。
- out输出等同于aclnnMoeInitRoutingV2Grad接口的out输出。
[object Object]