- 接口功能:MoE的permute计算,根据索引indices将tokens和可选probs广播后排序并按照rangeOptional中范围切片。
- 计算公式:
paddedMode为
[object Object]时,公式如下。topK表示每个token选择的专家数量。如果Indices为2维,则topK等于Indices最后一维的大小。如果Indices为1维,则topK为1。当rangeOptional[0] <= sortedIndicesOut[i] < rangeOptional[1]时:
paddedMode为
[object Object]时(暂不支持):
每个算子分为,必须先调用“aclnnMoeTokenPermuteWithEpGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnMoeTokenPermuteWithEp”接口执行计算。
[object Object]
[object Object]
- 确定性计算:
- aclnnMoeTokenPermuteWithEp默认确定性实现。
[object Object]