- 接口功能:MoE的routing计算,根据的计算结果做routing处理,并对结果进行量化。
- 计算公式: 将输入shape为[NUM_ROWS, K]的expertIdx展平为一行做排序,其中NUM_ROWS为输入token个数,K为token选择的专家个数。
每个算子分为,必须先调用 “aclnnMoeInitRoutingQuantGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnMoeInitRoutingQuant”接口执行计算。
[object Object]
[object Object]
- 确定性计算:
- aclnnMoeInitRoutingQuant默认确定性实现。
[object Object]