aclnnGroupedMatMulAlltoAllv
产品支持情况
功能说明
接口功能:完成路由专家GroupedMatMul、Unpermute、AlltoAllv融合并实现与共享专家MatMul并行融合,先计算后通信。
计算公式:
- 路由专家:
- 共享专家:
函数原型
每个算子分为,必须先调用“aclnnGroupedMatMulAlltoAllvGetWorkspaceSize”接口获取入参并根据计算流程计算所需workspace大小,再调用“aclnnGroupedMatMulAlltoAllv”接口执行计算。
[object Object]
[object Object]
aclnnGroupedMatMulAlltoAllvGetWorkspaceSize
aclnnGroupedMatMulAlltoAllv
约束说明
确定性计算:
- aclnnGroupedMatMulAlltoAllv默认确定性实现。
参数说明里shape使用的变量:
- BSK:本卡接收的token数,是recvCounts参数累加之和,取值范围(0, 52428800)。
- H1:表示路由专家hidden size隐藏层大小,取值范围(0, 65536)。
- H2:表示共享专家hidden size隐藏层大小,取值范围(0, 12288]。
- e:表示单卡上专家个数,e<=32,e * epWorldSize最大支持256。
- N1:表示路由专家的head_num,取值范围(0, 65536)。
- N2:表示共享专家的head_num,取值范围(0, 65536)。
- BS:batch sequence size。
- K:表示选取TopK个专家,K的范围[2, 8]。
- A:本卡发送的token数,是sendCounts参数累加之和。
- ep通信域内所有卡的 A 参数的累加和等于所有卡上的 BSK 参数的累加和。
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]: 单卡通信量取值范围需大于等于2MB。
调用示例
- [object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]:[object Object]