aclnnAlltoAllvGroupedMatMul-Transformer类接口-算子接口（aclnn）-算子库接口-API-CANN社区版9.0.0-beta.2开发文档-昇腾社区

[object Object]

[object Object][object Object]undefined

[object Object]

算子功能：完成路由专家AlltoAllv、Permute、GroupedMatMul融合并实现与共享专家MatMul并行融合，先通信后计算。
计算公式：
- 路由专家：
$ataOut = AlltoAllv(gmmX) \\ permuteOut = Permute(ataOut) \\ gmmY = permuteOut \times gmmWeight$
- 共享专家：
$mmY = mmX \times mmWeight$

[object Object]

每个算子分为两段式接口，必须先调用[object Object]接口获取入参并根据计算流程计算所需workspace大小，再调用[object Object]接口执行计算。

[object Object]

[object Object]

[object Object]

确定性计算：
- aclnnAlltoAllvGroupedMatMul默认确定性实现。
参数说明里shape使用的变量：
- BSK：本卡发送的token数，是sendCounts参数累加之和，取值范围(0, 52428800)。
- H1：表示路由专家hidden size隐藏层大小，取值范围(0, 65536)。
- H2：表示共享专家hidden size隐藏层大小，取值范围(0, 12288]。
- e：表示单卡上专家个数，取值范围(0, 48]，e * epWorldSize最大支持384。
- N1：表示路由专家的head_num，取值范围(0, 65536)。
- N2：表示共享专家的head_num，取值范围(0, 65536)。
- BS：batch sequence size。
- K：表示选取TopK个专家，K的范围[2, 8]。
- A：本卡收到的token数，是recvCounts参数累加之和。
- ep通信域内所有卡的 A 参数的累加和等于所有卡上的 BSK 参数的累加和。
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]：单卡通信量在2MB以下可能存在性能劣化。

[object Object]

示例代码如下，仅供参考，具体编译和执行过程请参考。

说明：本示例代码调用了部分HCCL集合通信库接口：HcclGetCommName、HcclCommInitAll、HcclCommDestroy, 请参考。

[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]、Atlas 350 加速卡：

[object Object]