aclnnAlltoAllAllGatherBatchMatMul

产品支持情况

[object Object]undefined

计算逻辑如下，其中y1、y2、y3为输出

x1 = AllToAll(x)

y2 = AllGather(x1)

y3 = BatchMatMul(y2, weight, bias)

y1 = 激活函数(y3)

每个算子分为，必须先调用"aclnnAlltoAllAllGatherBatchMatMulGetWorkspaceSize"接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用"aclnnAlltoAllAllGatherBatchMatMul"接口执行计算。

[object Object]

因为集合通信及BatchMatMul计算所需，输入输出shape需满足以下数学关系：（其中ep=epWorldSize，tp=tpWorldSize）

按H轴进行AllGather场景，即xShardType为0场景：

按C轴进行AllGather场景，即xShardType为1场景：

数据关系说明：

比如x.size(0)等于E，weight.size(0)等于E/ep，则表示，x.size(0) = ep*weight.size(0)，x.size(0)是ep的整数倍；其他关系类似。
E的取值范围为[2, 512]，且E是ep的整数倍。
H的取值范围为：[1, 65535]，当xShardType为0时，H是tp的整数倍。
M/tp的取值范围为：[1, 65535]。
E/ep的取值范围为：[1, 32]。
ep、tp均仅支持2、4、8、16、32。
groupEp和groupTp名称不能相同。
C必须大于0，上限为算子device内存上限，当xShardType为1时，C是tp的整数倍。
通算融合算子不支持并发调用，不同的通算融合算子也不支持并发调用。
不支持跨超节点，只支持超节点内。

示例代码如下，仅供参考，具体编译和执行过程请参考

[object Object]