Atlas 900 A3 SuperPoD 超节点

Atlas 900 A3 SuperPoD 超节点是华为研发的高性能AI计算集群，由多个计算节点组成。每个计算节点上，2个昇腾AI处理器之间通过SIO互联形成一个HiAM模组，例如0号和1号昇腾AI处理器形成一个HiAM模组；每个计算节点包含8个HiAM模组。HiAM模组之间采用HCCS-L1互联的方式连接；计算节点之间采用HCCS-L2互联的方式连接。通过L1端口级联和L2交换互联可以扩展多种规格的超节点。

任务可申请昇腾AI处理器的数量为1、2、4、6、8、10、12、14、16，申请的昇腾AI处理器需要优先占满整个计算节点；申请的昇腾AI处理器个数为偶数时，需要占满整个HiAM模组。例如任务申请的昇腾AI处理器数量为2，计算节点剩余的昇腾AI处理器序号为0、2、3和4时，由于只有2号和3号处于一个HiAM模组中，则该任务只能使用2号和3号昇腾AI处理器。分布式任务可申请的昇腾AI处理器的数量只能为16。

灵衢总线设备节点网络说明

同一逻辑超节点中的计算节点之间使用HCCS网络通信，不同逻辑超节点中的计算节点之间使用RoCE网络通信。当任务的逻辑超节点数量（任务逻辑超节点数量=任务总芯片数量/sp-block）大于1时，请务必确保计算节点间RoCE网络的连通性。
譬如计算节点的芯片数量为16，任务的总芯片数量为64，sp-block为32。那么此任务将会被划分为2个逻辑超节点，即Pod（rank=0）和Pod（rank=1）会被划分为1个逻辑超节点。Pod（rank=2）和Pod（rank=3）将会被划分为另一个逻辑超节点。
此时Pod（rank=0）和Pod（rank=1）之间使用HCCS网络通信，Pod（rank=2）和Pod（rank=3）之间也使用HCCS网络通信。但是Pod（rank=0/1）和Pod（rank=2/3）之间使用RoCE网络通信。

图1 灵衢总线设备节点网络

父主题： 亲和性规则