Atlas 900 A3 SuperPoD 超节点
Atlas 900 A3 SuperPoD 超节点是华为研发的高性能AI计算集群,由多个计算节点组成。每个计算节点上,2个昇腾AI处理器之间通过SIO互联形成一个HiAM模组,例如0号和1号昇腾AI处理器形成一个HiAM模组;每个计算节点包含8个HiAM模组。HiAM模组之间采用HCCS-L1互联的方式连接;计算节点之间采用HCCS-L2互联的方式连接。通过L1端口级联和L2交换互联可以扩展多种规格的超节点。
任务可申请昇腾AI处理器的数量为1、2、4、6、8、10、12、14、16,申请的昇腾AI处理器需要优先占满整个计算节点;申请的昇腾AI处理器个数为偶数时,需要占满整个HiAM模组。例如任务申请的昇腾AI处理器数量为2,计算节点剩余的昇腾AI处理器序号为0、2、3和4时,由于只有2号和3号处于一个HiAM模组中,则该任务只能使用2号和3号昇腾AI处理器。分布式任务可申请的昇腾AI处理器的数量只能为16。
灵衢总线设备节点网络说明
- 同一逻辑超节点中的计算节点之间使用HCCS网络通信,不同逻辑超节点中的计算节点之间使用RoCE网络通信。当任务的逻辑超节点数量(任务逻辑超节点数量=任务总芯片数量/sp-block)大于1时,请务必确保计算节点间RoCE网络的连通性。
- 譬如计算节点的芯片数量为16,任务的总芯片数量为64,sp-block为32。那么此任务将会被划分为2个逻辑超节点,即Pod(rank=0)和Pod(rank=1)会被划分为1个逻辑超节点。Pod(rank=2)和Pod(rank=3)将会被划分为另一个逻辑超节点。
- 此时Pod(rank=0)和Pod(rank=1)之间使用HCCS网络通信,Pod(rank=2)和Pod(rank=3)之间也使用HCCS网络通信。但是Pod(rank=0/1)和Pod(rank=2/3)之间使用RoCE网络通信。
图1 灵衢总线设备节点网络


父主题: 亲和性规则